数万時間の運用で分かった「タフなHDD」は? 過酷な運用でも壊れなかった4つのモデル
クラウドストレージを運用するBackblazeが約33万台のHDDについて統計レポートを公開した。4ブランドの約30種類のモデルについて故障率を示しており、全く故障しないHDDや故障が多いHDDが分かる。そもそも「HDDが故障した」とはどのような意味なのかも解説した。
社内のファイルサーバやNASなどを管理する情報システム部門はHDDやSSDの故障に備えておかなければならない。そのため、自社で運用するHDDの故障傾向や状態に関する情報を収集しておくことが重要だ。ここで参考になるのはデータセンターの事例だ。
HDDやSSDなどを数十万台規模で運用するBackblazeは2025年11月11日(現地時間)、自社のデータセンターにおけるHDDの故障率などを統計レポートとして発表した。2025年第3四半期(2025年7月1日〜同9月30日)、Backblazeは世界中のデータセンターに設置されたクラウドストレージサーバが内蔵する約33万台のHDDを監視していた。同社が公開したHDDの監視データを基に、ブランドや容量ごとの故障率などを紹介する。
Backblazeが2025年9月30日時点で運用しているHDDは33万2915台あり、その大半の32万8348台を占めるのがデータ格納用だ(図1)*。ブランド別ではSeagate Technology(以下、Seagate)が34.08%と最も多く、次いでToshiba(33.69%)、Western Digital(23.92%)、HGST(8.31%)だった。
*起動専用のドライブが3970台ある。
そもそも「故障率」をどう計算しているのか?
データ格納用に使われているHDDの故障率の全体像をまず示す(図2)。図2にある年間平均故障率(AFR)は数字が小さいほど故障しにくい。故障件数(Drives failed)を総稼働日数(Drive days)で割り、365を掛け、100倍して%表示した数値だ*。
*「Quarterly:Q3 2025という行の計算は次の通り。1250÷29431703×365×100=約1.55%
3種類ある期間(Period)はそれぞれ2025年第3四半期内(Quarterly Q2 2025)、年間(Annual 2024)、Lifetime(生涯、つまり通算)を意味する。
「故障ゼロ」を達成した4つの優秀モデルはどれ?
以下では、運用中のデータ32万8348台のHDDについて、2025年第3四半期内の故障率と生涯故障率について順に示した。まずは第3四半期内の故障率だ(図3)*。
ごく短期間しか運用していないHDDや、台数が少ないモデルは統計的に意味がないため、2025年第3四半期の総稼働日数が1万日以下だったり、台数が100台未満だったりしたものを除いたモデルの故障率を図3に示した。4つのブランド別に31モデルが示されている。HDDの容量は4T〜24TBだ。
図3 HDDのモデル別の故障率 項目は左からMFG:メーカー名(ブランド名)、Model:モデル名、Size:容量、Drive count:台数、Avg.age(months):平均稼働月数、Drive days:総稼働日数、Failures:故障件数、AFR:2025年第3四半期の年間平均故障率(提供:Backblaze)
図3から分かることは4つある。第一に故障率が上昇したことだ。前四半期のAFRは1.36%だったが、今期は1.55%であり、0.19ポイント上昇した。
第二に初めて24TBのHDDがデータに加わった。Toshiba「MG11ACA24TE」だ。ただし、台数が2400台で総稼働日数が2万4148日だったので、図3には掲載できたものの、次に示す生涯故障率を示す基準には達していない。
第三は全く故障しなかったHDDが4モデルあったことだ。4番目のモデル今紹介した新規のHDDだ。
・Seagate「HMS5C4040BLE640」(4TB)
・Seagate「ST8000NM000A」(8TB)
・Toshiba「MG09ACA16TE」(16TB)
・Toshiba「MG11ACA24TE」(24TB)
2番目のSeagate「ST8000NM000A」(8TB)はBackblazeの統計レポートで何度も故障ゼロとして取り上げられた優秀なモデルだ。最後に故障が起きたのは2024年第3四半期で、それも1回だけだった。
第四は故障の「ピーク値」がこれまでになく高かったことだ。このため、Backblazeは記事の後半に示したように四分位範囲(テューキー法)を用いた外れ値分析をした。この情報に基づき、四半期のAFRが5.88%を超えるモデルを外れ値とみなした。該当したのは3モデルだ。容量の次の数字がAFRだ。
・Seagate「ST10000NM0086」(10TB、7.97%)
・Seagate「ST14000NM0138」(14TB、6.86%)
・Toshiba「MG08ACA16TEY」(16TB、16.95%)
生涯故障率はどうだったのか
Backblazeは四半期ごとの故障率に加えて、生涯故障率も計算した。対象になったのは台数や稼働日数の条件*を満たす27モデルの40万2675台だ(図4)。
*2025年第2四半期末時点で台数が500台以上あり、生涯の総稼働日数が10万日以上のモデルが対象になった。
図4 HDDのモデル別の故障率 項目は左からMFG:メーカー名(ブランド名)、Model:モデル名、Size:容量、Drive count:台数、Avg.age(months):平均稼働月数、Drive days:総稼働日数、Failures:故障件数、AFR:生涯故障率(提供:Backblaze)
図4から分かることは3つある。第一に生涯AFRが非常に安定していたことだ。今回は1.31%だったが、前期は1.30%、その前の期は1.31%だったからだ。
第二に約40万台の中でも最も導入時期が早かった4TBモデルの影響だ。Backblazeは4TBモデルの運用を徐々に終了している。データセンターに残っている台数は「ALEモデル」が11台、B「LEモデル」が187台のみと少ない。しかし、生涯を通じた母数が比較的大きかったため、稼働日数が追加されていっても平均稼働月数はほとんど増えない。
第三に大容量HDDが着実に増えてきたことだ。 図4の掲載基準を満たす20TB以上のモデルは、前期から7936台増えた。先ほど紹介したように、この数にはToshiba「MG11ACA24TE」(24TB)は入っていない。Toshibaモデルを加えると、20TB以上のHDDは6万7939台もあり、全体の約21%を占める。
そもそもHDDが故障するとはどういう意味なのか
Backblazeの調査によればHDDの故障は一般的な工業製品とは異なるようだ。初期には故障しにくく、寿命の末期で急に壊れる。
Backblazeによると、「故障をどのように定義しているのか」と問われることがあるという。故障したかどうかは直感的に分かりそうだが、実はこれは難問なのだという。この質問に答えるには、データセンター内部のドライブフリート監視ツール(SMART統計を利用)や同社のHDD情報収集ツール(Drive Stats collection program)、データエンジニアリング層の運用管理が関係するという。
SMART統計からは何が分かるのか
故障の定義についての質問に答えるため、まずはSMART統計のレポートについて紹介しよう。
Backblazeは「smartmontools」(https://www.smartmontools.org/)を使ってHDDのSMART情報を収集している。さらに「drive sentinel」と呼ばれる別の監視ツールを使用して、特定のしきい値を超える読み出し・書き込みエラーやその他の異常をフラグ付けしている。
あるHDDを交換すべきかどうかを決定する主な指標は、HDDが読み出しに対して「回復不可能なメディアエラー」(uncorrectable medium errors)を返したときだという。HDDが内部のディスクからデータを読み出す際、データの整合性チェックに失敗することがある。そのときHDDは内部のエラー訂正コードを使ってデータの再構築を試みる。再構築ができなかった場合、HDDはホストに対して回復不可能なメディアエラーとして報告して、読み出せなかった部分を「保留中の代替処理」(pending reallocation)としてマークする。これはSMARTにおいて「Current_Pending_Sector」のような属性で表示される。
SATA接続でHDDを制御する専用のサーバケース(ストレージポッド)では、drive sentinelがHDDから報告された回復不可能なエラーの数をカウントする。カウント数がしきい値を超えたとき、そのHDDへのアクセスは遮断される。旧型のストレージポッドでは、5台のHDDが単一のSATAリンクを共有していたため、1台のHDDがしきい値に達すると、5台とも影響を受けていた。
SASトポロジーを使ってHDDを接続するDell TechnologiesやSuper Micro Computerのポッドでは、エラーの報告方法が異なるため、drive sentinelはHDDへのアクセスを遮断しない。しかし、そもそもSASは問題のあるHDDが他に与える影響を最小限に抑えるため、それほど課題にはならない。
Drive Statsプログラムからは何が分かるのか
Backblazeは図2や図3のデータを収集する目的でカスタムプログラムを使っている。このプログラムはどのように動いているのだろうか。
このプログラムのロジック*は比較的単純だ。図2や図3に示したようなDrive Statsにおける「故障」は、HDDがレポート対象の集団から消えたときに発生したと見なされる。そのHDDは再び正常に動作するまで「故障」として扱われる。各HDDはシリアル番号を使って追跡されており、日次ログを報告しているため、かなり詳細な追跡が可能だ。
*このC++プログラムはpodstatsジェネレーターと呼ばれている。各ストレージポッドにはBackblazeの顧客のデータが保持されており、podstatsジェネレーターは各ストレージポッドに対して数分ごとに実行される。SMART統計の他、幾つかの他の属性を収集して、.xmlファイルに変換する。.xmlファイルは各データセンターの中央ホストにプッシュされる。最後に中央ホストからDrive Statsに送られる。
データエンジニアリング層は何をしているのか
SMART統計などの情報はこうして一つにまとめられる。だが、これは単なるデータだ。データインテリジェンスを適用して文脈を加える必要がある。あるHDDが1日程度オフラインになることはよくある。これはSMART統計の日次ログを収集するツールにHDDが応答しないことなどを意味するが、単にケーブルが緩んでいるといった単純な理由かもしれない。では、そのようなHDDが1日後、あるいは30日後にツールに応答した場合、その期間のどの時点で故障したと分類されるのだろうか。
結論を言えば選択期間(今回は2025年第3四半期)の最終日にデータをあるHDDのデータが記録されている場合、そのHDDは故障していないと見なす。
なお、Backblazeは以前、データセンターの作業チケットを手動で相互参照していた。現在はそのプロセスをSQLで自動化している。SQLの内容を分かりやすく説明すると次のようになる。
・(1)クエリが相互参照する3つの「人間が管理するテーブル」がある。HDDのシリアル番号がどれかのテーブルに現れた場合、そのテーブルの機能に応じて故障か否かが分かる
・(2)見つかったシリアル番号が、HDD交換の作業依頼書(Jiraチケット)における「主要シリアル番号」だった場合、そのHDDは故障している
・(3)HDDのシリアル番号が、クローン作成用のJiraチケット、または(一時的な)交換チケットの「ターゲットシリアル番号」だった場合、そのHDD故障していない
Backblazeが各四半期の末に「Drive Statsレポート」を作成する際、HDDが各種作業トラッカーのいずれかに現れたか、あるいは集団に再登録されていなければ、それは「故障」と見なされる。
まれなケースとして、四半期の収集期間よりも長く続く作業を継続している場合に、いわゆる「見せかけ」の故障が起こることがある。今回故障率が16.9%と高かったToshibaのHDDの外れ値だ。これについては文脈を説明した後に説明する。
古いHDDが故障しやすいのか
記事の前半で触れたように、HDDプール内の一部のHDDでAFRが大きく悪化したため、四分位範囲を用いた外れ値分析を実行した。その分析に基づいて、故障率が5.88%を超えるものは全て外れ値とした。
狙いはHDDの稼働月数と今四半期のAFRとの関係を可視化することだ。
図5は読みにくい散布図かもしれないので、ラベルを取り除いたものも示す(図6)。
Backblazeの関心事は、関係性の「形」だ。もし「HDDは古くなるほど故障率が高くなる」と仮定するなら、図の右上の象限(稼働月数が多いほどAFRが高くなる)に集中するはずだ。しかし、図6のデータはそれよりもはるかに興味深いパターンをたどっている。稼働月数に関係なく、ほとんどのデータポイントがグラフの最も低い領域(X軸近く)に集中している。だが、そのパターンに従わないデータポイントが幾つかある。
ビジネスインテリジェンス(BI)の文脈では、外れ値を特定するプロセスもまた、アクションにつながるデータだ。「All press is good press」(悪名は無名に勝る)と言うように、HDDを分析する際、データは多ければ多いほど良いという。
外れ値は3つあった。
・Seagate「ST10000NM0086」(10TB、7.97%)
・Seagate「ST14000NM0138」(14TB、6.86%)
・Toshiba「MG08ACA16TEY」(16TB、16.95%)
Seagate「ST10000NM0086」(10TB)
このHDDの故障率が高いことには分かりやすい説明がつく。まず、7年以上(92.35カ月)経過していることだ。稼働中のモデルがわずか1018台しかないため、1回の故障が全体の重みに大きく影響する。モデルごとの平均のHDDの数は、今四半期のデータでは平均値で1万952台、中央値で6177台だ。
これは過去1年間のデータの傾向にも表れている(図7)。
Seagate「ST14000NM0138」(14TB)
このHDDの稼働月数は5年(56.57カ月)に近づいており、やはりHDDの数が1286台と、比較的少ない。さらに重要なのは、このモデルは過去1年間で高い故障率を示してきた(図8)。
Toshiba「MG08ACA16TEY」(16TB)
Toshibaのモデルは興味深い傾向を示した。稼働月数は4年未満(44.61カ月)で、HDDプール内に5145台ある。そして、今四半期に突然AFRがひどく悪化した。
これは何が原因なのだろうか。Backblazeの担当者にとっては意外ではなかったという。同社は東芝と協力してこのモデルのパフォーマンスを最適化するために、東芝が提供したファームウェアアップデートを適用した。作業の際に一部のHDDをポッドから抜き出す必要があったため、故障と判定されてしまったのだ。このモデルが実際に故障したわけではない。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
HDDの故障率が3分の1に激減? データから読み解く、寿命が劇的に伸びたワケ
Backblazeは大量のHDDを13年間にわたってデータセンターで運用してきた。同社が故障率の傾向を詳細に分析した結果、HDDは一般の工業製品の故障傾向に当てはまるバスタブ曲線に従わないことが分かった。これはなぜなのだろうか。そして、HDDを運用する情報システム部門にとって何を意味するのだろうか。
バックアップは「守り」の要、32万台の監視結果から分かったHDD選びの基準とは
大容量HDDは中堅・中小企業がNASやバックアップ用ファイルサーバを構築する際に役に立つ。このような用途でHDDを使う場合、「故障率」をなるべく低く保ちたい。どのようなHDDを選べばよいのだろうか。
一目で分かる「壊れやすいSSD、壊れにくいSSD」
SSDはHDDと比較して壊れにくいと言われている。だが、SSDのモデルによって10倍以上違う。どのメーカーのどのSSDが壊れにくいのだろうか。






