検索
特集

数万時間の運用で分かった「タフなHDD」は? 過酷な運用でも壊れなかった4つのモデル

クラウドストレージを運用するBackblazeが約33万台のHDDについて統計レポートを公開した。4ブランドの約30種類のモデルについて故障率を示しており、全く故障しないHDDや故障が多いHDDが分かる。そもそも「HDDが故障した」とはどのような意味なのかも解説した。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 社内のファイルサーバやNASなどを管理する情報システム部門はHDDやSSDの故障に備えておかなければならない。そのため、自社で運用するHDDの故障傾向や状態に関する情報を収集しておくことが重要だ。ここで参考になるのはデータセンターの事例だ。

 HDDやSSDなどを数十万台規模で運用するBackblazeは2025年11月11日(現地時間)、自社のデータセンターにおけるHDDの故障率などを統計レポートとして発表した。2025年第3四半期(2025年7月1日〜同9月30日)、Backblazeは世界中のデータセンターに設置されたクラウドストレージサーバが内蔵する約33万台のHDDを監視していた。同社が公開したHDDの監視データを基に、ブランドや容量ごとの故障率などを紹介する。

 Backblazeが2025年9月30日時点で運用しているHDDは33万2915台あり、その大半の32万8348台を占めるのがデータ格納用だ(図1)*。ブランド別ではSeagate Technology(以下、Seagate)が34.08%と最も多く、次いでToshiba(33.69%)、Western Digital(23.92%)、HGST(8.31%)だった。

*起動専用のドライブが3970台ある。


図1 Backblazeが運用しているデータ格納用HDDの概要(提供:Backblaze)

そもそも「故障率」をどう計算しているのか?

 データ格納用に使われているHDDの故障率の全体像をまず示す(図2)。図2にある年間平均故障率(AFR)は数字が小さいほど故障しにくい。故障件数(Drives failed)を総稼働日数(Drive days)で割り、365を掛け、100倍して%表示した数値だ*。

*「Quarterly:Q3 2025という行の計算は次の通り。1250÷29431703×365×100=約1.55%


図2 データ格納用HDDの故障率。Period:期間、Drive days:総稼働日数、AFR:年間平均故障率(提供:Backblaze)

 3種類ある期間(Period)はそれぞれ2025年第3四半期内(Quarterly Q2 2025)、年間(Annual 2024)、Lifetime(生涯、つまり通算)を意味する。

「故障ゼロ」を達成した4つの優秀モデルはどれ?

 以下では、運用中のデータ32万8348台のHDDについて、2025年第3四半期内の故障率と生涯故障率について順に示した。まずは第3四半期内の故障率だ(図3)*。

ごく短期間しか運用していないHDDや、台数が少ないモデルは統計的に意味がないため、2025年第3四半期の総稼働日数が1万日以下だったり、台数が100台未満だったりしたものを除いたモデルの故障率を図3に示した。4つのブランド別に31モデルが示されている。HDDの容量は4T〜24TBだ。


図3 HDDのモデル別の故障率 項目は左からMFG:メーカー名(ブランド名)、Model:モデル名、Size:容量、Drive count:台数、Avg.age(months):平均稼働月数、Drive days:総稼働日数、Failures:故障件数、AFR:2025年第3四半期の年間平均故障率(提供:Backblaze)

 図3から分かることは4つある。第一に故障率が上昇したことだ。前四半期のAFRは1.36%だったが、今期は1.55%であり、0.19ポイント上昇した。

 第二に初めて24TBのHDDがデータに加わった。Toshiba「MG11ACA24TE」だ。ただし、台数が2400台で総稼働日数が2万4148日だったので、図3には掲載できたものの、次に示す生涯故障率を示す基準には達していない。

 第三は全く故障しなかったHDDが4モデルあったことだ。4番目のモデル今紹介した新規のHDDだ。

Seagate「HMS5C4040BLE640」(4TB)
Seagate「ST8000NM000A」(8TB)
Toshiba「MG09ACA16TE」(16TB)
Toshiba「MG11ACA24TE」(24TB)

 2番目のSeagate「ST8000NM000A」(8TB)はBackblazeの統計レポートで何度も故障ゼロとして取り上げられた優秀なモデルだ。最後に故障が起きたのは2024年第3四半期で、それも1回だけだった。

 第四は故障の「ピーク値」がこれまでになく高かったことだ。このため、Backblazeは記事の後半に示したように四分位範囲(テューキー法)を用いた外れ値分析をした。この情報に基づき、四半期のAFRが5.88%を超えるモデルを外れ値とみなした。該当したのは3モデルだ。容量の次の数字がAFRだ。

Seagate「ST10000NM0086」(10TB、7.97%)
Seagate「ST14000NM0138」(14TB、6.86%)
Toshiba「MG08ACA16TEY」(16TB、16.95%)

生涯故障率はどうだったのか

 Backblazeは四半期ごとの故障率に加えて、生涯故障率も計算した。対象になったのは台数や稼働日数の条件*を満たす27モデルの40万2675台だ(図4)。

*2025年第2四半期末時点で台数が500台以上あり、生涯の総稼働日数が10万日以上のモデルが対象になった。


図4 HDDのモデル別の故障率 項目は左からMFG:メーカー名(ブランド名)、Model:モデル名、Size:容量、Drive count:台数、Avg.age(months):平均稼働月数、Drive days:総稼働日数、Failures:故障件数、AFR:生涯故障率(提供:Backblaze)

 図4から分かることは3つある。第一に生涯AFRが非常に安定していたことだ。今回は1.31%だったが、前期は1.30%、その前の期は1.31%だったからだ。

 第二に約40万台の中でも最も導入時期が早かった4TBモデルの影響だ。Backblazeは4TBモデルの運用を徐々に終了している。データセンターに残っている台数は「ALEモデル」が11台、B「LEモデル」が187台のみと少ない。しかし、生涯を通じた母数が比較的大きかったため、稼働日数が追加されていっても平均稼働月数はほとんど増えない。

 第三に大容量HDDが着実に増えてきたことだ。 図4の掲載基準を満たす20TB以上のモデルは、前期から7936台増えた。先ほど紹介したように、この数にはToshiba「MG11ACA24TE」(24TB)は入っていない。Toshibaモデルを加えると、20TB以上のHDDは6万7939台もあり、全体の約21%を占める。

そもそもHDDが故障するとはどういう意味なのか

 Backblazeの調査によればHDDの故障は一般的な工業製品とは異なるようだ。初期には故障しにくく、寿命の末期で急に壊れる。

 Backblazeによると、「故障をどのように定義しているのか」と問われることがあるという。故障したかどうかは直感的に分かりそうだが、実はこれは難問なのだという。この質問に答えるには、データセンター内部のドライブフリート監視ツール(SMART統計を利用)や同社のHDD情報収集ツール(Drive Stats collection program)、データエンジニアリング層の運用管理が関係するという。

SMART統計からは何が分かるのか

 故障の定義についての質問に答えるため、まずはSMART統計のレポートについて紹介しよう。

 Backblazeは「smartmontools」(https://www.smartmontools.org/)を使ってHDDのSMART情報を収集している。さらに「drive sentinel」と呼ばれる別の監視ツールを使用して、特定のしきい値を超える読み出し・書き込みエラーやその他の異常をフラグ付けしている。

 あるHDDを交換すべきかどうかを決定する主な指標は、HDDが読み出しに対して「回復不可能なメディアエラー」(uncorrectable medium errors)を返したときだという。HDDが内部のディスクからデータを読み出す際、データの整合性チェックに失敗することがある。そのときHDDは内部のエラー訂正コードを使ってデータの再構築を試みる。再構築ができなかった場合、HDDはホストに対して回復不可能なメディアエラーとして報告して、読み出せなかった部分を「保留中の代替処理」(pending reallocation)としてマークする。これはSMARTにおいて「Current_Pending_Sector」のような属性で表示される。

 SATA接続でHDDを制御する専用のサーバケース(ストレージポッド)では、drive sentinelがHDDから報告された回復不可能なエラーの数をカウントする。カウント数がしきい値を超えたとき、そのHDDへのアクセスは遮断される。旧型のストレージポッドでは、5台のHDDが単一のSATAリンクを共有していたため、1台のHDDがしきい値に達すると、5台とも影響を受けていた。

 SASトポロジーを使ってHDDを接続するDell TechnologiesやSuper Micro Computerのポッドでは、エラーの報告方法が異なるため、drive sentinelはHDDへのアクセスを遮断しない。しかし、そもそもSASは問題のあるHDDが他に与える影響を最小限に抑えるため、それほど課題にはならない。

Drive Statsプログラムからは何が分かるのか

 Backblazeは図2や図3のデータを収集する目的でカスタムプログラムを使っている。このプログラムはどのように動いているのだろうか。

 このプログラムのロジック*は比較的単純だ。図2や図3に示したようなDrive Statsにおける「故障」は、HDDがレポート対象の集団から消えたときに発生したと見なされる。そのHDDは再び正常に動作するまで「故障」として扱われる。各HDDはシリアル番号を使って追跡されており、日次ログを報告しているため、かなり詳細な追跡が可能だ。

*このC++プログラムはpodstatsジェネレーターと呼ばれている。各ストレージポッドにはBackblazeの顧客のデータが保持されており、podstatsジェネレーターは各ストレージポッドに対して数分ごとに実行される。SMART統計の他、幾つかの他の属性を収集して、.xmlファイルに変換する。.xmlファイルは各データセンターの中央ホストにプッシュされる。最後に中央ホストからDrive Statsに送られる。

データエンジニアリング層は何をしているのか

 SMART統計などの情報はこうして一つにまとめられる。だが、これは単なるデータだ。データインテリジェンスを適用して文脈を加える必要がある。あるHDDが1日程度オフラインになることはよくある。これはSMART統計の日次ログを収集するツールにHDDが応答しないことなどを意味するが、単にケーブルが緩んでいるといった単純な理由かもしれない。では、そのようなHDDが1日後、あるいは30日後にツールに応答した場合、その期間のどの時点で故障したと分類されるのだろうか。

 結論を言えば選択期間(今回は2025年第3四半期)の最終日にデータをあるHDDのデータが記録されている場合、そのHDDは故障していないと見なす。

 なお、Backblazeは以前、データセンターの作業チケットを手動で相互参照していた。現在はそのプロセスをSQLで自動化している。SQLの内容を分かりやすく説明すると次のようになる。

(1)クエリが相互参照する3つの「人間が管理するテーブル」がある。HDDのシリアル番号がどれかのテーブルに現れた場合、そのテーブルの機能に応じて故障か否かが分かる
(2)見つかったシリアル番号が、HDD交換の作業依頼書(Jiraチケット)における「主要シリアル番号」だった場合、そのHDDは故障している
(3)HDDのシリアル番号が、クローン作成用のJiraチケット、または(一時的な)交換チケットの「ターゲットシリアル番号」だった場合、そのHDD故障していない

 Backblazeが各四半期の末に「Drive Statsレポート」を作成する際、HDDが各種作業トラッカーのいずれかに現れたか、あるいは集団に再登録されていなければ、それは「故障」と見なされる。

 まれなケースとして、四半期の収集期間よりも長く続く作業を継続している場合に、いわゆる「見せかけ」の故障が起こることがある。今回故障率が16.9%と高かったToshibaのHDDの外れ値だ。これについては文脈を説明した後に説明する。

古いHDDが故障しやすいのか

 記事の前半で触れたように、HDDプール内の一部のHDDでAFRが大きく悪化したため、四分位範囲を用いた外れ値分析を実行した。その分析に基づいて、故障率が5.88%を超えるものは全て外れ値とした。

 狙いはHDDの稼働月数と今四半期のAFRとの関係を可視化することだ。


図5 HDDの稼働月数と今四半期のAFRの関係 稼働月数をX軸に、AFRをY軸に取った。モデル名は横向きに記されている(提供:Backblaze)

 図5は読みにくい散布図かもしれないので、ラベルを取り除いたものも示す(図6)。


図6 HDDの稼働月数と今四半期のAFRの関係(提供:Backblaze)

 Backblazeの関心事は、関係性の「形」だ。もし「HDDは古くなるほど故障率が高くなる」と仮定するなら、図の右上の象限(稼働月数が多いほどAFRが高くなる)に集中するはずだ。しかし、図6のデータはそれよりもはるかに興味深いパターンをたどっている。稼働月数に関係なく、ほとんどのデータポイントがグラフの最も低い領域(X軸近く)に集中している。だが、そのパターンに従わないデータポイントが幾つかある。

 ビジネスインテリジェンス(BI)の文脈では、外れ値を特定するプロセスもまた、アクションにつながるデータだ。「All press is good press」(悪名は無名に勝る)と言うように、HDDを分析する際、データは多ければ多いほど良いという。

 外れ値は3つあった。

Seagate「ST10000NM0086」(10TB、7.97%)
Seagate「ST14000NM0138」(14TB、6.86%)
Toshiba「MG08ACA16TEY」(16TB、16.95%)

Seagate「ST10000NM0086」(10TB)

 このHDDの故障率が高いことには分かりやすい説明がつく。まず、7年以上(92.35カ月)経過していることだ。稼働中のモデルがわずか1018台しかないため、1回の故障が全体の重みに大きく影響する。モデルごとの平均のHDDの数は、今四半期のデータでは平均値で1万952台、中央値で6177台だ。

 これは過去1年間のデータの傾向にも表れている(図7)。


図7 Seagate「ST10000NM0086」の四半期ごとのAFR(提供:Backblaze)

Seagate「ST14000NM0138」(14TB)

 このHDDの稼働月数は5年(56.57カ月)に近づいており、やはりHDDの数が1286台と、比較的少ない。さらに重要なのは、このモデルは過去1年間で高い故障率を示してきた(図8)。


図8 Seagate「ST14000NM0138」の四半期ごとのAFR(提供:Backblaze)

Toshiba「MG08ACA16TEY」(16TB)

 Toshibaのモデルは興味深い傾向を示した。稼働月数は4年未満(44.61カ月)で、HDDプール内に5145台ある。そして、今四半期に突然AFRがひどく悪化した。


図9 Toshiba「MG08ACA16TEY」の四半期ごとのAFR(提供:Backblaze)

 これは何が原因なのだろうか。Backblazeの担当者にとっては意外ではなかったという。同社は東芝と協力してこのモデルのパフォーマンスを最適化するために、東芝が提供したファームウェアアップデートを適用した。作業の際に一部のHDDをポッドから抜き出す必要があったため、故障と判定されてしまったのだ。このモデルが実際に故障したわけではない。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る