メディア

あのメーカーのHDDが「故障ゼロ」 故障しやすいものはどれだ

HDDは比較的「枯れた」製品だが、故障のしやすさにはかなりの差がある。どのメーカーの、どのモデルのHDDが故障しやすいのだろうか。2023年夏の猛暑の影響はどうだったのだろうか。

» 2023年11月21日 07時00分 公開
[畑陽一郎キーマンズネット]

 クラウドストレージサービスを提供するBackblazeは複数のデータセンターで10年以上、大量のHDDとSSDを運用してきた。同社は2023年11月14日に自社のデータセンターにおけるHDDの故障率などを統計レポートとして発表した。2023年第3四半期のデータだ。

 2022年第3四半期末の時点で、Backblazeは26万3992台のHDDとSSDを運用していた。そのうち4459台が起動ドライブ(3242台がSSD、1217台がHDD)だった。今回の統計レポートでは起動ドライブを除く25万9533台のHDDに焦点を当てた。実際の故障率の他、「生涯故障率」も算出した。HDDのサイズやモデルごとに、故障したHDDの「平均年齢」についても情報がある。以下、同社の統計レポートの内容を紹介しよう。

HDDの故障率はどうだったのか

 今回の統計レポートでは、2023年第3四半期にデータセンターで顧客のデータの保存に使用されたHDDを対象とした。分析したモデルはWestern DigitalのHGSTブランド、Seagate Technologyブランド、東芝ブランド、Western Digitalブランドの計32モデルだ。

 図1は2023年第3四半期における32モデルの統計データをまとめたものだ。

図1 2023年第3四半期におけるHDDの故障率 Backblazeがデータセンターで使用する4ブランド、32モデルのHDDの年間平均故障率(AFR)などを示した。表の項目は「メーカー名(ブランド名)」「モデル名」「容量」「台数」「平均稼働日数」「総稼働日数」「故障件数」「年間平均故障率」(提供:Backblaze)

 なお、年間平均故障率(AFR)は数字が小さいほど故障しにくいことを意味する。図1のデータからAFRを求めるには、求めたいモデルの故障件数を総稼働日数で割り、365を掛ける(さらに100倍して%表示にする)。図1の1行目にある「HGST HMS5C4040ALE640」であれば、「2÷308368×365×100=0.24(%)」という計算になる。AFRの計算にはHDDの台数は直接関係しない。なお、統計的に信頼性の高いAFRを示したモデルについては図5にまとめた。

22TBのモデルが登場

 図1にある32モデルについて、特徴的なものを紹介しよう。図1の一番下にはWestern Digitalの22TBのHDD(モデル:WUH722222ALE6L4)が掲載されている。1204台が稼働中だ。このHDDは2023年9月29日に導入されたため1日しか稼働しておらず、故障はゼロだ。なお、Western Digitalは2023年11月に24TBのモデルと28TBのモデルの量産出荷を開始した。HDDの大容量化はまだまだ止まらないようだ。

101カ月運用中のSeagateのHDDが故障ゼロ

 稼働期間が長く、故障しにくいモデルがあった。平均稼働期間101.1カ月のSeagate製品(容量6TB、モデル:ST6000DX000)だ。2023年第3四半期には883台のHDDが故障ゼロを記録し、AFRは0.00%、後ほど紹介する生涯AFRは0.88%だった。

故障しなかったモデルは6つ

 第3四半期は、6つのモデルで故障ゼロを達成した。しかし、上述の6TBのSeagate製品の故障ゼロだけが意味のある結果だ。なぜなら、AFRの妥当性を示す際、統計的に十分なデータ量を確保するための総稼働日数は最低でも5万日以上必要だからだ。

ほとんど故障しなかったモデルは4つ

 第3四半期中に故障が1件だけ発生したHDDは4モデルあった。5万日という基準を適用すると、2つのHDDが目立った(図2)。

  • Western Digital 16TB(モデル:WUH721816ALE6L0)のAFRは0.15%(総稼働日数24万5361日)
  • 東芝 14TB(モデル:MG07ACA14TEY)のAFRは0.63%(総稼働日数5万879日)
故障件数が1件だけだった2モデルのデータ(提供:Backblaze)

四半期ごとのAFRが低下

 2023年第3四半期の全HDDの四半期別平均AFRは図1の通り1.47%だった。同第2四半期の2.2%よりも低く、1年前の1.65%と比べても低い。四半期ごとのAFRは、その四半期のデータのみに基づいているため、四半期ごとに変動することが多い。

 2023年第2四半期のAFRが2.2%と高かった理由はHDD群全体の老朽化によるものであり、特に特定の8TBや10TB、12TBモデルがAFRを増やしていた可能性があると報告済みだ。だがこの予測は第3四半期に裏切られ、ほぼ3分の2のモデルの年間平均故障率が第2四半期から低下し、増加したモデルはわずかだった。ここには、疑わしい8TBや10TB、12TBモデルも含まれている。第2四半期のデータが異常だとBackblazeは結論付けた。

 第3四半期で運用を止めたHDDの平均使用年数は8年強で、幸先の良いスタートだったという。なお、古い4TBのモデルはまだ2万8963台が残っている。

100年ぶりの暑い夏と統計データ

 BackblazeはシステムとHDDを継続的に監視している。そのため、航空宇宙局(NASA)が2023年の夏を観測史上最も暑い夏だと発表したことには意外性がなかったという。記録的な夏の暑さは、HDDの温度アラートという形でBackblazeの監視システムに現れた。

 ストレージサーバのHDDが熱を持つ理由はさまざまだ。HDD自体が故障した場合はもちろん、ストレージサーバのファンが故障した、他のコンポーネントが余分な熱を発した、空気の流れが何らかの形で制限された、といった理由だ。さらに、データセンター内の周囲温度が夏に上昇することが多いことから、温度のアラートが増えた。

 第3四半期のHDDの温度データを見直したところ、少数のHDDが少なくとも1日間、製造元が定めた最高動作温度を超えたという。最高動作温度が55℃の東芝製品(12TBや14TB、16TBのみ)を除き、ほとんどのHDDの最高動作温度は60℃だ。第3四半期に稼働した25万9533台のデータHDDのうち、製造元が定めた最高動作温度を超えたHDDは354台(0.0013%)だった。このうち故障したHDDは2台のみで、第3四半期末時点で352台のHDDが稼働している。

 温度変動はデータセンターの運営につきものであり、このような温度アラートは前代未聞のことではない。だが、今後ますます暑くなる夏に備えて、Backblazeのデータセンターチームは根本的な原因を調査しているという。

高温はHDDにどの程度影響を与えるのか

 第3四半期に最高温度を超えて故障した2台のHDDは、第3四半期のAFRの計算から除外した。どちらのモデルも4TBのSeagate製品(モデル:ST4000DM000)だった。最大温度を超えた残りの352台のHDDは第3四半期に故障しなかったため、第3四半期の統計に含まれている。

 第4四半期から、Backblazeはこの352台のHDDをAFRの計算から除外し、「ホットドライブ」と名付けた別の追跡対象にする。これによって、最高温度を超えたHDDを追跡し、故障率をメーカーの仕様内で動作したHDDと比較できる。ホットドライブに含まれるHDDの数は限られているが、監視を強化することでHDDの故障の増加を特定し、迅速に検知して対処できるようになるという。

データセンター別の故障率はどうだったか

 Backblazeは2023年第2四半期から5つのデータセンター別に統計データを収集し始めた。今回はデータセンター別に計算したAFRも公表した。図3に2023年第3四半期における5つのデータセンター別の故障率を示す。

図3 データセンター別に見たHDDの故障率 表の項目は「データセンター名」(nullはデータセンターが不明)、「台数」「平均稼働日数」「総稼働日数」「故障件数」「年間平均故障率」(提供:Backblaze)

 図3の結果から分かることは、「sac0」が全てのデータセンターの中で1.94%と最もAFRの値が高いことだ。理由は2つ考えられるという。一つはsac0に最も古いHDDが集まっていることだろう。HDDのような工業製品の故障率は「バスタブカーブ」に沿った形になることが多いからだ。もう一つの要因はsac0(sac2にも少し関連する)は、45のHDDを内蔵する最も古い型の「ストレージポッド」を使っていることだ。

 「iad1」データセンターはBackblazeにとって米国東部地域の基盤であり、約1年前に稼働して以来、急速に成長している。新しいデータと、Backblazeのクラウドレプリケーション機能を利用して別の地域にデータのコピーを自動的に作成する顧客の組み合わせによる成長だという。

 図3のデータは第3四半期のみのもので、モデル当たり60台未満のドライブを含む。このデータを今後数四半期にわたって追跡することで、データセンターによってドライブの故障率が異なるのか、もし異なるのであれば、その理由は何なのかを明らかにしたいとBackblazeは記している。

HDDの生涯AFRはどうなったのか

 2023年9月30日現在、顧客データの保存に使用されているHDDのうち、Backblazeは25万9084台を追跡している。データセンターでHDDを運用開始した時点から、HDDごとに総稼働日数とドライブ故障数を収集している。これらのドライブをモデルごとにグループ化し、各モデルのドライブ日数と故障件数を運用年数にわたって合計した結果が図4だ。

図4 HDDの生涯AFR 項目は「メーカー名」(ブランド名)、「モデル名」「容量」「台数」「総稼働日数」「故障件数」「年間平均故障率」「AFRについて95%信頼区間の高値と低値の差」(提供:Backblaze)

 図1と図4の違いは2つある。図1は2023年第3四半期に限ったデータだが、図4は数年間にわたる運用データだ。もう一つは図4の右端にある信頼区間の値(Confidence Interval)だ。これは95%信頼区間の高値と低値の差だ。この値が小さいほど、図4にあるAFRの安定性(信頼性)が高い。この値は0.5%未満が望ましいが、0.5%以上の値に意味がないというわけではない。この値が大きい場合、より多くのデータが必要か、またはデータが多少一貫していないことを意味する。

 図5は信頼区間の高値と低値の差が0.5%未満のモデルを図4から抜き出したもので、容量とAFRでソートしてある。図5にある全てのモデルは総稼働日数が5万日を超えており、統計的な信頼性が高い。

図5 信頼区間の低値と高値の差が0.5%未満のHDDの一覧 項目は「メーカー名」(ブランド名)、「モデル名」「容量」「台数」「総稼働日数」「故障件数」「年間平均故障率」「AFRについて95%信頼区間の高値と低値の差」(提供:Backblaze)

 図5から分かるのは、16TBモデルに限れば、Western DigitalのモデルWUH721816ALE6L0が最も故障しにくい(AFR=0.13%)ことだ。図5にある他の容量のモデルと比較しても最も故障しにくい。なお16TBモデルであれば東芝のMG08ACA16TEが最も故障しやすかった(AFR=1.28%)。

 図5にある4TBや6TB、8TB、12TBの一部のモデルは、現在すでに生産されていない。HGSTブランドの12TBモデルはまだ市場にあるが、Western Digitalブランドに変わっており、別のモデル番号が付けられている。Backblazeは内部構造が変わっているのかどうかを確認していない。

 Backblazeによれば、図5からは全HDDについての生涯AFRが四半期ごとにあまり変化していないことが分かるという。この2年間は生涯AFRの平均が1.39〜1.45%の間で推移している。このような結果が出る理由は使用期間が長いモデルが多いため、新しいHDDの運用を開始したリ、古いHDDの運用を停止してもAFRの数値が上下しにくいからだ。

 個々のモデルの耐用年数の統計は非常に有用だが、全HDDについて求めた生涯AFRは、HDDの台数が増えるにつれて、変化しなくなっていく。

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。