メディア

故障しやすいHDDはどれ? メーカーや容量に関係があるのか

大容量データを保存する際、HDDにはまだまだ優位性がある。だが、HDDは故障するかもしれない。どのメーカーの、さらにはどのモデルのHDDが故障しやすいのだろうか。

» 2023年06月02日 07時00分 公開
[畑陽一郎キーマンズネット]

 勢いがあるSSDと比べて、HDDはいくぶん時代遅れに見える。だが、2022年時点で3000万台以上が出荷されており、データセンターなど非常に大量のデータを扱う組織ではまだまだ主流の位置にある。

 ここで気になるのが、どのメーカーのHDDが故障しにくく、どのHDDが故障しやすいのかだ。

 クラウドストレージサービスを提供するBackblazeは世界中のデータセンターで10年以上大量のHDDとSSDを運用してきた。同社は2023年5月4日に自社のデータセンターにおけるHDDの故障率などを統計レポートとして発表した。2023年第1四半期のデータだ。

 2022年第1四半期末の時点で、Backblazeは24万678台のHDDとSSDを管理していた。そのうち4400台が起動ドライブ(3038台がSSD、1362台がHDD)だった。今回の統計レポートでは起動ドライブを除く23万7278台のHDDに焦点を当てた。実際の故障率の他、「生涯故障率」も算出した。ドライブのサイズやモデルごとに、故障したHDDの「平均年齢」についても情報がある。以下、同社の統計レポートの内容を紹介しよう。

2023年第1四半期のHDDの故障率は

 今回の統計レポートでは、2023年第1四半期に顧客データの保存に使用されたHDDを対象とした。分析したモデルはWestern DigitalのHGSTブランド、Seagate Technologyブランド、東芝ブランド、Western Digitalブランドの計30だ。

2023年第1四半期におけるHDDの故障率 Backblazeがデータセンターで使用する4ブランド、30モデルのHDDの年間平均故障率(AFR)などを示した。表の項目は「メーカー名(ブランド名)」「モデル名」「容量」「台数」「平均稼働日数」「総稼働日数」「故障台数」「年間平均故障率」(提供:Backblaze)

年間平均故障率がわずかに増加

 このデータから分かることは次の通りだ。まず2023年第1四半期の年間平均故障率(AFR:Annualized Failure Rate)は1.54%だった。これは2022年第4四半期の1.21%、1年前の2022年第1四半期の1.22%よりも大きい。四半期ごとのAFRの数値は変動しやすいものの、さらなる調査が必要かもしれない。なお、AFRはあるモデルの故障した台数を総稼働日数で割り、365を掛けた値だ(さらに100倍して%表示にする)。例えば、上の表の1行目にある「HMS5C4040ALE640」であれば、1÷334847×365×100=0.11(%)という計算になる。

 2023年第1四半期のデータに挙げた次の3つのHDDは、2022年第4四半期から2023年第1四半期にかけて、AFRがそれぞれ2倍以上に増加した(故障率が急激に高まった)。

2022年第4四半期から2023年第1四半期にかけて、AFRが増加した3モデル 表の項目は「メーカー名」(ブランド名)、「モデル名」「容量」「2022年第4四半期の総稼働日数「同AFR」「2023年第1四半期の総稼働日数」「同AFR」「AFRの増加率」(提供:Backblaze)

故障しにくいモデルはこれだ

 2023年第1四半期に全く故障しなかったモデルは4つ、故障台数が1台にとどまったモデルは4つあった。

全く故障しなかったまたは故障台数が1台だったモデル(提供:Backblaze)

 ただし、この表の内容をそのままうのみにしてはいけない。なぜなら総稼働日数が5万日未満のモデルは統計的に経過時間が不十分だからだ。この点を考慮すると、Seagateの16TBのモデル(ST16000NM002J)の成績は実は分からない。なお、同モデルは前四半期も故障ゼロだった。Seagateの8TBのモデル(ST8000NM000A)も2022年第3四半期に初めて設置されており、成績は不明だ。

HDDの容量別にみると16TBの信頼性が高く、10TBの信頼性が低い

 故障率をHDDの容量やブランドごとにまとめてみると、興味深いことが分かった。容量ごとにかなりのばらつきがある。

 6TBと10TBにはそれぞれ1モデルしか含まれておらず、それぞれの総稼働日数が少な目だ(6TBのモデルは7万9651日、10TBのモデルは10万5443日)。これ以外の容量のモデルは、少なくとも総稼働日数が220万日あるため、四半期ごとの年間故障率は十分信頼できる。

HDDの容量別に見た年間平均故障率(提供:Backblaze)

 ブランド別の故障率はどうだろうか。次の図はブランドごとに故障率を表したものだ。Backblazeが運用する古いHDDの多くはSeagateブランドだ。これが全体のAFRを押し上げた。4TBのHDDの60%はSeagateブランドであり、運用期間は平均89カ月だ。さらに、稼働中の8TBのHDDは95%以上がSeagateブランドで、運用期間は平均70カ月以上だ。過去の統計からも古いドライブは故障が多い傾向にあることが分かっている。

 この他にも、Seagateブランドだから故障率が高いとはいえない理由がある。Seagateモデルの6TBのHDDは、運用期間が95.4カ月で、2023年第1四半期のAFRが0.92%、生涯AFRが0.89%という優秀な成績を残した。

ブランド別に見た年間平均故障率(提供:Backblaze)

HDDの平均年齢を求める方法が見つかった

 2023年3月にSituation Publishingが「Blocks & Files」で故障したHDDの平均年齢をまとめた結果を公表した。Secure Data Recoveryのティモシー・バーリー氏の研究成果に基づいたものだ。主な内容は、2007台の故障したHDDを分析した結果、故障時点の平均年齢が1051日、つまり2年10カ月だということだ。

 Backblazeはこの手法に基づいた平均年齢を今回算出した。

 Blocks & Filesは故障する前にドライブが動作していた時間をどのように収集したのかが明記していないため、「S.M.A.R.T.」にある電源投入時間(Power On Hours)をそのまま用いたと仮定した。Backblazeはまず今回のデータセット内で見つかった故障したHDDについて、各ドライブの電源投入時間を取得した。データをまとめた結果、2013年4月10日から2023年3月30日までの間に故障した1万8605台のHDDのリストを得た。

 このデータは故障した日付とシリアル番号、モデル名、容量、障害の有無、SMARTの生の値から成る。

Block & Files方式で取得したデータの例(提供:Backblaze)

 このデータに含まれるHDDのうち、まず1355台の起動ドライブを取り除いた結果、1万7250台のHDDが残った。次に2つの理由から95台のHDDを削除した。第1の理由は、故障したHDDにデータが記録されていなかったか、SMARTの生データが0だったことだ。第2の理由は、故障したHDDの1つ以上のフィールドに境界外のデータが含まれていたことだ。「capacity_bytes」フィールドがマイナスの値だったり、モデル自体が破損していた。つまり、これらのHDDは良い状態になかったため、収集できたその他のデータも信頼できない可能性があった。

 結局、分析対象の故障したHDDは1万7155台残った。平均年齢を計算すると、2万2360時間(932日)、つまり2年6カ月強になった。これは、Blocks & Filesが公開した2年10カ月とかなり近い値だが、Backblazeはさらに研究を重ねた。

モデルや容量別に見た平均年齢はどうだったのか

 今回の故障データには、72モデルが含まれている。表が大きくなり過ぎるため、50回以上の故障を記録したモデルに絞ったところ、30モデルが残った。

 当然のことながら、データ全体の平均年齢(2年6カ月)を上回るモデルや下回ったモデルがある。小容量のモデル(1TB、1.5TB、2TBなど)の平均年齢は、2年6カ月よりも高かった。逆に、大容量のモデル(12TB、14TBなど)には、平均年齢がこれを下回っているものが多い。

モデルと容量別に見た故障発生時の平均年齢 表の項目は「メーカー名」(ブランド名)、「モデル名」「容量」(TB)、「故障回数」「平均年齢」(年で四捨五入)、「1カ月当たりの故障台数」(提供:Backblaze)

 Backblazeによれば、これだけから結論を出すのはまだ早いという。容量別に平均年齢を調べる必要がある。すると、小容量モデルの平均年齢が大容量モデルより高いという一般的な傾向が見えた。

容量別に見た故障発生時の平均年齢 容量(TB)、故障回数、平均年数(年で四捨五入)、1カ月当たりの故障台数を示した(提供:Backblaze)

 なぜ容量によって平均年齢が変わるのだろうか。Backblazeはプラッタの数や記録面密度の向上、ヘリウム封入の有無などHDDのハードウェアの改善を考える必要はないと指摘した。なぜなら、Blocks & Files方式のデータセットでは1TBや1.5TB、2TB、3TB、5TBのモデルがもう稼働していないからだ(この記事の冒頭に挙げた表にも含まれていない)。逆に、大容量のモデルのほとんどは稼働中であり、「まだ故障していない」。つまり、今後数カ月から数年の間に大容量モデルが故障するようになり、平均年齢が変化する可能性がある。

 Backblazeはこの時点で分析をやめなかった。データセンターでもう稼働していないHDDに絞って計算できるからだ。すると、35のモデル、3379台のHDDが残った。平均年齢は2年7カ月だ。この年数はBlocks & Filesが発表した2年10カ月とほぼ一致する。

 まとめると、HDDの平均年齢について、3種類の値が得られた。Secure Data Recoveryのバーリー氏のデータが1つ、あとの2つはBackblazeが算出したものだ。

情報源 故障したHDDの数 平均年齢
Secure Data Recovery 2007台の故障したHDD 2年10カ月
Backblaze 1万7155台の故障したHDD(全モデルを対象) 2年6カ月
Backblaze 3379台の故障したHDD(生産終了したモデルのみ) 2年7カ月

 なお、Backblazeによれば、HDDが故障するまでの時間を求める方法は、Blocks & Files方式以外にもある。カプランマイヤー法だ。カプランマイヤー法は生物科学分野において、治療を受けてから一定期間生存した被験者の割合を測定し、平均余命を予測するために利用されている手法だ。HDDのブランドやモデルといった異なる集団ごとに平均余命(生存)曲線を描くことができる。カプランマイヤー法の優れた点は、時間の経過とともに故障率を確認できることだ。つまり「今日HDDを購入した場合、X年生存する可能性はどの程度か」といった質問に回答できる。ただし、Backblazeは今回、このデータを公開していない。

10年間のデータから見たHDDの生涯故障率は?

 Backblazeは2023年第1四半期におけるHDDの故障率の他に、同じHDD(23万6893台)を対象として2013年4月20日から2023年1月31日までの約10年間の年間平均故障率も計算した。さらに95%の信頼区間の低値と高値も算出している(低値と高値の差が小さいモデルは故障率のばらつきが小さいことを示す)。

HDDの故障率 表の項目は「メーカー名」(ブランド名)、「モデル名」「容量」「台数」「総稼働日数」「故障回数」「年間平均故障率」「AFRについて95%信頼区間の低値」「AFRについて95%信頼区間の高値」(提供:Backblaze)

 表にある全HDDの生涯AFRは1.40%だ。なお、前四半期は1.39%だった。各HDDのモデルには固有のAFRの値があるものの、Backblazeの全てのHDDの生涯AFR値は1.40%前後に落ち着いているようだという。

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。

編集部からのお知らせ