HDDは長く利用していると起動に失敗したり、異音がしたりすることがある。いつ不調が起き、故障するかが心配だ。
HDDやSSDなどを数十万台規模で運用するBackblazeは2024年11月12日(現地時間)、自社のデータセンターにおけるHDDの故障率などを統計レポートとして発表した。2024年第3四半期(2024年7月1日〜同9月30日)の間で、Backblazeは世界中のデータセンターに設置されたクラウドストレージサーバが内蔵する29万2647台のHDDとSSDを監視した。その監視データを基に、ブランドや容量ごとの故障率などを紹介する。
以下の表は、同社が運輸していた4100台の起動ドライブ(3344台のSSDと756台のHDD)と特定の条件*を満たした28万8076台のHDDを対象に、2024年第3四半期時点の年間平均故障率(AFR)と通算の生涯AFRを計算し、モデル別、容量別に示したものだ。モデルを容量に従って並べ、、同じ容量のものをAFRの順にソートした。分析したモデルはWestern DigitalのHGSTブランド、Seagate Technologyブランド(以下、Seagate)、東芝ブランド、Western Digitalブランドの4つだ。
最も故障しやすいHDD、故障しにくいHDDについては、図2の後で触れる。
*ただし、次のHDDは分析から除外した。第3四半期終了時点で稼働中の台数が100台未満のモデルと、第3四半期中に1万日以上の稼働していないモデル、耐用年数中にメーカーの温度仕様を超えて動作したここのHDDだ。以上の3条件から、471台のHDDを除外した。
図1の右端にあるAFRの意味と計算方法を説明しよう。AFRは年間平均故障率を示しているため、数字が小さいほど故障しにくい。
データからAFRを求めるには、求めたいモデルの故障件数をそのモデルの総稼働日数で割り、365を掛け、100倍して%表示にする。
図1の1行目にある「HGST HMS5C4040BLE640」であれば「5÷789018×365×100=0.231(%)」、つまり0.23%だ。
なお、この計算式から分かるようにAFRには運用中のHDDの台数は直接関係しない。
AFRが悪化
今回の分析から分かることについて説明する。まず四半期ごとのAFRだ。今回のAFRは図1の右下にあるように1.89%だ。AFRが2024年第2四半期の1.71%から上昇した。主な原因は、平均7年以上経過している8TBのHDDの集団だ。8TBのHDD全体で、AFRが2024年第2四半期の2.31%から、第3四半期には3.04%に上昇した。Backblazeは、今後数カ月にわたって8TBのHDDの新モデルへ移行する予定だ。なお、古くから利用している4TBのHDDは問題になっていない。なぜなら、Backblazeは4TBなどのHDDをスケジュールに従って順次置き換えているからだ。現在残っている4TBのHDDのAFRは、第3四半期で0.26%だ。
故障しなかったモデルは1つだけ
2四半期連続で、14TBのSeagateのHDD(モデル:ST16000NM000J)が故障を全く起こさなかった。稼働中のHDDは185台と少ないため、データに変動が起こりやすいものの、現時点では非常に安定しているという。
新しいモデルが登場
20TBの東芝製HDD(モデル:MG10ACA20TE)を大量に導入して、データセンターに1200台ずつ3つのグループとして追加した。BackblazeのHDD認定チームが20TBモデルの性能を検証し、テストに合格したため、図1に追加された。
最古参は9年生
現在、Backblazeが運用しているHDDには10年以上の稼働しているものはない。ただし、9年以上のHDDは39台ある。全て4TBのHGSTのHDD(モデル:HMS5C4040ALE640)で、2つのデータセンターに分散して配置されており、31の異なる塊(ストレージポッド)に分かれている。Backblazeによれば、これらの「9年生」は1年以内に取り除かれてしまうという。5つの管理単位のうち、4つではスケジュールにしたがって、2024年内には全て置き換えられてしまう予定だからだ。
消え去ったモデルは1つ
4TBのSeagateのHDD(モデル:ST4000DM000)が図1から消えた。スケジュールに従って移行したため、このHDDは2つしか残っていないため、図1から除外した。
次に、BackblazeがHDDの故障についてどのような予防措置を採っているのかを紹介しよう。
BackblazeがHDDのデータを管理する際、故障という名前のフィールドを用意して、故障した場合は1、故障していない場合は0を入力する。BackblazeはHDDの故障を次に説明する「事後対応型」か「予防型」に分類している。故障したHDDは基本的にこの2つのカテゴリーに均等に分類されるという。
事後対応 事後対応型の故障は分かりやすいものが多い。HDDがクラッシュして起動しなくなる場合はもちろん、スピンアップ(回転)が始まらない、システムコマンドに応答しないなどHDDが動作しなくなる故障だ。
予防 予防型の故障とは一般的に事後対応型以外のものを指す。通常は「S.M.A.R.T.」統計やFSCK(ファイルシステム)チェックなどの1つ以上の指標でHDDに問題が発生している場合だ。いずれも、故障する可能性が高いことを示す。予防型故障のHDDを1つの指標だけで判断することは少ない。
予防型か事後対応型の故障があるとして取り外されたHDDは、特に報告がない限り、Backblazeは図1でドライブ故障と見なしている。ただし、実際には故障していなかった場合は例外だ。例えば、HDDで通信エラーやコマンドタイムアウトが起こり、予防的なHDDの交換を決めたとする。交換プロセス中に、データセンターの技術者によってHDDが完全に固定されていないことが分かったとしよう。HDDを慎重に固定した後、テストで問題がないことが判明し、HDDは故障していないと見なされなくなった。この時点で、図1のデータを更新する。
図1のデータには故障ステータス(0または1)は含まれていが、故障の種類(予防的型、事後対応型)は含まれていない。さまざまなタイプの障害の内訳を把握するには、各データセンターで使っているデータセンターのメンテナンス用チケットシステムを調査し、ストレージポッドや関連機器のメンテナンス活動を記録する必要がある。 従来は関係者がドライブ障害データに容易にアクセスできなかったが、最近のソフトウェアのアップグレードにより、今回初めてこのデータにアクセスできるようになったという。次に、BackblazeのHDDの障害タイプを紹介する。
Backblazeは今後、図1の統計に加えて、故障タイプ統計も公開する予定だという。故障タイプ統計の起点となるのは、2024年第3四半期だ。一貫性を保つため、図1と同じHDDのモデルを使用する。今四半期は図1の右下にあるように1361件の故障が起こった。
Backblazeは数年前からデータセンターのメンテナンスデータを使用しており、四半期ごとにシステムから報告された故障したHDDをメンテナンス記録と照合している。検証済みの故障したHDDのみを、四半期ごとに発行するレポートに使用している。
データセンターの保守チケットシステムを最近アップグレードしたことで、ドライブ故障の検証プロセスが容易になっただけでなく、以上の2つのソースを簡単に統合できるようになった。その結果、次の表に示すように、複数の異なる属性にわたる故障データを確認できるようになった。まずは各カテゴリーにおける故障したHDDの数を示す。
■事後対応型の故障と予防型の故障(2024年第3四半期)
観察期間 | 事後対応型 | 予防型 | 総故障数 事後対応型の割合 | 予防型の割合 | |
---|---|---|---|---|---|
2024年第3四半期 | 640 | 721 | 1361 | 47.0% | 53.0% |
■ブランドごとの故障の割合
ブランド | 事後対応型 | 予防型 | 合計 | 事後対応型の割合 | 予防型の割合 |
---|---|---|---|---|---|
HGST | 194 | 177 | 371 | 52.3% | 47.7% |
Seagate | 258 | 272 | 530 | 48.7% | 51.3% |
東芝 | 124 | 221 | 345 | 35.9% | 64.1% |
WDC | 64 | 51 | 115 | 55.7% | 44.3% |
東芝のHDDモデルは予防型が64.1%と最も高い。逆にWDCは事故対応型の方が多い。
■Backblazeのデータセンターにおける故障の割合
データセンター | 事後対応型 | 予防型 | 総故障数 | 事後対応型の割合 | 予防型の割合 |
---|---|---|---|---|---|
AMS | 36 | 77 | 113 | 31.9% | 68.1% |
IAD | 50 | 92 | 142 | 35.2% | 64.8% |
PHX | 179 | 201 | 380 | 47.1% | 52.9% |
SAC 0 | 151 | 148 | 299 | 50.5% | 49.5% |
SAC 2 | 224 | 203 | 427 | 52.5% | 47.5% |
■サーバの種類別での故障の割合
サーバの種類 | 事後対応型 | 予防型 | 総故障数 | 後対応型の割合 | 予防型の割合 |
---|---|---|---|---|---|
5.0 red Storage Pod(45 ドライブ) | 4 | 2 | 6 | 66.7% | 33.3% |
6.0 red Storage Pod(60 ドライブ) | 433 | 349 | 782 | 55.4% | 44.6% |
6.1 red Storage Pod(60ドライブ) | 70 | 107 | 177 | 39.5% | 60.5% |
Dell Server(26ドライブ) | 22 | 61 | 83 | 26.5% | 73.5% |
Supermicro Server(60ドライブ) | 111 | 202 | 313 | 35.5% | 64.5% |
Backblazeは特に予防的な故障に注意を払っている。現在はHDDに交換フラグが立てられた時点で予防型に指定した理由を記録している。その際、特定のHDDに対して複数の理由が許可されているため、主な理由を特定しにくくなっているという。もちろん、主な理由など存在しない可能性もある。問題を引き起こす要因は多くの場合、複合的なものだからだ。なお、正確な理由にかかわらず、そのようなHDDは状態が悪く、交換して保存されているデータを保護することが最優先事項だとした。
2024年第3四半期末の時点でデータを追跡していた稼働中のHDDは28万8547台あった。同社はより詳しく分析するHDDを絞っている。なぜなら台数があまりにも少なかったり、導入してからの日数が短かったりしたHDDの分析は不正確になるからだ。まずモデル全体として500台以上のものが対象になる。さらに総稼働日数が10万日以上のモデルを選んだ。分析対象として残ったのは、図2に示した25モデル、28万6892台のドライブだ。(図1には29モデル、28万8076台が掲載されている)
図2からは最も故障しやすいHDDと最も故障しにくいHDDの上位5モデルが分かる。生涯故障率は四半期ごとの故障率ではなく、通算の故障率だ。数字が大きいほど故障率が高く、数字が小さいほど故障率が低い。図1に登場した故障0のモデル、SeagateのST16000NM000Jは台数が少ないため、最も故障しにくいHDDにはならなかった。
■最も故障しやすいHDD
モデル名 | 容量 | 生涯故障率 |
---|---|---|
Seagata ST14000NM0138 | 14TB | 5.92% |
Seagate ST12000NM000J | 12TB | 3.75% |
Seagate ST10000NM0086 | 10TB | 2.70% |
Seagate ST12000NM0007 | 12TB | 2.19% |
Seagate ST12000NM0008 | 12TB | 1.94% |
Seagate ST8000NM0055 | 8TB | 1.94% |
■最も故障しにくいHDD
モデル名 | 容量 | 生涯故障率 |
---|---|---|
WDC WUH721816ALE6L4 | 16TB | 0.35% |
HGST HMS5C4040BLE640 | 4TB | 0.40% |
WDC WUH721414ALE6L4 | 14TB | 0.43% |
WDC WUH721816ALE6L0 | 16TB | 0.54% |
HGST HUH721212ALE600 | 12TB | 0.56% |
図2からわかる全体的な傾向は生涯故障率(生涯AFR)が下がっていることだ。前四半期(2024年第2四半期)では、HDDの生涯AFRは1.47%だった。今回はこれが1.31%に低下し、四半期から次の四半期にかけての減少としては大幅な値だった。
これのような変化は一見すると図1と矛盾している。なぜなら、前述したように四半期ごとのAFRが増加しているからだ。Backblazeは理由として2つの要因があるとした。
次の表は2024年第2四半期と同第3四半期の違いをまとめたものだ。
期間 | 台数 | 総稼働日数 | 故障件数 | 生涯AFR |
---|---|---|---|---|
第2四半期 | 28万3065 | 4億6921万9469 | 1万8949 | 1.47% |
第3四半期 | 28万6892 | 3億9847万6931 | 1万4308 | 1.31% |
生涯AFR表のデータでも一部のHDDを除外した。四半期末時点で、台数が500未満のもの、総稼働日数が10万未満のものは含めていない。1番目の基準はそのモデルが提示されたデータに関連していることを保証する。つまり、含まれるモデルのそれぞれについて、かなりのHDDの台数があることを意味する。2つ目の基準は、図2に記載されたモデルが十分なデータポイントを有していることを保証する。有意なドライブ日数が十分にあるということだ。
上の表を見ると、第2四半期から第3四半期にかけてHDDの台数が増えているのに反して、総稼働日数と故障件数が大幅に減少している。これは、第2四半期と第3四半期の「図2」に記載されているモデルを比較することで説明できる。
具体的には第3四半期に、20TBの東芝のモデル(MG10ACA20TE)を追加した。第2四半期には、このモデルは2台しか稼働していなかった。第3四半期に、4TBのSeagateのHDD(モデル:ST4000DM000)を統計から削除した。なぜなら500台という基準を大幅に下回る2台しか残っていなかったからだ。
4TBのSeagateモデルを除外した際、第3四半期の生涯AFRの計算から、8040万65という総稼働日数と5789件の故障が除外された。もし、このモデルのデータが第3四半期の統計に含まれていた場合、AFRは1.50%に悪化しただろう。
このような取り扱いについては異論があるかもしれない。なぜ4TBのSeagateのデータを含めないのだろうか。言い換えれば、500台という基準を設ける理由は何なのだろうか。
これまでに使用したモデル全て(総稼働日数10万日以上)を使用して、生涯AFRを計算したとすると、生涯AFRの計算に使用したモデルのリストには、何年も前に使用を中止したHDDやモデルが含まれてしまい、合計100種類近くのモデルを含むことになる。その結果、生涯AFRを計算するために使うモデルの大半は時代遅れとなり、生涯AFRの表には現在も将来も価値のない、基本的に無意味なデータが列として含まれてしまうことになる。つまり、生涯AFRを計算する基準の一つとして台数を考慮することで、表が適切なものになるという。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。