HDDを選ぶ際、容量と価格が重要だ。他にも多数の細かい仕様が公開されているものの、実際に運用すると故障しやすいもの、故障しにくいものがあるはずだ。そのようなデータが3年分公開されたので紹介する。
HDDは可動部がある精密機械だ。衝撃や震動を避けたとしても故障することがある。大容量HDDが故障すると被害は大きい。
そこで30万台以上のHDDを運用してきたBackblazeの事例を紹介しよう。
同社は2024年12月31日時点、自社のデータセンターで30万5180台のHDDを運用中だ。その際の故障率について、同社は2025年2月11日に統計レポートを発表した。どのメーカー(ブランド)の故障率が低いのだろうか。故障しやすいHDDの容量というものがあるのだろうか。
同社のHDDは起動用とデータ格納用に分かれる。起動用は4060台、データ格納用は30万1120台だ。同社が運用していたデータ格納用のHDDのうち本文末に挙げた特定の条件を満たさなかった487台を除外した30万633台のHDDを対象にした。
まずは時間がない読者向けの要約を紹介しよう。
・故障しやすいHDDの容量は10TB
・故障しにくいHDDの容量は14TBと16TB
22TBも故障しにくいものの、運用開始直後なので先行きは不明
・故障しやすいブランドはHGST
ただし、2つのモデル以外は優秀だった
・故障しにくいブランドは東芝とWDC
・故障率が低くても、バックアップとリストアのテストが必要
図1はHDDのブランドごとの故障率をまとめたものだ。
図1中のHDDはWestern DigitalのHGSTブランド、Seagate Technologyブランド(以下、Seagate)、東芝ブランド、Western Digital(以下、WDC)ブランドの4つに分かれる。これをモデル別、容量別に示した。右端の列には2024年第4四半期時点の年間平均故障率(年間AFR:Annualized Failure Rate)の計算結果を示した。
AFRは専門用語だ。そこで図1の右端にある年間AFRの意味と計算方法を説明しよう。なお、年間AFRは数字が小さいほど故障しにくいことを表す。
図1のデータから特定のモデルの年間AFRを求めるには、求めたいモデルの故障件数をそのモデルの総稼働日数で割り、365を掛け、100倍して%表示にする。
図1の7行目にあるSeagateの「ST8000DM002」であれば「35÷83722×365×100=1.524(%)」と計算する。図1では小数点以下第2位までの1.52%とある。
なお、この計算式から分かるように年間AFRの計算には運用中のHDDの台数は直接関係しない。
Backblazeは四半期、年間、生涯の3種類のAFRを計算している。本文でもまず2024年第4四半期のAFR、次に2024年通年のAFR、最後に生涯AFRを紹介した。
Backblazeのアンディ・クライン氏(主任クラウドストレージ・ストーリーテラー)によれば、図1から分かることが4つあるという。
要点1 24TBのHDDが登場した
同社はSeagateのモデル「ST24000NM002H」の運用を2024年12月に開始した。導入した1200台全てを論理的な集合体「Backblaze Vault」1基にまとめて運用している。幸いにも第4四半期の終わりまで故障したHDDはなかったという。20TB以上の容量があるHDDはこれ以外にも、20TBの東芝のHDDと22TBのWDCのHDDがある。
要点2 5つのモデルが故障ゼロ
要点1で紹介したモデル以外にも4つのHDDのモデルが当四半期に故障しなかった。HGSTの4TBのHDD「HMS5C4040ALE640」、Seagateの8TBのHDD「ST8000NM000A」、同14TBのHDD「ST14000NM000J」、同16TBのHDD「ST16000NM002J」だ。いずれも台数や総稼働日数が少ない。
要点3 4TBのHDDの運用がほぼなくなった
4TBのHDDの数は第4四半期に1774台減少したという。残りは約4000台だ。それも2025年第1四半期の終わりまでにはなくなるだろうという。4TBのHDDは新たに導入される20TBや22TB、24TBのHDDに置き換えられる予定だ。なお、第4四半期に稼働していた4TBのHDDのうち故障したのは1台だけだったため、AFRの記録を今後低く抑えるためには、20TB以上のHDDには低い故障率が求められる。
要点4 四半期ごとの故障率が低下した
第4四半期のAFRは1.35%だ。これは第3四半期の1.89%よりも低く、より故障しにくくなった。全ての容量について、AFRが改善した。20TB以上の新しいHDDが1万4000台以上追加されたことが与える影響も大きい。これらのHDDをグループとして見た場合、第4四半期のAFRは0.77%だったからだ。
次は2024年通年のデータと故障率を紹介しよう。
2024年末時点で、30万1120台のHDDのうち、2012台のHDD(9モデル)が除外条件に当てはまった。残ったのは29万8954台(27モデル)だ。図2では、図1同様に2024年通年のAFRも計算した。
クライン氏は図2の要点を3つにまとめた。
要点1 故障ゼロのHDDはなかった
ただし、16TBのSeagateの「ST16000NM002J」は、2024年第3四半期にわずか1件の故障を記録しただけった。同モデルの年間AFRは0.22%だ。
要点2 実は忙しいデータセンターの技術者
2024年中に、Backblazeのデータセンター技術者は5万3337台のHDDを設置した。1年間の就業時間を2080時間(52週×40時間/週)と仮定すると、5万3337/2080となり、技術者は1時間当たり26台のHDDを設置した計算になる。
要点3 24TBのSeagateのモデルは除外
図1の要点1で触れたとおり、24TBのSeagateのHDDが運用を開始したのは2024年12月初旬だったため、年間AFRや生涯AFRを計算するための十分な総稼働日数に達していなかった。このモデルを含め、2024年の年間統計に載らなかったモデルは3つあった。
条件を満たしてはいないもの、次の表では年間AFRも計算した。
ブランド | モデル | 台数 | 総稼働日数 | 年間AFR |
---|---|---|---|---|
Seagate | ST8000NM000A | 247 | 22684 | 0.84% |
Seagate | ST14000NM000J | 232 | 19696 | 1.32% |
Seagate | ST24000NM002H | 1200 | 18000 | 0.00% |
図3は2024年までの3年間の年間故障率を比較したものだ。2024年末時点で評価基準を満たしたモデルのみを示した。各年のデータは、各年末時点で稼働中のモデルのその年のみのものだ。
図3から分かることは年間AFRが改善しているということだ。2024年通年では全てのモデルを合計するとAFRは1.57%だった。2023年の1.70%よりも改善されている。2025年も全体的な故障率は引き続き低下すると予想できるという。
なぜそのように予想できるのだろうか。それはHDDの故障率が一般にバスタブ曲線に従って変化するからだ。
機械や装置の故障率を稼働開始から時間を追って測定したとしよう。横軸に時間(原点が0時間)、縦軸に故障率をプロットすると、時間が増えるに従って故障率が下がる凹型の曲線を描く。これを西洋風の風呂桶の底の形にたとえて「バスタブ曲線」と呼ぶ。
バスタブ曲線を左から右に見ていくと3つの時期に分かれる。装置を使い始めた直後は故障率が高い。これを「初期故障期」と呼ぶ。その後すぐに故障率が下がり始め、故障率がほぼ一定で推移する「偶発故障期」に入る。さらに時間がたつと故障率が上昇する「摩耗故障期」に入る。
このような3つの期間に分かれる理由は、故障の原因が3つあるからだ。初期故障率は一方的に下がっていく。ランダムな原因による故障率は一定だ。装置が「摩耗」することで起こる故障は一方的に上がっていく。これらの3つを加えるとバスタブ曲線になる。
バスタブ曲線は時間がたつにつれて故障率がどう変化するのかを示す。
容量20TB、22TB、24TBのモデルは、導入直後から少し時間がたっているため、バスタブ曲線の横ばい部分に当たる。つまり、故障率が最も低い部分だ。
容量14TBと16TBのモデルは、稼働期間が3年から5年たっており、バスタブ曲線が一定の値から上昇し始める部分に相当する。このあたりから故障率が徐々に上昇し始める可能性があるが、5年を超えた場合ほど急激な上昇にはならない。
8TBと12TBモデルは全てのモデルが5年間の耐用年数を越える時期に当たる。一般的に、HDDが5年間の耐用年数を越えると、故障率は顕著に増加する。ただし、HGSTの4TBのHDDのような例外はある。
図3のデータの切り口を変えて、容量別やブランド別の動向を掘り下げて、他に何が分かるか見てみよう。まずは、過去3年間の四半期ごとの故障率を容量別に見てみよう。
クライン氏によると容量別に見たときに分かったことは4つある。
要点1 特定の容量が与えた影響は少ない
10TBモデル(金線)の故障率が激増した。全体の傾向ともかけ離れている。ただし4TB(青線)と合わせて、どちらも台数が比較的少数だ。そのため全体の故障率に与える影響は過去1年間ほとんどなかった。
要点2 古いHDDはバスタブ曲線に従う
8TB(灰色の線)と12TB(紫色の線)のモデルは、製造から5年から8年が経過しており、全体的な故障率は時間の経過とともに増加すると予測できた。12TBモデルの故障率は2021年の約1%から2024年には約3%へと上昇しており、予想通りだ。8TBモデルの故障率は、四半期ごとに不安定な動きを見せており、ほぼ横ばいの傾向を示した。
要点3 バスタブ曲線の底は故障率が低い 14TB(緑の線)と16TB(水色の線)はBackblazeで運用中のHDDの57%を占める主力だ。平均して2〜4年間運用しており、働き盛りの世代だといえる。故障率は低く安定していると予想でき、実際その通りになった。
要点4 バスタブ曲線の左端は不透明 22TB(オレンジ色の線)のモデルは、定期的にHDDを追加しており、初期段階にある。バスタブ曲線に従えば今後故障率が下がっていくと予想できる。HDDの運用台数が落ち着いてくれば、AFRの方向性についてより明確な見通しが立つとした。現時点では結果は良好で、生涯AFRを計算すると1.06%だった。
次にブランド別の故障率を見てみよう(図5)。
全体像を把握するために、図6では同じデータを使って3年間の各ブランドの直線トレンドラインを示す。
図5と図6から分かることは何だろうか。
・HGST
HGSTのトレンドラインは故障率の一方的な増加を示している。だが、それだけではない。図5を見ると、2023年第4四半期までは、HGSTのモデルは全てのモデル(全メーカー)の平均値以下で、良好だった。その後、HGSTは平均値よりも悪い数字を示すようになり、さらに悪化していったからだ。図7には、2024年のHGSTモデルの結果のみを記した。AFRが高い順に並べ替えている。
HGSTモデルのうち、AFRが高いのは、12TBの2つのモデルだということが分かる。「HUH721212ALN604」は2023年第1四半期に四半期ごとのAFRが上昇する兆候を見せ始め、「HU721212ALE604」も2024年第3四半期にそれに続いた。これらのモデルの悪い数字がなければ、HGSTブランドの2024年の平均故障率は0.55%に下がる。
・Seagate
2022年から2024年にかけて、Seagateのモデルの四半期ごとのAFRのトレンドラインは改善された。2.25%から2.0%と改善の幅はわずかだったものの、Seagateは唯一、このような傾向を示したブランドだ。原因は何だろうか。少なくとも一部は、この期間中にSeagateの4TBモデルの運用が終わったことによるものだとBackblazeは考えている。
・東芝
2022年から2024年の期間において、東芝のモデルの四半期ごとのAFRは、0.80%から1.52%のかなり狭い範囲で変動しており、ほとんどの四半期は1.2%前後で推移していた。最も重要なのは、東芝のモデルの四半期ごとのAFRは最も高かった場合でも1.58%だったということだ。これは個々のモデルに異常値がなかったことを示す。結論は東芝のモデルが優秀だということだ。
・WDC
WDCのモデルは、東芝と同程度の安定性を示したが、四半期ごとのAFRはより良い。2022年から2024年にかけて、WDCの四半期ごとのAFR値の範囲は0.0%から0.85%だった。AFRが0.0%になった要因は、2022年第1四半期に稼働中だった1万2207台のWDCのHDDが全く故障しなかったことによる。
2024年末時点で、Backblazeはデータ保存用の約30万台のHDDを監視していた。最後に生涯AFRについて分かったことを紹介しよう。
本文末尾に挙げた評価基準に従うと、基準を満たさない11のモデル(2736台)があった。その結果、25モデル29万8230台のHDDが残った。図8は29万8230台のHDDの生涯AFRを示している。
全てのHDDを合計すると現時点の生涯AFRは1.31%になった。2023年の生涯AFRは1.46%だったので故障率は下がっている。主な理由は2024年に4TBのSeagateのHDDの運用が終了したことだ。2024年末時点で稼働中の同HDDはわずか2台だけだ。2023年末までに4TBのSeagateのHDDは総稼働日数が7900万日に及び、故障件数が5600件以上に達した。これが図8では評価の対象から外れた。
図9は図8を基に、容量別で生涯AFRが1.50%以下のモデルを示したものだ。図9の右端列にある「Lifetime AFR」の数値が小さいHDDが最終的に「勝ち残った」優秀なHDDだと言える。
ただし、図9には幾つか注意点がある。
図9に挙がっている各モデルには、計算したAFR値が信頼できると言えるだけの十分なデータの裏付けがある。とはいえ、明日には変わっている可能性は残る。一般的に、HDDの故障率は経年劣化に伴ってバスタブ曲線に従う。だが、そうならない場合もある。4TBのHGSTのモデルのように、経年劣化しても故障しないHDDもあるからだ。また、素晴らしい性能を発揮していたHDDのAFRが急上昇して悪化することもある。
年率1%の故障率のモデルの場合、100台のHDDのうち1台が1年以内に故障すると予想できる。それが特に重要なデータを保存していたHDDだとしたらどうなるだろう。1台だけHDDを運用していた場合、故障した場合はデータが100%ロスする。つまり、常に複数のバックアップを用意し、リストアできるかどうかテストすることを忘れないようにしなければいけない。
図1などで故障率などを示す際に、HDDを除外した理由は主に2つあるという。
第一の理由はテスト運用中のHDDは実運用とは違うということだ。動作を監視し、統計データを収集しているものの、あくまで本運用ではないからだ。Backblazeのデータセンター環境で十分なパフォーマンスを発揮できるかどうかを判断するための認定テストを受けているこのようなHDDは、今回の統計には含まれない。
第二の理由はデータポイントが不十分なことだ。ある期間におけるHDDの平均故障率を算出する際、信頼性の高い結果を得るためには十分なデータが必要だ。同社が定めた基準は3種類に分かれる
算定期間 | 台数 | 総稼働日数 |
---|---|---|
四半期 | 101台以上 | 1万日を超えること |
年間 | 251台以上 | 5万日を超えること |
生涯 | 501台以上 | 10万日を超えること |
図1では四半期ベースのAFRを計算したため、2024年第4四半期終了時点で稼働中の台数が100台以下のモデルと、第4四半期中(2024年10月1日〜同12月31日)の総稼働日数が1万日以下のモデルを除外した。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。