メディア

この3年でHDDの故障率はどう変わったのか

HDDを大量に利用する場合は故障率が運用コストに大きく影響する。そこで気になるのが、どのメーカーのどのモデルを選べばよいのかということだ。

» 2024年02月27日 10時30分 公開
[畑陽一郎キーマンズネット]

 クラウドストレージサービスを提供するBackblazeは複数のデータセンターで10年以上、大量のHDDとSSDを運用してきた。同社は2024年2月13日に自社のデータセンターにおけるHDDの故障率などを統計レポートとして発表した。2023年通年のデータの他、2021年、2022年との比較もある。

 2022年第3四半期末の時点で、Backblazeは運用中のHDDのうち、27万222台を監視している。そのうち有効な統計データにならない466台を除外した26万9756台のHDDについて扱った。

3年間でHDDの故障率はどう変わったのか

 今回の統計レポートでは、2023年通年でデータセンターにおいて顧客のデータの保存に使用されたHDDを対象とした。分析したモデルはWestern DigitalのHGSTブランド、Seagate Technologyブランド(以下、Seagate)、東芝ブランド、Western Digitalブランドの計35モデルだ。図1にモデル名や容量、年間平均故障率(AFR)などのデータをまとめた。

図1 2023年通年におけるHDDの統計 Backblazeがデータセンターで運用中の4ブランド、35モデルのHDDの台数や故障数、年間平均故障率(AFR)などを示した。項目は左からMFG:メーカー名(ブランド名)、Model:モデル名、Drive Size:容量、Drive Count:台数、Avg Age(months):平均稼働月数、Drive Days:総稼働日数、Drive Failures:故障件数、AFR:年間平均故障率(提供:Backblaze)

 図1にある年間平均故障率は数字が小さいほど故障しにくいという意味だ。図1のデータからAFRを求めるには、求めたいモデルの故障件数をそのモデルの総稼働日数で割り、365を掛ける(さらに100倍して%表示にする)。図1の1行目にある「HGST HMS5C4040ALE640」であれば、「12÷1182145×365×100=0.37(%)」という計算になる。AFRの計算にはHDDの台数は直接関係しない。

 図1から読み取れるトピックは3つある。

故障しなかったモデルは1つだけ

 2023年通年で故障しなかったのは、Seagateの8TBのモデル(ST8000NM000A)だけだった。さらにこのモデルは、2022年第3四半期にBackblazeが導入を開始して以降、まだ故障していない。稼働中のHDDが204台しかなく、総稼働日数も限られている(5万2876日)ことが一つの要因だ。それでも18カ月間、故障しなかったことは素晴らしいという。

2023年に故障したHDDは4189台

 2023年は平均して2時間5分ごとに1台のHDDが故障した。労働時間を週40時間とすると、30分ごとに故障したHDDを交換したことになる。

利用中のHDDのモデルが増加

 2023年、Backblazeは6つのモデルをリストに追加した。引退したモデルはなかった。そのうちの2機種はテスト目的でBackblazeのデータセンターに導入されており、2023年末までに台数が60台に達した。

東芝の8TB(HDWF180):60台
Seagateの18TB(ST18000NM000J):60台

 残りの4モデルは、全く新規に導入されたものだ。

Seagateの12TB(モデルST12000NM000J) 195台
Seagateの14TB(モデルST14000NM000J) 77台
Seagateの14TB(モデルST14000NM0018) 66台
Western Digitalの22TB、モデルWUH722222ALE6L4 2442台

 Seagateの3モデルは、故障した12TBと14TBのモデルの交換に使った。22TBのWestern Digitalのモデルは、主に1200台ずつ「Backblaze Vaults」(データセンター)に追加した。

予備のHDDを買い置きしなくてもよくなった

 故障したHDDを同じモデルのHDDで交換できるように余分に購入して手元に置いていた時期があったという。例えば、Backblaze Vaultに1200台のHDDが必要な場合、1300台を購入して100台のスペアを用意した。時間をかけて異なるモデルの組み合わせをテストし、スループットとパフォーマンスに影響がないことを確認した。これにより、前述のSeagateのモデルのように、必要に応じてドライブを購入できるようになった。あるモデルが故障するのを数カ月から数年間待っている間に同一モデルのHDDを購入するコストを削減できた。

なぜ466台のHDDを除隊したのか

 記事の冒頭で「有効な統計データにならない466台を除外」したと書いた。どのような判断があったのだろうか。除外する条件は3つあるという。

(1)テストのため あるモデルを監視し、統計データを収集しているものの、まだ量産モデルになっていないものがこれに含まれる。例えば、第4四半期には評価中の20TB東芝のモデルが4台あった

(2)高温にさらされたため 2023年の猛暑の中、動作中に高温にさらされたHDDがある。HDDが熱にどの程度耐えられるのかをより詳しく知るため、別途追跡調査中だ

(3)数が少ないため Backblazeには運用台数が60台しかないモデルがある。これは大規模なバイナリデータ(BLOB:Binary Large Object)を格納するために60台のHDDで構成される1つのストレージサーバを運用していた時期の名残だという。現在では、BLOBを20台のサーバ、すなわち「Backblaze Vault」に分割して、データの耐久性を向上させているという

2021年や2022年と比較して寿命はどう変わったのか

 Backblazeは長年、大量のHDDを運用している。2023年のデータはそれ以前の2年間のデータと比較して、変化したのだろうか。

 図2は2021〜2023年の年間平均故障率を比較したものだ(図2)。図2には、2023年中に総稼働日数が20万日を超えたモデルのみを掲載した。各年のデータは、各年末に稼働していたモデルのみを対象とした。データは容量と年間平均故障率の順にソートされている。

図2 2021年、2022年、2023年の故障件数と年間平均故障率 容量の区切りとなるモデルに空色の網を掛けた(提供:Backblaze)

 図2から分かることは、2023年の年間平均故障率が上昇したことだ。

 2023年の全モデルの年間平均故障率は1.70%だった。これは2022年の1.3%、2021年の1.01%と比較すると高い。理由の一つは2023年を通して、HDDの「平均年齢」が上がるにつれて、年間平均故障率が上昇したことだ。平均年齢が6年以上のモデルは現在9つある。この9モデルが稼働中のHDDの20%近くを占めている。Backblazeは第2四半期以降、通常4TBの古いモデルから通常16TBの新しいモデルへの移行を進めてきた。この傾向は2024年以降も継続する予定だという。

 前述の通り、2023年に20万日以上の総稼働日数を満たしたモデルを図2に含めた。12万6956日稼働したWestern Digitalの22TBのモデルや、故障しなかったが5万2876日しか稼働しなかったSeagateの8TBのモデルを対象から外れている。20万日で区切りを付けた理由はこうだ。各四半期の統計では、統計的に適切だと判断するための最小値として稼働時間5万日を使っている。20万日は完璧な指標ではないものの、総稼働日数が少ないモデルに関連する変動性を最小限に抑制できるという。

年間故障率と容量の関係は?

 図1、図2で取り上げたデータをさらに掘り下げた結果を図3に示す。これは過去3年間の四半期ごとの年間平均故障率を容量別にプロットしたものだ

図3 容量別にみた年間平均故障率の変化 2021年第1四半期から2023年第4四半期のデータを示した(提供:Backblaze)

 まず分かるのは、10TBモデルの年間平均故障率(金色)が明らかに上昇したことだ。8TBモデル(灰色)と12TBモデル(紫色)も増えた。

 2021年第2四半期の年間平均故障率は1%程度だったが、2023年第4四半期には2%以上になった。一方、4TBモデル(青)の年間平均故障率は当初上昇し、2022年にピークに達したが、その後は低下した。残りの3つのサイズ(6TB、14TB、16TB)は、全期間を通じて年間平均故障率が1%前後で推移した。

 さらに2022年と2023年の年間平均故障率を比較すると、図4のようになった。各年の結果は、その年のデータのみに基づく。

図4 容量別に見た2022年と2023年の年間平均故障率の比較(提供:Backblaze)

 4TBモデルの年間平均故障率が下がったのは奇妙に思えるかもしれない。特に、4TBの平均年齢が6年を超え、さらに古くなっているからだ。その理由は、2023年に4TBモデルから16TBモデルへの移行にBackblazeが重点を置いたことに関係していると考えられる。一般に、Backblazeは最も古いHDD、つまり近い将来に故障する可能性の高いHDDを最初に移行している。最も古いHDDを取り外しているため、HDDが古くなるにつれて予想される故障率はそれほど上昇しないのだろう。

 しかし、全てのモデルがこの傾向に従っているわけではない。Seagateの6TBモデルは平均で8.6年以上経過しているが、2023年にどの容量グループでも年間平均故障率が最も低くなった。

生涯故障率は変化しているのか

 次に生涯故障率について分析する。対象としたのは図1と同じ35モデル26万9756台のHDDだ。図5は2013年4月20日から2023年12月31日までの統計データだ。

図5 HDDの生涯故障率 項目は左からMFG:メーカー名(ブランド名)、Model:モデル名、Drive Size:容量、Drive Count:台数、Avg Age(months):平均稼働月数、Drive Days:総稼働日数、Drive Failures:故障件数、Lifetime AFR:生涯故障率(提供:Backblaze)

 全てのHDDをまとめると生涯平均故障率は1.46%だった。これは2022年末(2022年第4四半期)の1.39%よりも悪い数字だ。前述したように、2023年以降、四半期ごとに平均故障率が上昇していることを考えれば納得できるだろう。なお今回の値は、2021年第1四半期(1.4%)以来の最高値でもある。

 図5から統計的に十分なデータがないモデルを削除できる。これは、図5の故障率の値が正しくないという意味ではなく、リストアップした故障率について確信を持てるように、より確実なデータを調べたいという意味だ。図6では、期間中に200万日以上の駆動日数を記録したモデルのみをリストアップした。

図6 200万日以上の駆動日数を記録したHDDの生涯故障率(提供:Backblaze)

 図6のデータを視覚的に分かりやすくしたのが図7だ。モデルをブランド別に分類し、各モデルの生涯故障率と平均稼働月数を円の形でプロットした。それぞれの円の相対的な大きさは、各集団内のHDDの数を表す。各ブランドのグラフの水平スケールと垂直スケールは同じだ。

図7 ブランドやモデル別に見た200万日以上の駆動日数を記録したHDDの生涯故障率(提供:Backblaze)

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。