HDDの故障率は全体に下がっている。だが、調子が悪くなりやすいモデルも残っている。現時点の故障率を押さえておく必要があるだろう。
クラウドストレージサービスを提供するBackblazeは2024年8月6日(現地時間)、自社のデータセンターで運用中のHDDの故障率などを統計レポートとして発表した。2024年第2四半期(2024年4月1日〜同6月30日)のデータだ。今回はHDDの経年劣化と経年変化、さらにはAI(人工知能)やML(機械学習)によってこれを予測する可能性についても調べた。
2024年第2四半期末の時点で、同社はSSDと28万8665台のHDDを運用、監視していた。ここから3789台の起動ドライブ(2923台のSSDと866台のHDD)を除外した残りの28万4876台のHDDについて紹介する。これらのHDDにはBackblazeの顧客のデータが保存されている。分析したモデルはWestern DigitalのHGSTブランド、Seagate Technologyブランド(以下、Seagate)、東芝ブランド、Western Digital(WDC)ブランド、合計29モデルだ。
図1は2024年第2四半期の29モデルの統計データだ。図1の右端には年間平均故障率(AFR)を示した。AFRの値が小さいほど故障しにくい。
図1には、2024年第2四半期末時点で稼働台数が100台を超え、同第2四半期中の稼働日数が1万日を超えたモデルだけを示した。この他、期間中に製造元の温度仕様を超えたものも除外した。除外されたHDDは合計490台あり、図1には残った28万4386台のHDDのデータが示されている。
図1からは分かったことは5つある。
(1)AFRが改善
2024年第2四半期で分析した28万3065台のHDDの平均AFRは図1の右下にある通り1.71%だった。2024年第1四半期は1.41%から少し悪化したことになる。ただし、四半期ごとにAFRがこの程度変動することは珍しくないという。AFRの散らばりを見ると、16モデルは1.71%以下、13モデルは1.71%以上だった。
なお、1年前(2023年第2四半期)のAFR(2.28%)と比較すると大幅な改善になる。
図1の右端にあるAFRは、数字が小さいほど故障しにくいという意味だ。
図1のデータからAFRを求めるには、求めたいモデルの故障件数をそのモデルの総稼働日数で割り、365を掛け、100倍して%表示にする。
図1の1行目にある「WDC WUH722222ALE6L4」であれば「42÷1286973×365×100=1.191(%)」、つまり1.19%となる。
この計算式から分かるようにAFRの値は運用中のHDDの台数と直接の関係がない。
(2)Seagateの2モデルが故障ゼロ
14TBのSeagate製品(ST14000NM000J)と16TBのSeagate製品(ST16000NM002J)は全く故障しなかった。どちらも、第2四半期に調査対象となったHDDの数と総稼働日数が比較的少ないため、これだけでは非常に良い成績だとまでは言えないという。図1には示されていないものの、16TBモデルの生涯AFRは0.57%と計算でき、これは優秀な成績だ。
(3)Seagateの6TBモデルが優秀
Backblazeは古くなったり、容量が小さくて使いにくくなったりしたHDDを順次リプレースしている。第1四半期には、東芝の4TBモデルがリプレースされて消えた。第2四半期には、Seagateの6TBモデルを含む、平均稼働月数が108カ月に達した6TBのモデルを全てリプレースした。このSeagateの6TBモデルは、Backblazeで運用した全ての期間を通算したAFRが0.86%という素晴らしい成績をたたき出した。
現在、Seagateの4TBモデル(ST4000DM000)は、平均稼働月数が99.5カ月に達しており、Backblazeで最も古いデータ用のモデルだ。これらのHDDもリプレースが予定されている。これらのモデルの平均稼働月数が108カ月に達することはないとした。
(4)10年に達したモデルはあるのか
同社で最古の現役HDDはHGSTの4TBのHDD(HMS5C4040ALE640)だ。第2四半期末現在で9年11カ月23日稼働した。
10年以上使用したデータ用HDDはないが、ブート用HDDは11台ある。1台はWDCの500GBのモデル(WD5000BPKT)で、11年以上使用した。
(5)HGSTの成績が悪化
BackblazeによればこれまでHGSTのモデルは優れた成績を残してきたという。しかし、HGSTの12TBモデル(HUH721212ALN604)のAFRは、第2四半期に7.17%と悪かった。この値はこれまでの四半期で最大だ。ただし、故障しやすくなったのは約1年前からだったため、生涯AFRの悪化は過去1年間で0.99%から1.57%へと変化したに過ぎない(全HDDの平均AFRよりも成績が良い)。
2024年第2四半期の故障率の次は、生涯AFRを見てみよう。対象となるモデルは、2024年第2四半期末時点で動作台数が500台を超え、総稼働日数が10万日を超えるものだ。この基準を満たさないモデルを除外した結果、図2に示すように、25モデル、28万3065台のHDDが残った。
図1や図2から分かるようにモデルによって故障率が異なるという結論をBackblazeは得た。Backblazeの次の一手は、記録を取り続けることによって、特定のモデルの「故障プロファイル」を作り上げることだ。未来の故障率がどのように変化するのかを予測したい。これが分かれば、HDDの交換戦略や移行戦略を最適化でき、最終的にはクラウドストレージサービスの耐久性が高まるため、ユーザーにもメリットがある。
そこでHDDのコホート、つまりある特定の条件や期間内で管理されていたHDDの集合体について、経年変化を調査した。対象としたのは2024年第2四半期末時点の総稼働日数が100万日を超えるモデルだ。その結果23のモデルが残った。これをさらに平均稼働月数が60カ月(5年)以下のものと、60カ月を超えるものに分けた。60カ月はエンタープライズ向けHDDの一般的な保証期間だ。
図3には平均稼働月数が60カ月以下の14のモデルを示した。生涯AFR(X軸)と平均稼働月数(Y軸)に基づいて、4つの領域に分けた。
第I領域 この領域に属するモデルは生涯AFRが1.5%よりも低く、平均稼働月数が30カ月よりも長い。つまり成績が良い。この領域の右側に位置するモデルは左側に位置するモデルよりも成績が悪いため、今後数カ月間、観察する必要があるかもしれないという。
第II領域 ここは生涯AFRが1.5%を超えているが、2%前後とまだ妥当なレベルにある。重要なのは、生涯AFRが時間の経過と共に今後著しく上昇しないことだ。
第III領域 この領域に該当するモデルはなかった。だが、もし現れたとしても心配する必要はないだろう。初期に故障率が高くなり、その後バスタブカーブに従って、故障率が低下するというのが一般的な傾向だからだ。
第IV領域 この領域にあるモデルは、まだ利用を開始したばかりで、故障プロファイルを調べ始めたばかりだと言える。
図3全体を見ると、全てが順調なようだ。第I領域のモデルは長期間良好に動作しており、第II領域の2つのモデルの成績は許容範囲だ。
図4は平均稼働月数が60カ月を超えるモデルについて、図3と同じようにプロットした結果だ。
図4には、第2四半期にリプレースされたSeagateの6TBモデル(黄色の網)を含む9モデルが残った。図3とは異なり、4つの領域全てにモデルが散らばっている。第I領域のモデルは優れている。第II領域と第III領域のモデルはやや心配だ。第IV領域のモデルは今のところ良好な成績のようだ。
単純な見方をすれば、次にリプレースするモデルは第II領域の右に位置するSeagateの4TBモデルということになるだろう。だがその見方は浅い。なぜならこの4TBのモデルは全て、少なくとも5年は運用しており、その期間の故障率も分かっているからだ。ある時点の故障率を見るのではなく、経時的な故障率の変化を見なければならないだろう。
図5はBackblazeが「ヘビ型グラフ」と呼ぶもので、各モデルの生涯AFRを経時的に示したものだ。図が乱雑にならないように、Y軸が24カ月になる地点からプロットしており、それぞれのヘビは下から上に向けて移動していく。平均稼働月数が60カ月を過ぎると、第I領域か第II領域にモデルが分かれた。
2つの領域に達したモデルにはどのような特徴があるのだろうか。
第I領域 2024年第2四半期現在、9つのモデルのうち5つが第1領域に達した。HGSTの2モデル(茶色と紫の線)とSeagateの6TBモデル(赤の線)は、ほぼ垂直だ。つまり、故障率が長期にわたり、特に使用開始後60カ月経過後も一貫している。Backblazeにとってこのような一貫性があるモデルが最も望ましい。
Seagateの8TBモデル(青線)とHGSTの8TBモデル(灰色線)の故障プロファイルは一貫性がなく、時間の経過とともに右側にそれて故障率が上がっている。HGSTの場合、48カ月目から18カ月の間に生涯AFRが約0.5%から1.0%に上昇し、その後横ばいになった。Seagateの場合、60カ月から約2年間かけて、1.0%から1.5%近くまで上昇し、その後横ばいになった。
第II領域 残りの4つのモデルは第II領域に達した。このうちSeagateの8TBモデル(黄色の線)、Seagateの10TBのモデル(緑色の線)、HGSTの12TBのモデル(空色の線)は、似たような故障プロファイルを示した。3モデルとも、ある時点から曲線が右に曲がり始めた。つまり、時間とともに故障率が加速している。3モデルとも注意深く観察し、リプレースすることになるだろう。なお、Seagateの8TB(黄色)には横ばいに変わる兆候がある。
第II領域の例外は、Seagateの4TBモデル(黒線)だ。このモデルは現在16TBのモデルにリプレース中だ。ほぼ垂直になっている故障プロファイルが、リプレースの影響なのか、それとも故障率が時間の経過とともに平準化されているのかを判断するのは難しいという。
図5に示した故障プロファイルのうち、ありふれたものを1つ選ぶとすれば、青線で示したSeagateの8TBモデル(ST800DM002)になるのだという。最初の60カ月間のAFRは1.0%前後で一貫している。60カ月後にはHDDの経年劣化に伴い、AFRが上昇したからだ。
Backblazeが困惑したのは最も左側に描かれたHGSTの2つの4TBモデル(茶色と紫色の線)の方だ。なぜなら、年間平均故障率がどのメーカーの公表値よりもはるかに低く、優秀過ぎるからだ。
HDDの故障を予測するためにAI(人工知能)やML(機械学習)技術を使用するというアイデアは、数年前からあったという。
作業に取りかかる前に考えなければならないことがある。そもそもHDDの故障予測がAIに適した問題かどうかを調べる必要がある。Backblazeはある問題を予測するためにAI/MLが適しているかどうかを評価する一般的な基準を示した。「問題を解決するために一連のルールを一貫して適用することができない問題には、AIを使用するのが最適だ」という基準だ。
元データを取得し、アルゴリズムを適用して複数の要因を反復的に組み合わせ、重み付けすることで機械学習が可能になる。例えば、あるHDDモデルの過去1年間の統計データを用いて機械学習モデルをトレーニングする。次に、別のHDDモデルから得られた毎日のSMART統計データと関連情報を与えて機械学習モデルに質問する。すると、機械学習モデルは推論を下して、そのHDDモデルが故障する確率を経時的に予測できるだろう。
残る問題は、あるHDDモデルについて学んだことを、別のHDDモデルに適用できるかどうかだ。図5のヘビ型グラフを見れば、モデルごとに故障プロファイルがかなり異なることが一目瞭然だ。例えば、Seagateの4TBモデル(黒線)で機械学習モデルをトレーニングし、それを使ってHGSTの4TBモデル(紫線と茶色の線)の故障率を予測できるだろうか。
このような問題があるとはいえ、HDDの故障予測にAI/MLを使用できるかどうかを見極めようとする研究論文が、各所から幾つか発表されている。Backblazeは今後数カ月のうちに、論文のレビューを進め、AIを使用して故障予測をいつでも正確に行う能力について、何らかの結論を得たいと考えているという。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。