大容量HDDの優等生は誰だ 故障しにくく信頼性が高いモデルは
HDDは大容量化に向かっている。大容量HDDは故障が怖い。どのメーカーのどのモデルを選ぶと運用コストを下げられるのだろうか。
クラウドストレージサービスを提供するBackblazeはHDDやSSDなどを数十万台規模で利用しており、その知見を故障率や寿命などの形で広く公開している。すでに10年以上のデータがたまっており、ブランドや容量ごとの情報が一目で分かる。
HDDの故障率はどう変化したのか
同社は2024年5月2日(現地時間)、自社のデータセンターにおけるHDDの故障率などを統計レポートとして発表した。2024年第1四半期(2024年1月1日〜同3月31日)のデータだ。今回は「大容量HDD」の優等生も紹介した。
2024年第1四半期末の時点で、Backblazeは世界中のデータセンターに設置されたクラウドストレージサーバが内蔵する28万3851台のHDDとSSDを監視していた。
ここから4279台の起動ドライブ(3307台のSSDと972台のHDD)を除外した残りのHDDについて扱う。これらのHDDには顧客のデータが保存されている。以下では2024年第1四半期時点の年間平均故障率(AFR)を計算して、モデル別、容量別に示す。
今回、動作中のある時点で製造元による温度の上限仕様を超えたHDDが275台あった。統計レポートではこれらを除いた27万9572台のHDDを対象として統計データを分析した。
さらにBackblazeは今回の調査でこの27万9572台のHDDを2つのグループに分けた。第一グループは第1四半期末時点で100台以上が稼働しており、同四半期中に1万日以上稼働したモデルだ。27万8656台のHDDを含み、モデルは29ある。第二グループは第一グループの基準を満たさなかった残りの641台のHDDだ。
まずは第一グループの分析だ。図1ではこれらのモデルのAFRなどを示した。容量が大きいものから、次にAFRの小さいものから並べた。分析したモデルはWestern DigitalのHGSTブランド、Seagate Technologyブランド(以下、Seagate)、東芝ブランド、Western Digital(WDC)ブランドだ。
図1 2024年第1四半期における第一グループのHDDの統計 Backblazeがデータセンターで運用中の4ブランド、29モデルを含む。項目は左からMFG:メーカー名(ブランド名)、Model:モデル名、Drive Size:容量、Drive Count:台数、Avg.Age(months):平均稼働月数、Drive Days:総稼働日数、Drive Failures:故障件数、AFR:年間平均故障率(提供:Backblaze)
図1からは3つのことが分かった。
(1)AFRが低下して信頼性が高まった
27万8656台のHDD全てについて、2024年第1四半期のAFRは図1の右下にあるように1.41%だった。これは、2023年第4四半期の1.53%よりも低い。1年前(2023年第1四半期)の1.54%と比較しても同様だ。
AFRの計算方法
図1の右端にあるAFRは数字が小さいほど故障しにくいという意味だ。
図1のデータからAFRを求めるには、求めたいモデルの故障件数をそのモデルの総稼働日数で割り、365を掛け、100倍して%表示にする。
図1の1行目にある「WDC WUH722222ALE6L4」であれば「7÷281150×365×100=0.908(%)」、つまり0.91%となる。
この計算式から分かるようにAFRには運用中のHDDの台数は直接関係しない。
なお4TBモデルのAFRの変化については簡単に説明が付くという。2024年第1四半期の4TBモデルのAFRは1.36%だ((5+2+63)÷(932237+160387+788345)×365×100))。4TBモデルのAFRが最も高かったのは2023年第2四半期の2.33%だ。2023年第4四半期は1.54%だった。AFRの数値が次第に低下しているのは古い4TBモデルが順次交換されて新しいモデルに置き換わっているためだという。
(2)故障ゼロのモデルは3つ 全てSeagate
2024年第1四半期で故障ゼロだったモデルは3つある。
- 容量16TBのSeagate製品(ST16000NM002J)
2024年第1四半期の総稼働日数 4万2133日
生涯総稼働日数:21万6019日
生涯故障率(生涯AFR):0.68%
生涯信頼区間:1.4% - 容量8TBのSeagate製品(ST8000NM000A)
2024年第1四半期の総稼働日数 1万9684日
生涯総稼働日数: 10万6759日
生涯AFR:0.00%
生涯信頼区間:1.9% - 容量6TBのSeagate製品(ST6000DX000)
2024年第1四半期の総稼働日数 8万262日
生涯総稼働日数: 426万8373日
生涯AFR:0.86%
生涯信頼区間:0.3%
3つのモデルとも生涯AFRは1%未満だが、8TBと16TBモデルの場合、生涯信頼区間の値がまだ大き過ぎる。ここにある信頼区間とは95%信頼区間の高値と低値の差を表しており、値が小さいほどAFRの安定性(信頼性)が高く、0.5%未満が望ましい。ただし、0.5%以上の値に意味がないというわけではない。この値が大きい場合、より多くのデータが必要か、またはデータが多少一貫していないことを意味する。
これを考えると6TBのSeagateのモデルが達成した信頼区間0.3%は素晴らしい。このモデルは2015年に同時に購入・設置されたため、平均使用年数は9年だ。
(3)図1にないモデルはどうなった
東芝の4TBのモデル(MD04ABA400V)は図1に掲載されていない。このモデルの最後の1台は第1四半期の早い段階で移行対象となり、データは16TBの東芝モデルに転送された。これらのHDDは6TBのSeagateモデルに匹敵する経年数とAFRを誇っていたが、そろそろ手放す時期が来ていたとBackblazeは判断した。
第二グループを作った理由とは
前述の通り、今回のBackblazeの統計データではHDDを第一と第二の2つのグループに分け、台数(>100台)と総稼働日数(>1万日)をグループ分けの指標とした。第二グループには27のモデルにまたがる641台のHDDがある。図2は第二グループの成績だ。
図2 2024年第1四半期における第二グループのHDDの統計 Backblazeがデータセンターで運用中の4ブランド、27モデルを含む。項目は左からMFG:メーカー名(ブランド名)、Model:モデル名、Drive Size:容量、Drive Count:台数、Avg.Age(months):平均稼働月数、Drive Days:総稼働日数、Drive Failures:故障件数、AFR:年間平均故障率(提供:Backblaze)
第二グループはほとんどが交換用のHDDか、移行候補のモデルだ。観測期間中の観測数(総稼働日数)が少な過ぎるため、AFRを計算しても確実性がないため、第一グループと分けたという。
第二グループに含まれるモデルが第一グループに移動することもある。例えば、14TBのSeagateモデル(ST14000NM000J)は台数が100台を超えており、2024年第2四半期に総稼働日数が1万日を突破する可能性が高い。
今回の統計レポートをまとめる以前から、Backblazeは常にHDDを2つのグループに分けていたという。これまでは少なくとも45台以上ないモデルを四半期AFRや年間AFR、生涯AFRの図から除外していた。今回算出したAFRの信頼性を高めるために、分析期間中の最低総稼働日数を設定する必要があることに気付いたのだという。そこで第一グループに入るためのしきい値を次のように定めた。
評価期間 | モデルごとの台数 | モデルごとの総稼働日数 |
---|---|---|
四半期 | >100台 | >1万日 |
年間 | >250台 | >5万日 |
生涯 | >500台 | >10万日 |
今後、これらの指標で評価を実施し、必要であれば変更するという。Backblazeは自社が運用するHDDについて状態を正確に反映していると確信できるAFRを提供し続けるとした。
HDDの平均故障期間はどうなっているのか
Backblazeは1年前の2023年第1四半期の統計レポートで、HDDが故障する平均故障期間(average age of drive failure)について取り上げた。記録データの損失や障害から回復させ、復旧させる専門的なサービスを提供するSecure Data Recovery Servicesの専門家からヒントを得たという。この統計レポートでは2007台の故障を分析し、故障したHDDの平均故障期間が1051日、つまり約2年10カ月だということが分かった。
このアプローチをBackblazeがこれまでに故障した1万7155台のHDDに適用したところ、平均故障期間がわずか2年6カ月だったという。まだ使用中のモデルの多くは平均よりもかなり古いものであり、そのうちの幾つかが故障した場合、特定のモデルの平均故障期間に影響を与えることは確実なことにも気付いたという。
このことを考慮して、本番環境で使用されなくなったモデルを今回考慮した。このモデル群を「引退したモデル」と呼ぶ。引退したモデルを調べたところ、平均故障期間は2年7カ月だった。これは予想外の値だったが、結論を出す前にもっとデータが必要だとBackblazeは判断した。
そこで、1年後の今回、HDDの平均故障期間が変化しているかどうかを確認した。
前回同様、記録にある2013年4月までの全ての故障について、日付やシリアル番号、モデル名、容量、故障、工場出荷状態からのHDDの通電時間の合計値(S.M.A.R.T.のID 0x09)を記録した。次に、起動用HDDや不完全なデータのあるHDD、つまり値の一部が欠落していたり、不正確だったりしたHDDを除外した。この結果、前述のように2023年第1四半期時点で1万7155台の故障HDDが残った。
2023年第2四半期から2024年第1四半期までのこの1年間で、さらに4406台の故障HDDを記録した。起動用HDDまたは不完全なデータのHDDが173台あり、前回の1万7155台に4233台を追加し、合計2万1388台の故障HDDを評価した。
2023年第1四半期と2024年第1四半期を比較したのが図3だ。
図3 分類別のHDDの平均故障期間 分類は上からSecure Data Recovery Servicesの公表した台数、Backblazeの全故障台数、Backblazeの引退したモデルの故障台数、Backblazeが利用中のモデルの故障台数。項目は2023年第1四半期、2024年第1四半期とも故障件数、平均故障期間(年、月)を示す(提供:Backblaze)
2024年第1四半期のデータについて、Backblazeの全故障台数の平均故障期間(2年10カ月)は、Secure Data Recovery Servicesの基準値と全く一致している。問題はこの数字が妥当かどうかだ。Backblazeによればまだ妥当ではないという。理由は2つある。
第1に、測定データ(期間)が2点しかないため、トレンドが分からないことだ。第2に、Backblazeが利用中のモデルの平均故障期間(2年11カ月)が、 Secure Data Recovery Servicesの日数よりも高いことだ。この傾向が続けば、稼働中のモデルが引退したときに、稼働していないモデルの平均故障期間が長くなる可能性が高い。
このような問題があるにせよ、2023年第1四半期から2024年第1四半期までの容量別、モデル別の数値を比較することで、さらなる洞察が得られるかもしれない。それが図4だ。
すぐに分かることは利用中のモデル(緑色)全てについて、平均故障期間が2023年第1四半期から2024年第1四半期にかけて増加したことだ。全体的な平均故障期間が2023年に増加したことを考えると、利用中のモデルのコホート(同一の性質を持つ集団)の一部で数値が増加すると予想するのは妥当だろう。このことを念頭に置いて、同期間のモデル別の変化を見るべきだ。
2023年第1四半期から2024年第1四半期にかけて、3つのモデル、合計196台のHDDが引退したモデルへと移行した。それでも、引退したモデルのコホートの平均故障期間は2年7カ月のままだ。つまりデータの90%以上が2023年第1四半期から2024年第1四半期まで変化しなかった。
変化が大きかった利用中のモデルに戻る。利用中のモデルの平均故障期間について詳細にまとめたものが図5だ。
2つのモデル(黄色)を除いて、各モデルの平均故障期間が増えたことが分かる。言い換えれば、利用中のモデルは平均して1年前より故障時の期間が増えている。ここで注意しなければならないのはBackblazeがテストしているのはHDDの平均故障期間であって、HDDの平均稼働期間ではないということだ。
繰り返しになるが、Secure Data Recovery Servicesのスタッフは、2007台の故障したHDDをチェックし、平均故障期間が2年10カ月だということを突き止めた。Backblazeはこの主張を検証しているところだ。現時点では、引退したモデルの平均故障期間は2年7カ月だ。これはSecure Data Recovery Servicesの数字よりまだ短い。しかし、まだ稼働しているモデルは平均2年10カ月に達しており、これらのモデルが稼働から外されれば、引退したモデルの平均故障期間が延びるだろう。つまり最終的に2年10カ月を超えるとBackblazeは考えた。さらに、Backblazeの4TBモデルが使用停止になった時点で、引退したモデルの平均故障期間が4年近くに達すると予測した。
ブランドによって年間平均故障率はどう異なるのか
冒頭で記したように、2024年第1四半期のAFRは1.41%だ。Backblazeが追跡する4ブランドのAFRは四半期ごとに図6のように推移した。
全HDDのAFRは2023年第2四半期をピークに低下したことが分かる。Backblazeによれば故障の傾向を表す「バスタブ曲線」に沿った動きだ。古い4TBのHDDを廃棄したことによるという。現在Backblazeが利用している残りの4TBのHDDは全て、SeagateまたはHGSTのモデルだ。したがって、この2種類のブランドの4TB HDDは今後1年間で交換されて、四半期ごとのAFRは減少し続けると予想した。
生涯故障率はどうなったのか
2024年第1四半期末現在、Backblazeは図1に示したように27万9572台の稼働中のHDDの記録を取っている。生涯故障率の評価対象となるモデルは、2024年第1四半期末時点で500台以上が稼働し、生涯期間中の総稼働日数が10万日以上あるものだ。基準を満たさないモデルを削除した結果、図7のように、27万7910台のHDDが分析の対象となった。
図7 2024年第1四半期におけるHDDの生涯故障率 Backblazeがデータセンターで運用中の4ブランド、26モデルを含む。項目は左からMFR:メーカー名(ブランド名)、Model:モデル名、Drive Size:容量、Drive Count:台数、Drive Days:総稼働日数、Drive Failures:故障件数、Lifetime AFR:生涯平均故障率、Confidence Interval:AFRの信頼区間(提供:Backblaze)
図7を見ると3つの例外を除き、95%信頼区間は0.5%以下だったことが分かる。10TBのSeagateモデル、14TBのSeagateモデル、14TBの東芝モデルは耐用年数の間、四半期ごとに故障の変動が大き過ぎたため信頼区間に悪影響が及んだ。
生涯AFRが低く信頼区間が小さいものは優秀なHDDだ。Backblazeは最近、交換や移行、新規導入の対象として、大容量HDDに主に関心があるという。そこで図8を使って、12TB、14TB、16TBの優秀モデルを特定した(22TBのHDDは1モデルしかないため省略した)。
図8 2024年第1四半期における大容量HDDの生涯故障率 12TBと14TB、16TBのモデルを示した。項目は左からMFR:メーカー名(ブランド名)、Model:モデル名、Drive Size:容量、Drive Count:台数、Drive Days:総稼働日数、Drive Failures:故障件数、Lifetime AFR:生涯平均故障率、Confidence Interval:AFRの信頼区間(提供:Backblaze)
・12TBモデル
HGSTの12TBモデル3機種は素晴らしい成績を示したが、Backblazeによれば現在、新品を見つけるのは難しいという。少し前にHGSTのHDD事業を買収したWestern Digitalは、これらのHDDについて独自のモデル番号を使用し始めたため、混乱する可能性がある。もしオリジナルのHGSTモデルを見つけた場合は、それが新品だということを確認しなければならない。Backblazeによれば、再生品のHDDを購入することは、新品を購入することと同じではないからだ(信頼性が低下するということ)。
・14TBモデル
WDC(WUH721414ALE6L4)、東芝(MG07ACA14TA)、Seagate(ST14000NM001G)が優れている。残りの2つのモデルは、生涯AFRが平凡で、信頼区間も望ましくない。
・16TBモデル
6つのモデル全てが現時点で良好な性能を発揮している。中でもWDCのモデルが現在までのところ最高だという。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- SSDの基礎技術、導入時のポイント、故障の前兆を徹底解説
SSDはHDDと比較して信頼性が高いという。だが、故障しないハードウェアは存在しない。どうすれば信頼性を高めることができるのだろうか。 - あなたの「SSD」はいつまで使えるのか
SSDは無音で動作するため、調子が良いのか悪いのか、よく分からない。いざ故障するとHDDと比較してデータのサルベージは難しい。どうすればよいのだろうか。 - この3年でHDDの故障率はどう変わったのか
HDDを大量に利用する場合は故障率が運用コストに大きく影響する。そこで気になるのが、どのメーカーのどのモデルを選べばよいのかということだ。