メディア

HDDの故障率が3分の1に激減? データから読み解く、寿命が劇的に伸びたワケ

Backblazeは大量のHDDを13年間にわたってデータセンターで運用してきた。同社が故障率の傾向を詳細に分析した結果、HDDは一般の工業製品の故障傾向に当てはまるバスタブ曲線に従わないことが分かった。これはなぜなのだろうか。そして、HDDを運用する情報システム部門にとって何を意味するのだろうか。

» 2025年11月12日 07時00分 公開
[畑陽一郎キーマンズネット]

 キーマンズネットは、HDDやSSDなどを数十万台規模で運用するBackblazeのHDD統計を定期的に紹介してきた。HDDの故障率について、四半期ごとや通年など、ブランドや製品ごとの実績を見てきた。

 2025年10月15日、Backblazeはこれまで異なる情報を公表した。13年間の運用実績を通して、HDDの故障パターンを分析した結果だ。

 Backblazeの問題意識は「HDDは本当の工業製品と似た故障パターンを示すのか」ということだ。ここでいう故障パターンとはバスタブ曲線のことだ。製品の導入時には初期故障が多く、これは次第に少なくなっていく。利用期間がたつにつれ、機械の摩耗などによる故障が増えていく。中間では初期故障も摩耗も少ないため故障率が低くなる。これらを合わせると故障率は「U字形」(西洋風のバスタブの形)を示すという考え方だ。

ハードウェアの故障率を表したバスタブ曲線(青い実線) 縦軸は故障率、横軸は期間を表す。横軸で3つに分けられた期間は、左から「初期故障期」「偶発故障期」「摩耗故障期」と呼ぶ。3つの期間に分かれる理由は、故障の原因が3つ(初期故障:赤い点線、摩耗故障:黄色い点線、ランダムな原因による故障:緑色の実線)あり、その和が実際の故障率になることを示している(出典:Wikimedia Commons、パブリックドメイン画像

 HDDの正確な故障パターンを理解できれば、HDDの運用計画はもちろん、予算申請のタイミングなどにも役立つはずだ。

 ではHDDは実際にどのような故障パターンを示したのだろうか。結論から言えばバスタブ曲線とは異なっていた。故障率は予測不能な落ち込みを見せたり、急上昇したり、停滞したりした。

 バスタブ曲線の考え方は本当に間違っていたのだろうか、間違っていたとすればなぜだろうか。

HDDはいつ壊れ始めるのか? データが示した「本当の寿命」

 以下ではBackblazeが運用してきたHDDの故障パターンについて分かったことを紹介する。

 Backblazeは故障パターンがバスタブ曲線に従わない理由について一言でまとめた。「HDDの性能が向上しており、そもそも寿命が延びている」ということだ。

 同社が故障率の「形」について最初に分析したのは2013年のことだ。2021年にはその形がどのように変化したのかを追跡調査した。

2013年時点(青)と2021年時点(赤)の故障率の比較。縦軸は故障率、横軸はHDDの運用を開始したときからの経過を示す(提供:Backblaze)

 この図は2013年(赤)と2021年(青)に調べた同社が運用するHDD全体の年間平均故障率(AFR)を示した*。2013年のデータはU字形のバスタブ曲線にかなり近く見える。だが、2021年のデータでは初期故障がとても少なく、故障率自体も低い水準にとどまっていた。さらにHDDの平均寿命が約2年延びたことと、摩耗故障期に入った際に急速に故障率が高くなることも分かる。

*AFRの計算方法は、あるHDDモデルの故障件数をそのモデルの総稼働日数で割り、365を掛け、100倍して%表示にしたものだ。2025年第1四半期末時点ではBackblazeの31万2493台のHDDをまとめると、AFRは1.32%だった。最も故障が少ないモデル(Western Digitalの「WUH721816ALE6L4」(16TB)で0.37%、最も多いもの(Seagate Technologyの「ST14000NM0138」(14TB)で5.97%だった。

 この図のようにHDDの信頼性について時間間隔を空けて比較する際には、さまざまな要素を考えなければならない。Backblazeのようにデータセンターで大量運用する場合と一般消費者の使用方法は違う。ワークロードの時間的変化も異なる。

 しかしより重要なのは、平均値を比較しているため、データセットの背景(2013年と2021年で対象HDD数が異なる点など)ということだ*。

*2013年に分析した際、Backblazeは創業6年目で、そのときに統計のデータセットを公開し始めた。そのため過去のデータを振り返る(例えば、0〜1年が経過したときのHDDの故障数)といった分析は、通常のデータ報告と比べて計算処理が必要だという。

 2013年当時、Backblazeが運用するHDDは2025年現在とは大きく異なり、規模がかなり小さかった。2014年9月時点で稼働中だったHDDは約3万5000台で現在の約10分の1だった。データ量も100PB超と少なかった。さらに運用していたHDDは一般に信頼性が高いことをうたっているエンタープライズ用として販売されていたものではなく、一般消費者用だった。実環境で両者をテストした際、大きな差は見られなかったものの、当時はHDDを格納用のハウジングから物理的に取り外す作業を含む大規模なHDDファーミングを頻繁に実施していた。つまり当時のHDDは運用中に障害が発生する可能性がはるかに高かった。

 2021年に分析した時点では、データ量もHDDの数も大幅に増加していた。約20万6928台だ。以上の要点はこうだ。データ量が少ない(つまり総HDD数が少ない)状況では、個々のデータポイント、つまり、A社のBモデルの故障)が全体に与える影響が大きくなる。バスタブ曲線を描くと、あるHDDのモデルは運用期間が長くなるにつれて故障のために脱落して数が減っていく。全てのHDDには「運用開始の初日」はある。だが、「1462日目」(ほぼ4年)まで持たないものもある。さらにあるモデルのHDDの数が減れば、故障率のばらつきが大きくなる。

 そのため、最初からHDDの台数を多くすれば、数値が安定する可能性は高いだろう。深刻な問題が発生しない限り、あるいはHDDの真の故障ゾーンに突入しない限り、故障件数は低い水準にとどまるはずだ。

 Backblazeは運用するHDDの数を増やす際に、買い増しをする方法や廃棄方法を変えている。実はこれも最終的な結果に影響する(HDD管理の変化については後述する)。

現在の「バスタブ曲線」はどうなっているのか

 以上のような過去の経緯を踏まえて、2025年の「バスタブ曲線」はどうなっているのだろうか。

2025年現在の故障率の推移。縦軸は故障率、横軸はHDDの運用を開始したときからの経過を示す。赤い線でトレンドを示した(提供:Backblaze)

 図を見ると、2013年や2021年と比べて、HDDの故障の時間的な分布はもちろん、AFRのピーク値の様子もかなり異なることが分かる。2025年の数値(2025年第2四半期末時点)を算出する際、対象のHDDは31万7230台だった。

 2025年の図と比較するために、2013年のグラフを示す。運用開始後5年目までのデータだ。

2013年時点の故障率の推移。縦軸は故障率、横軸はHDDの運用を開始したときからの経過を示す。赤い線でトレンドを示した(提供:Backblaze)

 2021年のグラフも示そう。こちらは8年目までのデータをプロットした。

2021年時点の故障率の推移。縦軸は故障率、横軸はHDDの運用を開始したときからの経過を示す。赤い線でトレンドを示した(提供:Backblaze)

 以上の3つのグラフはx軸(経過年数)とy軸(故障率)のスケールが異なる。そこで3つのグラフを1つのグラフにまとめたものが以下の図だ。

2021年時点の故障率の推移。縦軸は故障率、横軸はHDDの運用を開始したときからの経過を示す。赤い線でトレンドを示した(提供:Backblaze)

 2013年のデータ(青)と2021年データ(黄色)の両方とも、HDDの寿命の終わりに近い時点で故障率のピークが高い。2013年は約3年3カ月で13.73%(3年9カ月では13.30%)だった。2021年は14.24%で、ピークは7年9カ月で発生した。

 この2つを2025年のデータと比較すると、2025年はピークが10年3カ月と遅く、故障率自体も4.25%とかなり低い。これはHDDの寿命の大幅な改善だけでなく、故障率のピークが、曲線の最も時間が経過した右端に現れた初めてのケースでもある。さらに、2013年や2021年の故障率の約3分の1という低い水準だ。

 加えて、曲線の初期段階でのHDDの故障率も驚くほど低い。運用期間が0〜1年の間では、AFRは1.30%をわずかに超える程度だ(なお、直近の四半期のAFRは1.36%)。

 だが、曲線で描かれたトレンドを見ると、2021年と2025年のデータの形状は大きく異なっているわけではない。つまり、HDDを運用した場合、大部分の期間で故障率がほぼ一定水準で推移し、故障領域に入ると急激に上昇する傾向が確認できた。

 これは何を意味するのだろうか。HDD自体が改良されて、寿命が延びているということだ。HDDの進化が容量だけではなく、寿命にも及んでいることは実に喜ばしい。

HDDを購入する方法で寿命は変わるのか

 前述した通り、同社は当初、一般消費者向けのHDDを運用しており、現在はエンタープライズ向けを使っている。残念ながら両者の寿命を比較した最新のテスト結果はない。だが、HDDを大量購入する際の他の要素がデータに影響している可能性がある。

 現在はHDDを大量購入するため、大量のHDDが同時に「データプール」に投入される。これまで同社はHDDのモデルごとのばらつきしか確認してこなかったが、不良のあるHDDを大量に投入した場合、一斉に故障が発生する可能性がある。

 さらにBackblazeはHDDの廃棄プロセスも変えた。リスク管理と長期的なストレージ容量拡大能力の確保のためだ。運用上、まだ正常に動作しているHDDを意図的に運用停止にすることがある。故障することなく除外されることになる。前述の分析はHDDの「年齢」に対する年間故障率に基づいているため、HDDの数が大幅に減少しても故障率の急上昇は起こらない。

結局バスタブ曲線とは何だったのか

 Backblazeのデータからは大量生産される工業製品全般に当てはまるバスタブ曲線の考え方が最新のHDDには適用できないことが分かった。

 これはバスタブ曲線に意味がないということではないという。バスタブ曲線は間違っているのではなく不完全だというのが結論だ。信頼性についてバスタブ曲線は時間軸と故障率の関係だけを見ている。だが、実際の運用ではHDDが単位時間当たりに処理しなければならないデータアクセスの頻度やパターン、つまりワークロードが変化する。ファームウェアの更新やBackblazeであったような運用上の変動も無視している。

 さらにバスタブ曲線を考える際に次のような暗黙の前提がある。

デバイスは全て同一で、同一条件下で動作する
故障は主に運用時間に関係があり、それぞれの故障は独立して発生する
製品の運用期間を通して、運用環境は一定

 データセンターで運用する場合、これらの暗黙の前提は実際には成立している。データセンターの環境は可能な限り一貫性を保とうとするからだ。なぜなら消費電力を削減し、データワークロードを適切に予測・計画しなければならないからだ。

 とはいえ、条件が完璧であることは決してない。Backblazeの数値は常に、優れた計画と現実の予期せぬ側面の両方を反映しており、これからもそうだろう。HDDが「良好」なのか「不良」なのかを理解することは、常に理論(バスタブ曲線)と現実(実際のデータセット)との関係を見て判断する必要があるという。

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。

アイティメディアからのお知らせ