SSDはHDDと比較して壊れにくいと言われている。だが、SSDのモデルによって10倍以上違う。どのメーカーのどのSSDが壊れにくいのだろうか。
ストレージ装置が故障したときのがっかり感、喪失感は大きい。なるべく故障しにくい製品を選びたい。容量の大きなSSDであればなおさらだ。そこで大量のSSDを常時運用している企業の事例が参考になる。
クラウドストレージを提供するBackblazeは2023年9月26日、SSDの寿命や故障率を紹介した。2023年上半期の自社データセンターにおける使用統計に基づくものだ。
2023年6月30日時点で、Backblazeはストレージサーバの起動ドライブとして、3144台のSSDを使用していた(2022年6月30日時点では2558台だった)。
今回は3144台のSSDについて次の内容を報告した。
(1)SSDの故障率 2023年第1四半期と同第2四半期
(2)故障率の変化 過去3年間の四半期ごとの故障率の推移
(3)いつ故障するのか 故障するまでの平均使用期間
(4)故障率のパターン 「バスタブ曲線」
(5)長い目で見た故障率 生涯故障率
Backblazeはデータセンターにおける起動ドライブとしてSSDを使う他、ストレージサーバが生成するログファイルや一時ファイルの読み書き、削除にもSSDを利用している。
2023年上半期にBackblazeが追加したSSDは238台だった。追加台数が最も多かったモデルは、Micron TechnologyのCrucialブランドの「CT250MX500SSD1」(110台)。Western Digitalの「WD Blue SA510 2.5」(62台)、Seagate Technologyの「ZA250NM1000」(44台)が続く。
図1は2023年第1四半期における3144台のSSDの統計値だ。5ブランドにわたる14モデルを一覧できる。
年間平均故障率(AFR)は、「(故障件数/(総稼働日数/365))×100」という式に従って算出した。総稼働日数は各SSDが正常に稼働した日数の合計値だ。AFRが少ないSSDほど、故障しにくいと言える。
2023年第2四半期における統計値は次の通りだ。
表を見ると、AFRが極めて高いモデルが目立つ。Seagate Technologyの「SSDSCKKB240GZR」は、2023年第1四半期のAFRが800%を超えた。第1四半期にこのモデルを1台使い始めたところ、1.4カ月後に故障したからだ。故障後に導入したもう1台は、第2四半期末まで故障せず、第2四半期のAFRは0%だ。つまり、この場合は十分なデータがまだないと言える。
AFRの値が「妥当」だと見なすには、Backblazeによれば最低でも1四半期のSSDの台数が100台、総稼働日数が1万日に達していることが望ましいという。
SSDの2023年第1四半期のAFRは表で示したように0.96%、第2四半期のAFRは1.05%だった。四半期ごとのAFRの過去3年間の推移は次の図のように変化した。
四半期ごとのAFRは、いわば「炭鉱のカナリア」(危険なガスの漏れを検知する鳥)のような役割を果たす。2021年第1四半期は0.58%だったが、第2四半期には1.51%に上昇し、第3四半期にはさらに1.72%に達した。調査の結果、あるモデルが主な原因だと分かったため、そのモデルの利用をやめた。
次の図は直近の60日間のAFR(赤色)と生涯AFR(青色)をブランドごとに比較したものだ。炭鉱のカナリアの見地からすると、Micron Technologyの自社ブランド製品は赤色のグラフが突出している。Backblazeによれば、データをさらに掘り下げる必要があるかもしれないという。
BackblazeはHDDの使用統計レポートを長年公開してきた。それによればHDDが故障するまでの平均使用期間は約2年7カ月だという。
これまでに故障したSSDの台数は63台と少ない。SSDのSMART値(関連記事を参照)のうち、第9項目(電源投入時間)を調べると、平均使用期間は14カ月だと分かった。それに対して、Backblazeが利用したSSDの全体の平均使用期間は25カ月だ。
まだ正常に動作しているSSDを今後使い続け、「平均年齢」が上昇するにつれて、何が起こると予想できるだろうか。状況をもう少し分かりやすくするため、3つのモデルを選び、正常に動作中のものと、故障したものを次の表で比較した。
この表を見ると、正常に動作中のSSDの平均使用期間が長いほど(最下行のモデル)、故障したSSDの平均使用期間も長くなっている。つまり、SSDが故障するまでの平均稼働期間は、SSD全体の使用期間が長くなるにつれて、伸びると予想するのが妥当だろう。
Backblazeは以前、信頼性工学で使用される「バスタブ曲線」*に、HDDの故障がどの程度当てはまるかを調べた。今回はSSDについて、初めて同様の調査を実施した結果、次の図のようになった。
*縦軸に故障率、横軸に使用期間を取ると、ハードウェアの故障率は初期に高く、中期に低く、後期に高くなる。それぞれの期間を「初期故障期」「偶発故障期」「摩耗故障期」と呼ぶ。この曲線の形状が欧米の風呂おけ(バスタブ)に似ていることからバスタブ曲線と呼ばれる。
各四半期のSSDの故障をプロットした曲線(青線)は少しゴツゴツしているものの、2次の傾向線(赤線)を引くと、バスタブ曲線に近い形が得られた。傾向線はデータとの一致率が70%程度にとどまるため、過信は禁物だが、データ量が限られている中で、SSDの故障の発生状況が古典的なバスタブ曲線に従っているのは驚くべきことだと、Backblazeはまとめた。
Backblazeは、2023年6月末時点で稼働していた3144台のSSDの生涯AFRを次の表のように示した。
2018年第4四半期から2023年第2四半期までの累積データから生涯AFRを計算した。この期間の全SSDの生涯AFRは0.90%だ。これは2022年第4四半期末の0.89%よりもわずかに高いものの、1年前の2022年第2四半期の1.08%よりは低い。
(1)で説明したように、AFRにある程度の信頼性を持たせるには、SSDの台数が100台以上、さらに総稼働日数が1万日以上だということが望ましい。この表から条件を満たす6モデルを抜き出すと、次の表になる。
生涯AFRの予測値には幅がある。上の表で先頭行のCrucialのモデルは95%の信頼区間で低値が0.9%、高値が3.3%と2.4ポイントの幅がある。2行目のDellのモデルは0.0%と0.4%なので、幅は0.4ポイントだ。幅が狭ければ狭いほど生涯AFRの予測値が正確だと言える。信頼区間の幅が大きなものは、今後データを取得していくにつれて幅が狭くなっていく。
Backblazeによれば信頼区間の幅が1.0ポイント以下の予測値が妥当なものだという。この基準に従って、上の表から妥当なモデルを抜き出したのが次の表だ。
この3モデルがBackblazeの「お墨付き」のSSDになる。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。