SSDはHDDと比較して信頼性が高いという。だが、故障しないハードウェアは存在しない。どうすれば信頼性を高めることができるのだろうか。
SSDは読み出しや書き込みが高速で、250GB容量の製品を中心に幅広い選択肢がある。価格こそHDDよりもいくぶん高価だが十分HDDと競合する。
SSDのメリットとしてよく挙げられるのが信頼性だ。機械的に動作する部分がなく、振動や衝撃にも強い。だが、故障が起こることもある。SSDを長く安全に利用するには何に気を付ければよいのだろうか。
3000台以上のSSDをデータセンターで運用し、寿命や故障率についての統計を発表してきたBackblazeが経験に基づく指針を公開した。
SSDを購入し、PCやサーバに接続した後、最初にするべきことは何だろうか。
Backblazeのアンディ・クライン氏によれば、バックアップだ。失われたら困るデータをSSDに格納しているのであればバックアップ、それも「3-2-1バックアップ」を実行すべきだという。
3つのコピー バックアップデータを3つの異なる場所にコピーする。元のデータ(オリジナル)、元のデータのローカルバックアップ、元のデータから離れたリモートバックアップを合わせた3つのバックアップを用意する。
2つの異なるメディア 3つを全て同じ種類のメディアや装置に保存せず、2種類の異なる装置を用いる。HDDとクラウドストレージ、HDDと磁気テープなどだ。異なる装置を使うことで、1つの装置やメディアに障害が発生しても別のメディアからデータを復旧できる。
1つのリモートバックアップ バックアップのうち1つはリモートに保存する。自然災害や盗難などのリスクからデータを守ることが目的だ。クラウドストレージやリモートサーバ、外付けHDDなどが適する。
この戦略の要点は3つある。(1)データのバックアップを複数持つ、(2)バックアップは地理的に離れた場所にも置く、(3)物理的な災害や偶発的な削除が発生した場合に迅速に復旧できるように、1つ以上のバックアップに即座にアクセスできるようにしておく。
Backblazeによれば、さらに重要なデータであれば「3-2-1-1-0」戦略や「4-3-2」戦略を考慮すべきだという(注1)。
(注1) 3-2-1-1-0戦略では「データのコピーを少なくとも3つ用意する」「少なくとも2種類の記憶媒体にデータを保存する」「バックアップのコピーを1部、リモートに保管する」。ここまでは3-2-1戦略と同じだ。次に「メディアのうち1つをオフラインまたはエアギャップにしておく」「全ての復旧ソリューションのエラーがゼロであることを確認する」。4-3-2戦略では「データのコピーを4部」「データは3つの場所に保管(オンプレミスの自社、マネージドサービスプロバイダーのオンプレミス、クラウドサービスプロバイダーの保管)」「データの保管場所はオフサイトの2カ所」
バックアップを実行してデータが安全になったところで、SSDの信頼性を決める技術について振り返ってみよう。
現在のSSDはほぼ全てのタイプでNANDフラッシュメモリを使用している(図1)。NANDは「NOT AND」と呼ばれる論理ゲートに由来する名前だ。なおこの論理ゲートは、2つの入力がどちらも真の場合にのみ偽の出力を生成する機能を備える。
なぜ最初にNANDについて説明したかといえば、論理ゲートの構造によって寿命に差が生じるからだ。NANDを用いたフラッシュメモリは、格子状の配列に編成された個々のメモリセルにデータを格納する。1か0のデータがNANDセルに書き込まれると(プログラムされると)、同じセルに新しいデータを書き込む前にまずデータを消去しなければならない。NANDセルにデータを書き込んだり消去したりする際、電子の集団の有無によって1か0かが決まる。電子は量子力学に従ったトンネル効果を使って絶縁体を通過する。このとき絶縁体は次第に「摩耗」する。最終的には絶縁体の摩耗が限界に達して、電子を正しい位置に保つことが難しくなり、1と0の違いを読み出すことができなくなる。これが寿命だ。
このためフラッシュタイプのメモリセルはある決まった回数しか確実に書き込んだり消去したりできない。これを「プログラム/消去サイクル」(P/Eサイクル)と呼ぶ。
P/EサイクルはSSDの信頼性を決める最も重要な値だが、このほかにもTBW(書き込みTB)やMTBF(平均故障間隔)などの指標がある。
プログラム/消去サイクル(P/Eサイクル)とは
半導体ストレージにおけるP/EサイクルはNANDフラッシュメモリセルにデータを書き込んだ後、そのデータを消去し、再書き込みできる状態にすることを含む。P/Eサイクルで測定されるSSDの耐久性は通常500〜10万の範囲になる。数値が大きいほど製品の信頼性が高くなる。
書き込みテラバイト(TBW)とは
TBWはSSDが故障するまでに書き込むことができるデータの総量だ。Samsungの「V-NAND SSD 870 EVO」を例に挙げると、TBW保証について次のようになっていた。この製品の場合、TBWは容量に比例している。
これら全てのモデルの保証期間は、5年間またはTBW数のうち少ない方だ。
平均故障間隔(MTBF)とは
MTBFはメモリセルではなく、ハードウェアコンポーネント全体の想定寿命を考慮した信頼性の指標だ。ほとんどのコンポーネントの場合、通常、数千から数万時間になる。例えば、HDDのMTBFは30万時間で、SSDは150万時間だ。
メーカー各社は自社製品の仕様でMTBFを表示しているものの、仕様にある数値をそのまま保証寿命だと考えてはいけない。MTBFはSSDの集団について一定の割合でエラーが発生することを示す数値だからだ。あるSSDのMTBFが120万時間だとしよう。これは1000台のSSDを1日平均8時間使用した場合、150日に1回、つまり1年に約2回故障が発生するという意味だ。
仕様書の他にも参考になる数値がある。SSD製品に付属したり別途ダウンロードしたりできるユーティリティーソフトウェアだ。これらのソフトウェアはSSDのSMART属性を監視する機能を備える。その機能に従ってSSDの寿命の計算値を表示することも可能だ。ただし、SMART属性のうちどのような属性を監視し、どのようにSSDの寿命を計算するかについては、SSDのメーカー間で一貫性がない。ソフトウェアの表示情報に基づいて使用中のSSDをいつ交換すればよいのかを決める場合はソフトウェアのマニュアルを読み、実際に何を監視しているのかを確認しなければならない(関連記事)。
製品化が始まった当時の初期のSSDは1つのメモリセルに1bitのデータを保存していた。これをSLC(シングルレベルセル)と呼ぶ。現在はSLC以外にも4つのNANDフラッシュセル技術が利用されている。何らかの補助技術がない場合、セル当たりの保存bit数が増加すると、bit当たりのコストは下がるものの、耐久性と性能が低下する可能性がある。
一般にSLCとMLCは高速で長持ちするものの、容量に制限がある。TLCとQLCは低コストだが速度が遅くなる可能性がある。しかし、ダイナミックキャッシング技術を採用すれば一般消費者にとって速度の差はおそらく無視できる。3D NANDは最新の技術だがコスト高だ。
HDDに比べてSSDは頑丈だ。回転したり往復したりする可動部品がないため、落下やその他の衝撃、振動、極端な温度、磁場に対してHDDよりも耐える。サイズが小さく、消費電力が低いため、HDDをSSDに置き換えるために労力をかけるだけの価値がある場合が少なくない。
だが、話はそこまで単純ではない。家庭のデスクトップPCで使われるのか、データセンターで使われるのか、幅広い用途があり、性能や信頼性の要求基準は用途によって異なる。このため、SSDのメーカーは書き込み集中型、読み取り集中型、混載型など、作業負荷に対応したSSDを販売している。特定のユースケースに最適な耐久性と容量を備えたSSDを選択できる。
トランザクションの多いデータベースを使用する企業ユーザーは容量を犠牲にして、多大な書き込み回数に耐えるSSDを選ぶ場合がある。頻繁に書き込みを実行しないデータベースを運用するユーザーはより大容量で低性能のSSDを選ぶだろう。SSDのメーカーはメモリセルの構造やキャッシング技術などを組み合わせて製品化することで最適なタイプのSSDを提供している。
HDDが故障する場合、はっきりした前兆が分かる場合がある。「カチッカチッ」という聞き慣れない音が聞こえたり、アクセスした際に回転音がしなかったりといった前兆だ。SSDには可動部品がないため、音で判断することはできないものの、故障の兆候はある。以下の5つの兆候が現れた場合、新しいSSDと交換する準備を始めよう。
1. 不良ブロックを含むエラー
HDDの不良セクタと同様に、SSDにも不良ブロックが存在する。不良ブロックが増えてくると、ファイルの読み取りや保存を試みたときに異常に時間がかかったり、失敗したりする。OSやアプリケーションがエラーメッセージを表示する場合もある。
2. ファイルの読み書きができない
不良ブロックがファイルアクセスに影響を与える場合が2つある。一つはSSDへのデータ書き込み中にシステムが不良ブロックを検出して、データの書き込みを拒否する場合だ。もう一つはデータ書き込み後にシステムが不良ブロックを検出し、データの読み込みを拒否する場合だ。
3. ファイルシステムの修復が必要になる
このようなエラーメッセージが画面に表示された場合、2つの可能性がある。単にPCが適切にシャットダウンされなかったことが原因かもしれないが、SSDに不良ブロックやその他の問題が発生している兆候だという可能性もある。
4. 起動中にクラッシュする
PCの起動中に何度もクラッシュが起きた場合、SSDに問題が生じている可能性がある。状況が悪化してSSDが完全に故障する前に、全てのデータのバックアップを確認しておく必要がある。
5. SSDが勝手に読み取り専用になる
SSDがデータの書き込みを拒否し、データの読み込みしかできなくなることがある。これはSSDが劣化したためだ。バックアップを取る時間がまだ残っているかもしれない。
最後にSSDの信頼性を3つの具体的な質問に分解してみよう。
質問1 SSDの寿命はどれ程度か
SSDの寿命はメモリセル技術に依存する。メモリセル技術に合わない使い方(例えば書き込み回数の多いアプリケーションでQLCを使用する場合)をしていないのであれば、メーカーが期待する寿命(一般には5年)と同じくらい長持ちする場合が最も多い。メーカーの推奨事項を参照して、SSDの使用方法がその最適な使用方法と一致していることを確認しなければならない。
クライン氏によればBackblazeでは、さまざまな用途にSSDを用いている。Backblazeはストレージサーバのブートドライブについて厳密な信頼性データを持っている。約3000台のSSDがサーバの起動はもちろん、ストレージサーバが常時記録するさまざまな種類のログファイルの書き込みや保存、読み出し、削除も担っている(関連記事)。
質問2 SSDはHDDよりも早く故障するのか
HDDとSSDの信頼性を比較する方法は複数ある。特に重要なのが使用方法だ。BackblazeはSSDとHDDについてブートドライブを、同じ種類のシステムとストレージサーバで同じ機能を果たすものとして比較した。導入後最初の3年間ほどは、それぞれのドライブの故障曲線は似通っているように見えるが、4年後には曲線が分かれ、HDDの故障率が高くなる。これまでのところ、SSDは最初の4年間を通じて1%以下の年間平均故障率(AFR:「(故障件数/(総稼働日数/365))×100」)を維持しているという。
Backblazeによれば、SSDのユーザーがドライブを交換する最大の理由はSSDの寿命が短いことではなく、より新しい技術を採用し、より大容量でより高速なSSDにアップグレードする準備ができたからという場合がはるかに多いという。通常の使用方法であれば、SSDは何年も使えると期待できる。多くの企業やユーザーが実行しているように、PCを3年ごとに買い換えるのであれば、SSDがPCと同じぐらい長持ちするかどうかを心配する必要はないだろう。
質問3 SSDは長期保存に適しているか
SSDは長期保存するものではなくHDDと同様、日々使用するものだ。Backblazeによれば、外付けドライブを数年間、どこかに保存しておくことは決して良いことではなく、中身がSSDであろうとHDDであろうと同じだという。このような状況でSSDがHDDより優れていることを示す証拠はほぼない。それでも、バックアッププランの一環として外付けSSDをPCなどのバックアップ媒体として使用するのは良いことだという。
SSD技術の違いが信頼性にどのような影響を及ぼすのか、またMLCやQLCよりもSLCに余分なコストをかける価値があるのかどうかを理解する必要がある。多くの場合、読み出しよりも書き込みの方が多いような特殊な用途でSSDを使用するのでなければ、信頼できるメーカーの良質なSSDを選ぶだけで、SSDの寿命が延びることを期待できる。
故障や不良セクタの兆候に注意し、しっかりとしたバックアップ計画を立てることが最も確実な対策だ。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。