メディア

バックアップに最適なHDDは? 20TB超モデルを徹底比較壊れにくいのはどのメーカー?

NASやファイルサーバで大容量データをバックアップする際、できるだけ故障率が低いHDDを選びたいものだ。20TB超の大容量HDDが入手しやすくなってきた中、どのモデルが選択肢に入るのだろうか。

» 2025年08月27日 07時00分 公開
[畑陽一郎キーマンズネット]

 企業が業務に必要なデータをバックアップする理由は数多い。サイバーセキュリティはもちろん、クラウドサービスの不調や災害、さらには従業員や関連会社の人為ミスなどさまざまな現任でデータが失われてしまうからだ。

 バックアップしなければならないデータが大きかったり、多数の世代管理をしていたりする場合、20TB級のHDDが必要な場面がある。容量が大きなHDDは故障したときの損害も大きい。現在どのようなモデルがあり、故障率はどの程度違うのだろうか。

 データセンターを運用するBackblazeは2025年8月5日(現地時間)、運用中のHDDの故障率などを統計レポートとして発表した。2025年第2四半期(2025年4月1日〜同7月31日)時点で監視していた約32万台のHDDのデータから、前編ではBackblazeが管理する容量4〜22TBのHDDの全体的な傾向を紹介した。今回は容量が特に大きい20TB級のHDDを中心に故障率を見てみよう*。

*Backblazeが2025年6月30日時点で運用していたHDDは32万1201台あった。ブランド別ではSeagate Technology(以下、Seagate)が34.84%と最も多く、次いでToshiba(以下、東芝、32.84%)、Western Digital(23.72%)、HGST(8.62%)だった。

20TB級HDDで安全にバックアップする 3社のHDDのうち壊れにくいものはどれか

 BackblazeはHDDのモデルの統計を評価する際に、台数が少ないものや、総稼働日数が少ないものを除外して統計的に意味のある数字を導き出そうとしている*

*四半期ベースの統計ではHDDの台数が100台以下か、総稼働日数が1万日以下のものを除外し、年間ベースの統計では250台以下、5万日以下を除外した。生涯ベースでは500台以下、10万日以下を除外した。

 この基準に従う20TB級のモデルは次の3つだ。

東芝「MG10ACA20TE」(20TB)
・Western Digital「WUH722222ALE6L4」(22TB)
・Seagate Technology「ST24000NM002H(24TB)

東芝モデルの故障率

 Backblazeは東芝「MG10ACA20TE」をこれまで22カ月運用してきたが、約1年前までドライブの台数はわずか2台だった。そのため、11カ月前からの評価を示す。

 図1は「MG10ACA20TE」の故障率を稼働月数ごとにまとめたものだ。

図1 東芝「MG10ACA20TE」(20TB)の統計データ 稼働月数(Age in months)ごとに平均故障率(AFR)とHDDの台数(Drive count)を示した(提供:Backblaze)

 稼働月数をX軸においたグラフで図1の内容を表したものが図2だ。

 同社はHDDを定期的に増設し、まだ引退するHDDはほとんどなかったため、台数は稼働月数が少ないほど多くなった。HDDの稼働月数に応じた平均故障率は単純な直線にはなっていない。Backblazeはこの理由を説明していないが、導入開始から1年未満であり、バスタブ曲線でいう「初期故障期」に相当するためだろう。

図2 図1のデータをX軸に稼働月数、Y軸にAFR(青)、HDDの台数(赤)と置いてグラフ化したもの(提供:Backblaze)

WDCモデルの故障率

 図3はWDC「WUH722222ALE6L4」の故障率を稼働月数ごとにまとめたもの、図4は図3のデータをグラフにまとめたものだ。

図3 WDC「WUH722222ALE6L4」(22TB)の統計データ 稼働月数(Age in months)ごとに平均故障率(AFR)とHDDの台数(Drive count)を示した(提供:Backblaze)
図4 図3のデータをX軸に稼働月数、Y軸にAFR(青)、HDDの台数(赤)と置いてグラフ化したもの(提供:Backblaze)

 このモデルは最大約21カ月の稼働月数があり、先ほどの東芝と比較すると、平均故障率の変動が大幅に少ないことが分かる。公平を期するために、さらに内容を比較すると、WDCのモデルはHDDの数が最低でも東芝の2倍ある。最も新しい状態(0カ月)では、東芝が1万4407台で、WDCは3万7363台ある。11カ月時点では、東芝が1034台に対し、WDCは1万3965台だった。

 AFRの数値はモデルごとの故障率の比較に役立つものの、HDDの台数が少ない区間ではたった1台の故障が結果に大きな影響を与えることを忘れてはならない。前編で紹介した通り、東芝のモデルはこれまで46台、WDCのモデルは243台故障しており、東芝のモデルの方が1台の故障でAFRの数字がブレやすいことが分かる。

Seagateモデルの故障率

 次はSeagate「ST24000NM002H」の故障率だ。このモデルはBackblazeの運用するモデルの中でも最も容量が多い。最も新しいモデルでもあり、データの収集期間は6カ月しかない。東芝やWDC同様、故障率の数値(図5)とそのグラフ(図6)を示す。

図5 Seagate「ST24000NM002H」(24TB)の統計データ 稼働月数(Age in months)ごとに平均故障率(AFR)とHDDの台数(Drive count)を示した(提供:Backblaze)
図6 図5のデータをX軸に稼働月数、Y軸にAFR(青)、HDDの台数(赤)と置いてグラフ化したもの(提供:Backblaze)

 東芝やWDCと比べて、Seagateの故障率が最も高いことは明らかだ。Backblazeはその理由をバスタブ曲線の初期故障期にあるためではないかと推測しており、今後も継続的に監視するとした。

3社の20TB級のモデルを比較すると何が分かるか

 図7は以上の3社の20TB級のモデルを1つの図に描き混んだものだ。

図7 3社の20TB級モデルのデータをX軸に稼働月数、Y軸にAFR(青)、HDDの台数(赤)と置いてグラフ化したもの(提供:Backblaze)

 HDDの数と稼働月数のどちらから見ても、Seagateと東芝について明確な傾向を導き出すにはまだ早いとBackblazeは指摘した。

 Seagateは初期段階でより高い故障率を示していることは明らかだという。東芝は最初の1年間(赤い折れ線の中央より右側)でやや変動が激しい傾向にあることも分かるという。ただし、モデル間でHDDの区間ごとの台数が大幅に異なるため、正確な比較は困難だとも指摘した。さらに、繰り返しになるがSeagateは特にバスタブ曲線の初期故障期にある可能性があり、今後の時間経過で傾向が変化する可能性がある。

14〜16TBモデルのHDDと比較して分かること

 3社のモデルの比較以外にも分かることがある。それは22TBのWDCモデルが、全ての容量と稼働月数をまとめた現在のAFRを大幅に下回っていること、さらにデータ量が最も多いグループに属するため、それが見かけの値ではないことだ。

 だが、他のモデルも稼働月数が増えたていくうちに、WDCモデルと同じようなAFRまで下がっていくかもしれない。Backblazeは稼働月数が多く、モデルの台数も十分な14〜16TBのモデルと比較することで、そのような傾向があるかどうかを調べることにした。

 第1段階として3社の20TB級モデルの値を合算した。この比較を試みる際に、これまでのデータの扱い方とは少し異なる点があるという。20TB級モデル全体のデータを結合する際、HDD単位で除外条件に引っかかっていたデータの一部を除外しなかったことだ。稼働月数が21カ月の時点では東芝モデルに属するHDDは1台しか存在しなかったため、これをWDCモデル(399台)に追加し、全体としてAFRを計算した。このデータが図8、グラフ化したものが図9だ。

図8 3社の20TB級の統計データ 稼働月数(Age in months)ごとに平均故障率(AFR)とHDDの台数(Drive count)を示した(提供:Backblaze)
図9 3社の20TB級モデルのデータを合計してX軸に稼働月数、Y軸にAFR(青)、HDDの台数(赤)と置いてグラフ化したもの(提供:Backblaze)

 第2段階は20TB級と稼働月数を一致させた上で14〜16TBのモデルと比較する。約7年間のデータがあり、20TB級と合わせるため、21カ月を抜き出した。データが図10、グラフが図11だ。

図10 14〜16TBのモデルの統計データ 稼働月数(Age in months)ごとに平均故障率(AFR)とHDDの台数(Drive count)を示した(提供:Backblaze)
図11 14〜16TBのモデルのデータを合計してX軸に稼働月数、Y軸にAFR(青)、HDDの台数(赤)と置いてグラフ化したもの(提供:Backblaze)

 20TB級の図9と14〜16TBの図11を比較すると、20TB級の故障率の推移は自然で、予想された値よりやや良い結果だとBackblazeは評価した。ただし、14〜16TBのモデルはHDDの台数が多く安定しており、より揺らぎがすくないことに注意しなければならない。

 続いて21カ月を過ぎると14〜16TBのモデルのAFRがどうなったのかを見てみよう(図12)。

図12 14〜16TBのモデルの約7年分のデータ X軸に稼働月数、Y軸にAFR(青)、HDDの台数(赤)と置いてグラフ化したもの(提供:Backblaze)

 図12から分かることは、古くなる(稼働月数が多くなる)につれてAFRにスパイク状のパターンが現れ始めることだ。要因の一つは時間の経過とともにHDDを交換したり、利用を止めたりして台数が減少する影響があることだという。

 以上をまとめると、データからも明らかなように20TB級のモデルのAFRは良好だが、稼働月数が増えていくとどうなるかを観察する時間がまだ必要だということだ。14〜16TBのモデルについては、稼働年数が5年以上経過した時点で故障率が上昇するという比較的予想に沿ったパターンを示している。ただし、12TB以下のモデルが長期間非常に良好なAFR(10モデルの平均AFRは1.42%)の性能を示していることと比べると、まだ結論付けることはできない。12TB以下のモデルは異常値とも言えるAFRを示したモデルに引っ張られている。これが14〜16TBのモデルでも起こるのかどうかはまだはっきりとしていない。ただし、図13に示したように14〜16TBのモデルのうち、4年以上(Avg.Ageが48以上のもの)経過したものをハイライトすると、経年劣化や異常値の傾向が見えて来るという。

図13 14〜16TBのモデルの故障率 4年以上経過したものをオレンジ色の網で示した。項目は左からMFG:メーカー名(ブランド名)、Model:モデル名、Size:容量、Drive Count:台数、Avg.Age(months):平均稼働月数、Drive Days:総稼働日数、Failures:故障件数、AFR:平均故障率(提供:Backblaze)

バックアップの計画を立てるには

 バックアップの計画を立てる際に最初に考えなければならないのは目的だ。バックアップの目的によって、1日前のデータを復元できればよいのか、それとも1週間前で構わないのかが決まる。目標復旧時点が決まれば、次に何時間以内にリストアを完了させなければならないかという目標復旧時間を定めよう。

 バックアップの目的を考える際に、どのデータをバックアップしなければならないのかを同時に考えておく。対象データの総容量と、目標復旧時点の計画から、何世代のバックアップが必要なのかが分かる。このようにして最低限必要な容量が決まる。

バックアップの手法を選ぶ

 バックアップを取る際に重要なのは「3-2-1ルール」に従うことだ。まず、バックアップデータを3つの異なる場所に置く。バックアップを保存するメディアや装置は2種類に分ける。HDDとクラウドストレージなどが良いだろう。バックアップのうち1つはリモートに置く。

 このルールに従うとバックアップデータの紛失やバックアップ装置自体の故障、天災などに対応しやすい。さらにランサムウェア攻撃の対策を考えるとバックアップを取るとき以外にはネットワークに接続されていない「エアギャップ」を設けたバックアップも必要だ。

どのRAID方式を選ぶか

 バックアップ先の一つにNASを使う場合、まず考えなければならないのがRAIDの方式だ。RAIDには「0」「1」「5」「6」「10」などの方式があり、それぞれ利点と欠点が異なる。最低限必要なHDDの台数も違う。

 バックアップ用途に最も向いていないのは「RAID 0」だ。高速な書き込みができ、HDDの容量を最も効率的に利用できるものの、耐障害性(冗長性)がない。HDDは最低2台必要だ。5TBのHDDを2台用意すると、10TBのデータを保存できるが、どちらか1台のHDDが故障すると全てのデータが失われてしまう。

 「RAID 1」でも最低2台のHDDが必要だ。そのうち1台のHDDが故障しても、もう1台が正常であればデータは失われない。これは自動的に2台のHDDに同じデータを書き込む(ミラーリング)からだ。RAID 0とは異なり、全HDDの容量の半分しか利用できない。5TBのHDDを2台用意しても、5TBのデータしか保存できない。

 「RAID 5」は3台以上のHDDにデータを分散して書き込む。RAID 1同様、1台のHDDが故障してもデータは失われない。さらにRAID 1よりもHDDの容量を効率的に利用できる。ただし書き込み時に誤り訂正符号を計算する必要があるため、書き込み速度はRAID 0やRAID 1よりも遅くなる。5TBのHDDを3台用意すると10TBの容量を利用できる。正確にはn台用意すると、n-1台分の容量を使える。

 「RAID 6」は最低4台のHDDを使い、誤り訂正符号を2重に利用する。このため2台のHDDが同時に故障してもデータを失わずに済む。ただし、誤り訂正符号を2つ計算しなければならないため、RAID 5よりもさらに書き込み速度が遅くなり、HDD容量の利用効率はRAID 5よりも悪くなる。5TBのHDDを4台用意しても10TBの容量しか利用できない。正確にはn台用意するとn-2台分の容量を使える。

 「RAID 10」はRAID 1とRAID 0を組み合わせた方式だ。書き込みが速いRAID 0と耐障害性があるRAID 1の良いところ取りができる。ただし、HDDは4台以上必要だ。5TBのHDDを4台用意すると、10TBの容量を利用できる。正確にはn台用意すると、n/2台分の容量を使える。

 以上からバックアップ用途のNASを構築する場合、RAID 1かRAID 5、またはRAID 6が適していることが分かる。小規模でよく、復旧が容易なのはRAID 1だ。容量の効率と冗長性のバランスが取れているのがRAID 5、大容量が必要な場合や高い信頼性を得たい場合はRAID 6が適する。

 なお、NAS内部のHDDが故障した場合はリビルドによってデータを復元する必要がある。リビルドの負荷はRAID 5よりもRAID 6の方が重くなり、より時間がかかる。このとき、NASが内蔵するHDDが古くなっており、バスタブ曲線の摩耗故障期に入っていると危険だ。リビルドの負荷にHDDが耐えられなくなり、せっかくの耐障害性が生きない場合がある。つまり、バックアップ用途にNASを使うのならHDDが寿命を迎える前にHDDの交換が必要になる。寿命についてはBackblazeが発表したAFRの数値を参考にすればよい。

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。

アイティメディアからのお知らせ