CrowdStrike事件から学ぶ、IT障害に弱い企業に足りないものとは
CrowdStrike事件が引き起こした波紋は、ITを利用している企業の問題を浮かび上がらせた。問題の根は同社のソフトやWindowsにあるのではない。ある能力が不足していることが問題だ。
2024年7月に起こった「CrowdStrike事件」で「Windows」が停止した問題は何をもたらしたのだろうか。
重要なのは、このような事態が再び起こったとき、自社に対する影響を最小限に抑え、業務を維持できるのかどうかだ。
十分な対策が施されていないレジリエンス
CrowdStrike事件後に調査した結果、企業にはある能力が不足していることが分かった。
データベース関連を中心としたクラウドアプリケーションソフトを開発するCockroach Labsと、調査企業のWakefield Researchは、2024年8月〜9月に1000人のシニアクラウドアーキテクトとエンジニアリング幹部を対象とした調査を実施した(注1)。それによると、大半の幹部は自社のレジリエンスを再評価した結果に満足していなかったという。
回答者の9割以上は「自社のITシステム運営には弱点があり、サービス中断によって多大なコストが発生すると認識した」と回答した。ほぼ半数の回答者は、レジリエンスの改善に十分な対策を講じていないことを認めた。障害がほとんど起きないために対策を講じていないのではない。調査対象の全ての企業が、過去1年間に障害による収益損失があったことを報告した。
Cockroach Labsのスペンサー・キンボール氏(CEO)は、「CIO Dive」に対して次のように語った。
「IT関連の障害は広範囲にわたって起きた。しかし、CrowdStrikeの問題はあまりにも明白であり、防げたはずだった。人々は重大な脆弱(ぜいじゃく)性に関する盲点があることに気付いた」
CrowdStrikeの問題は技術幹部を驚かせた。問題が継続していたのは2時間未満だったにもかかわらず(注2)、Windowsを基盤とする数百万台のシステムが停止した。ある大手航空企業では業務がほぼ完全に停止状態になり、世界中の銀行機能にも影響を与えた。対応した技術者には重い負担がのしかかった。
CrowdStrike事件の影響力は大きかった。障害の影響は北米にとどまらず大陸や業界を越えて拡大した。空港のモニターでエラーメッセージを見つめながら立ち往生する乗客の映像は、IT障害によって発生するコストの大きさをよく示している。
「物事が大規模になると、必ず間違いが発生するものだ。大規模なビジネスを運営するのであれば、機械や電力システム、ネットワーク機器の故障に備えておかなければならない。思いもよらない障害もある。重機のバックホー(ショベル)が誤って光ファイバーケーブルを切断し、システムが停止することもあるのだ」(キンボール氏)
ITトラブルで犠牲になる通常業務
IT関連のトラブルは広範囲に発生しており、持続的な問題だ。報告書によると、企業は平均して年間86回の障害(1カ月に約7回)を経験しており、そのうち半数以上はサービスの中断につながった。平均復旧時間は196分、つまり、3時間以上かかっている。
「これは生産性に対する大規模な損失だ。緊急連絡を受けるための通信機器を持ち歩いているエンジニアのストレスは大きい。エンジニアは障害対応のみならず、事後の分析もしなければならないからだ」(キンボール氏)
拠点が地理的に分散している企業の場合、課題はさらに多岐にわたる。
航空企業のUnited Airlinesは、CrowdStrikeによる障害が発生した2024年7月19日の早朝から数日間にわたり、数百の空港拠点にチームを派遣し、2万6000台以上のWindowsデバイスを再起動した(注3)。同社のジェイソン・ビルンボーム氏(最高情報責任者)は、CIO Diveに対して「この作業では、フィールドサポートがない拠点もあり、スタッフが週末に車で向かう必要があった」と語った。
United Airlinesはこのように対応したものの、最終的に約1500便の欠航を引き起こした。しかし、業務は4日以内に回復した。
United Airlinesの対応は珍しくないとはいえ、Cockroach Labsの調査によると、90%以上の企業が予定外の障害に対応するために重要な業務を後回しにしていることが分かった。回答者の3分の2は「障害の影響で日常的なITメンテナンスや管理業務の優先順位を下げた」と報告した。このような対応は将来、障害が発生した際に、問題をより大きくしてコストの増加を招く可能性がある。
障害を防ぐための戦略的な計画に必要な資金の不足は、あたかも賭け事をしているかのような状態を作り出し、ITチームは不安定な立場に置かれる。キンボール氏によると、システムを維持できなければ職を失うリスクもあるという。
回答者の3分の1以上は「予算の制約が準備を妨げている」と述べ、5人に4人は「重大な障害やダウンタイムが発生すれば自分の職が危うくなることを懸念している」と答えた。
どの程度の金銭的な被害が出るのか
障害のコストは、事象の規模や深刻度、組織の準備状況によって大きく異なる。Cockroach Labsが調査した企業は、限定的な事象において1万ドル程度、大規模な障害では100万ドル以上の損失を報告した。
CrowdStrike事件の数カ月前に、アプリケーション管理サービスを提供するNew Relicが1700人の技術専門家を対象に実施した調査では、障害が1時間当たり最大190万ドルのコストをもたらす可能性があると分かった(注4)。
同じ業界で起きた同じ事象であっても、影響が異なる場合がある。
2024年7月の出来事の後、最も影響を受けた航空企業の一つはDelta Air Linesだった。同社はCrowdStrike事件による損失額を5億ドルと見積もっており、法的手段を通じて損失をCrowdStrikeから回収しようとしている。2024年10月にCrowdStrikeは反訴を提起し(注5)、責任はDelta Air Linesにあると主張した。
一方、United Airlinesは2024年7月の障害による具体的な損失を報告していない。同社のマイク・レスキネン氏(最高財務責任者)は、同年10月の決算発表において「航空業界においては、天候をはじめとして予測できない出来事が起こる状態が通常であり、当社は四半期ごとの業績の見通しに運営上の遅れを織り込んでいる」と述べた(注6)。
被害額の計算よりも大事なことがある
United Airlinesのスコット・カービー氏(CEO)は、「言い訳をしない」という自社の哲学について詳しく語り、決算発表において次のように述べた。
「月曜日の朝9時、エアコンの効いたオフィスの個室にいるMBA取得者が、障害、つまり、コントロールから外れた出来事により発生したコストを計算するのは容易だ。しかし、『言い訳をしない』というモットーを掲げ、誰にもコストを計算させないようにすれば、人々はイノベーションを実現しなければならなくなる」。コストを計算して記録するだけで終わりにするのではなく、問題解決のために動く必要があるからだ。
Cockroach Labsによると、大半の企業は重大な障害の影響を吸収する準備ができていない。調査に回答した企業のうち、「自社はそのような事象に完全に備えている」と回答したのはわずか5分の1に過ぎなかった。「完全な対応計画を持っている」と答えた企業も約3分の1にとどまる。
「最良の企業は、ITの実践とレジリエンスを絶え間なく本気で進化させていくための長期的な視野を備えている」(キンボール氏)
出典:Tech executives reassess IT resilience in CrowdStrike outage aftermath(CIO Dive)
注1:“The State of Resilience 2025” Reveals the True Cost of Downtime(Cockroach Labs)
注2:CrowdStrike says flawed update was live for 78 minutes(CIO Dive)
注3:United Airlines leaned on real-time data to recover from the CrowdStrike outage(CIO Dive)
注4:Even small IT failures can cost millions, tech leaders say(CIO Dive)
注5:Delta, CrowdStrike file dueling lawsuits as squabble continues(CIO Dive)
注6:Q3 2024 United Airlines Holdings Inc Earnings Call(Yahoo! Finance)
© Industry Dive. All rights reserved.
関連記事
- CrowdStrikeのWindows停止事件 どのような経緯をたどったのか
CrowdStrikeのソフトウェアアップデートに欠陥があったため、世界中のWindowsが影響を受けた。問題が発生した直後には何が起こったのだろうか。振り返ってみよう。 - 7500億円の被害をサイバー保険でまかなうことができるのか
CrowdStrikeが引き起こしたWindows停止事件は、サイバー保険業界に警笛を鳴らした。なぜだろうか。 - 「うるう年」各所でトラブル 時間関連のシステム障害にどう対応すべきか
ITシステムが障害を起こす理由はさまざまだ。時間関連の障害は予想が付きやすいものの、うまく対策できていない場合がある。どうすればよいのだろうか。