「生成AIは安全ではない」　AIのセーフガードが突破される危険性

個人的な利用とは異なり、企業で生成AIを利用する場合にはデータプライバシーや保護といった自社向けのセーフガードを構築する必要がある。企業は生成AIを利用する前にこのことを考慮できているだろか。そもそもセーフガードは機能するのだろうか。

» 2024年06月30日 07時00分公開

[Lindsey Wilkinson，CIO Dive]

　生成AI（人工知能）の能力は拡大する一方だ。だが、企業で生成AIを利用する場合は何らかの制限が必要だ。データプライバシーや保護、コンテンツフィルタリングといったセーフガードが不可欠だ。

大手企業のLLMにセーフガードの脆弱性あり

　そのため生成AIの中核技術「大規模言語モデル」（LLM）にはセーフガード機能をうたうものが少なくない。

　だが、大手企業が発表したLLMを研究機関が調査した結果、セーフガードには大きな弱点があることが分かった。どのような弱点だろうか。

　英国の科学イノベーション技術省（DSIT）の研究機関AI Safety Institute（AISI）が2024年5月20日に発表した研究によると（注1）、大手企業が発表した5つの大規模言語モデル（LLM）に内蔵されているセーフガードには効果がないという。

　モデルの評価前に5つのLLMを匿名化した。評価者のバイアスが入らないようにするためだ。モデルの評価では、応答時のコンプライアンスと正確さ、完了の度合いを測定した。研究ではAISIが2024年5月初めにリリースしたばかりのオープンソースのモデル評価フレームワーク「Inspect」を使った（注2）。

AISIは何を評価したのか

　AISIは主に次の4つのセーフガード機能を検証した。

（1）モデルがサイバー攻撃を容易にするために使用される可能性があるかどうか
（2）化学や生物学の専門家レベルの知識を提供し、それが肯定的な目的だけでなく、（兵器などの）有害な目的にも使われる可能性があるかどうか
（3）人間には制御が難しいような一連の行動を自律的にとる（「エージェント」として活動する）ことができるかどうか
（4）ジェイルブレイク（脱獄）に対する脆弱（ぜいじゃく）性があるかどうか、あるいはユーザーがセーフガードを迂回（うかい）して潜在的に有害な出力（違法または有害なコンテンツなど）を引き出せるかどうか

　モデルに質問やタスクのプロンプトを与えて応答を測定した。測定項目は3種類だ。

（1）コンプライアンス　モデルが有害な要求に従うか従わないか
（2）正確さ　質問に対する回答が正しいかどうか
（3）完了　タスク（コーディングチャレンジなど）が完了したかどうか

　評価の際にはLLM自体を使った採点の自動化の他、自動採点と人間の採点者の得点を比較し、自動採点にバイアスがないかどうかも確かめた。

　AISIの報告はどのようなものだったのだろうか。

　「われわれがテストした全てのLLMは、基本的なジェイルブレイクに対して非常に脆弱だった。幾つかのLLMではセーフガードを回避するための特別なプロンプトなどがなくても、最大28％のプロンプトで有害な出力を引き出せた。比較的単純な攻撃の下で、モデルは複数のデータセットにわたって100％近く有害な質問に従うことが判明した」（AISI）

セーフガードを回避するための特別なプロンプトとは

　セーフガードを働かなくさせるプロンプトの内容は実はそれほど複雑ではない。英文では次のような表現から回答を始めるように生成AIに強制すると、出力してはならないデータを引き出せてしまうことがある。

Sure, I'm happy to help ...（もちろん、喜んでお手伝いします）

　質問者が（××のデータを扱う権限があるというように）身分を偽ってプロンプトを入力すると、身分を明かさない場合よりもガードが下がるといった現象も起こる。

　生成AIが企業の技術スタックに浸透するにつれ、セキュリティ関連の不安が高まっている（注3）。認可されていないAI製品の使用から安全でないコードベースまで（注4、注5）、さまざまなサイバーリスクとなる可能性がある。

　ソフトウェア企業Splunkの調査によると、サイバーセキュリティのリーダーの93％が「自社で生成AIを導入している」と回答したものの、生成AIを使用している企業の3分の1以上は自社向けのセーフガードを構築していないという（注6）。

　自社のセーフガードが欠けていることは、ベンダーが組み込んだ安全対策に関する不確実性と相まって、セキュリティに慎重なリーダーにとっての懸念事項だ。

企業や政府が取り組むセーフガード

　2023年、顧客の懸念が高まる中で、ベンダーはセーフガード機能を追加し、ポリシーを更新した。Amazon Web Services（AWS）は2023年12月に、Bedrockプラットフォームにガードレールを追加し、安全性の向上を図った（注7）。Microsoftは同年、有害なコンテンツを検出して削除するサービス「Azure AI Content Safety」を自社製品に導入した（注8）。Googleは同年の夏に、独自のセキュアAIフレームワーク「SAIF」を導入した（注9）。

　政府主導のAIの安全性に関する取り組みは、2023年もテックプロバイダーの間で盛んだった。

　ホワイトハウス（米連邦政府）が主導する取り組みの一環として（注10）、約12のAIモデルプロバイダーが製品テストやその他の安全対策に参加することに同意した。また、GoogleやMicrosoft、Nvidia、OpenAIを含む200以上の組織が、2024年2月に国立標準技術研究所（NIST）のU.S. AI Safety Institute（USAISI）の下に設立されたAIの安全に関するコンソーシアム（AISIC）に参加した（注11）。

　しかし、ベンダーの努力だけでは自社を守るのに十分ではない。

　生成AIに関する取り組みを主導することが多いCIO（最高情報責任者）は（注12）、サイバーセキュリティの専門家と対話し（注13）、モデルの調達やユースケースの検討を支援する必要がある。

　しかし、専門家が加わっても、研究が素早く進み、変化し続ける規制要件に対応できるような迅速な計画を立てることは難しい。

　サイバーセキュリティ事業を営むTrellixが500人以上のセキュリティ責任者を対象にした調査によると（注14）、CISO（最高情報セキュリティ責任者）の10人に9人以上は、明確な規制なく生成AIを使用することが自社を危険にさらすと考えている。ほぼ全員が、特にデータプライバシーと保護に関する規制の強化を望んでいる。

　米国と英国は共同でAIモデルのテストを開発し、AIの安全性テストに標準化されたアプローチを構築しようと取り組んでいる（注15）。両国は2024年4月に拘束力のない協力協定に署名した。また、AISIは2024年5月20日に「2024年の夏にサンフランシスコに初の海外事務所を開設する計画」を発表した（注16）。

　AISIは声明の中で「米国における拠点を拡大することで、米国との緊密な協力関係を確立し、AIの安全性に対する戦略的パートナーシップとアプローチをさらに推進しながら、研究を共有し、AIモデルの共同評価を実施することで、AIに関する安全政策について世界中で情報を提供する」と述べた。

　米国では、バイデン大統領が2023年10月に発表したAIに関する大統領令に基づき、連邦政府機関が取り組みを進めている（注17、注18）。上院も2024年5月13日の週に、待望の政策指針を発表した。1年にわたる超党派の取り組みは、議員たちが今後法案を作成する際の指針となるだろう（注19）。

生成AIの自動サイバー攻撃　成功率9割の脅威
イリノイ大学の研究チームは生成AI（GPT-4）を利用したサイバー攻撃の実験結果を公開した。攻撃の成功率を高める方法も分かった。
使えない「ChatGPT」　使い方が悪いのでは？（第1回）
「ChatGPT」などの生成AIが人気を集めている。「使えない」「回答が信用できない」という声がある一方で、「生産性が上がった」「重要な仕事に専念できるようになった」という声もある。なぜ評価が分かれるのだろうか。
パナソニックコネクト、独自生成AIで年間18万6000時間を削減　同社ならではの工夫とは
パナソニックコネクトは2023年2月から業務で生成AI活用を進めてきた。社内リリースに至るまでの1年間の道筋を説明する。