「Microsoftが隠れてAI学習にデータを利用」疑惑の真相:808th Lap
WordやExcelなどの「Microsoft 365」アプリのデータをMicrosoftがだまってAI学習に利用しているのではないか、という疑惑が上がった。それが本当であれば、未公開の資料やコンテンツなどの情報がダダ漏れになっているということだ。
ご存じの通り、AIがさまざまな質問に答えたり画像や文章を生成したりできるのは、大量のデータを事前に学習しているからだ。データの学習量によってAIモデルの真価が決まると言ってもいいだろう。
AIのトレーニングに関して、Microsoftにある疑惑が持ち上がった。ユーザーにだまって「Microsoft 365」アプリのデータを取得し、学習させているのではないかと主張する人物が表れた。それが本当であれば、未公開の資料やコンテンツなどの情報がダダ漏れになっているということだ。その真相は?
生成AIは学習することでその能力を発揮できる。テキストデータや画像データなどの大量のデータを使って学習し、場合によってはユーザーのフィードバックを学習材料とすることもある。
だが、プライバシーや著作権の観点から、学習用データの取得には慎重が期されている。AIモデルのポリシーによって異なるが、多くは学習にユーザーデータを利用する場合、利用規約に明示してユーザーに明確な同意を得ていたり、法的に問題にならない範囲にとどめていたりする。
ところが、「Linux」系のテクニカル記事をブログに掲載しているnixCraft氏は2024年11月24日(現地時間)に自身の「X」(旧Twitter)アカウントで、「Microsoftは、『Word』や『Excel』で収集したユーザーのテキストデータをAIのトレーニングに使っている」と投稿した。
これに対して大きな反響が寄せられた。そのことをTech系サイト「Tom's Hardware」が記事を掲載したことで話題になった。
nixCraft氏の主張によれば、「Microsoft 365」に存在する「Connected Experiences」(接続エクスペリエンス機能)によってデータを収集しているという。クラウド型Officeアプリを利用したユーザーの操作や作成した文書などを分析することで、適切なデザインや編集方針、データ分析などを提案する機能だ。
また同氏は、この接続エクスペリエンス機能がデフォルトで有効になっていて、ユーザーが設定でオフにしない限り、AIの学習にデータを使われてしまうと強く言及し、機能をオフにする手順も説明した。さらにnixCraft氏は「Wordを利用して独自のコンテンツ(ブログ、小説、著作権で保護され、販売予定の作品)を書いているライターはすぐさまこの機能をオフにするべきだ。自分は『Windows』や『Microsoft Office』を利用していないことをうれしく思う」とも述べている。
接続エクスペリエンス機能はユーザーからデータを取得してはいるが、それがAIの学習に使われているという確たる証拠はない。にもかかわらず、投稿内容を読んだユーザーがさまざまな意見を述べた。Tom's Hardwareの記事でも「MicrosoftはOfficeユーザーが作成したExcelおよびWord文書のコンテンツをAIモデルの学習に使用していることについて、公に確認も否定もしていない」とし、nixCraft氏の考えを支持する姿勢を示した。
混沌(こんとん)とした状況の中で、nixCraft氏のポストにある回答が寄せられた。それは誰であろうMicrosoft 365の公式アカウントからの返信ポストだ。それによれば「Microsoft 365アプリでは、大規模言語モデル(LLM)のトレーニングに顧客データは使用されません。ドキュメントの共同編集など、インターネットアクセスを必要とする機能のみが有効になります」とのこと。
さらに接続エクスペリエンス機能がどういったユーザー体験を取得しているのかをまとめた技術ブログ記事を示して、各種取得データをAIの学習に利用していないことを示した。
これでMicrosoftに対する疑惑は晴れたのかもしれない。だが、nixCraft氏は投稿内容を取り下げていない。またMicrosoftのサービス契約に「ユーザーコンテンツのコピーや保持、再フォーマット、表示などを行う権利」が明示されていることから、AIモデルの学習のために使われていないという確証もない。
AIの利便性は生活レベルで普及しているものの、プライバシーを深く考えながら利用しているユーザーは必ずしも多くはない。今回のnixCraft氏のポストはそんな仮題を浮き彫りにしたのかもしれない。
上司X: Microsoftが自社AIの学習にWordやExcelで作成した文書データを勝手に利用しているかも、という疑惑に関する話だよ。
ブラックピット: んむむ? 結局疑惑はあるけど否定した、という話ですか?
上司X: そういうことだ。
ブラックピット: それなら、まあいいんじゃないですか。公式否定ということで。
上司X: まあ、そうなんだけどさ。疑惑は残るよねってことで。
ブラックピット: なんでしょうねえ。そこまで疑心暗鬼にならなくてもいいでしょうに。なんだったら、nixCraft氏みたいに全く使わない、という選択も取れるじゃないですか?
上司X: WordにExcel、要はOfficeの主要アプリだよ。「使わない」ってことができるビジネスパーソンはそう多くないんじゃないかなあ。
ブラックピット: だったら、まあ、接続エクスペリエンス機能を常時オフにして、使いやすくない状態で使えばいいんですよ。AIだって使わなきゃいいんです。それどころかフル手作業で書類を手書きすりゃ、もうAIのデータ侵害もなくて安心ですよ。
上司X: おお、いつになく容赦ない(笑)。ともかく、AI学習の参照データについてはかなり考慮されているからな。あのMicrosoftだって、うかつにユーザーデータを学習に使ったりするようなことはないだろう。まあ、Microsoftの否定を信じておくのが現時点での正解ではないかな。
ブラックピット(本名非公開)
年齢:36歳(独身)
所属:某企業SE(入社6年目)
昔レーサーに憧れ、夢見ていたが断念した経歴を持つ(中学生の時にゲームセンターのレーシングゲームで全国1位を取り、なんとなく自分ならイケる気がしてしまった)。愛車は黒のスカイライン。憧れはGTR。車とF1観戦が趣味。笑いはもっぱらシュールなネタが好き。
上司X(本名なぜか非公開)
年齢:46歳
所属:某企業システム部長(かなりのITベテラン)
中学生のときに秋葉原のBit-INN(ビットイン)で見たTK-80に魅せられITの世界に入る。以来ITひと筋。もともと車が趣味だったが、ブラックピットの影響で、つい最近F1にはまる。愛車はGTR(でも中古らしい)。人懐っこく、面倒見が良い性格。
Copyright © ITmedia, Inc. All Rights Reserved.