「ChatGPT、○○を数えて」と頼んだら…… 仕事で使う前に知りたい生成AIの欠点:802nd Lap
生成AIがビジネス文書やコードの生成などに利用されるケースが増えてきた。業務で活用する上でハルシネーションが問題になっているが、それだけではない。
生成AIを業務で活用する上でボトルネックとなっているのが「ハルシネーション」だ。まるでAIが幻覚を見ているかのようにもっともらしい誤った情報を生成することからそう呼ばれている。
問題はそれだけではない。ある機械学習エンジニアは、OpenAIの「GPT」、Googleの「Gemini」、Metaの「LLaMA」など、多くのLLM(大規模言語モデル)に存在する、ある問題を発見した。今、利用している生成AIで同様の現象が起こらないかと不安ならば、一度この問いを生成AIに投げかけてみるといいだろう。
LLMが抱えている問題とは「ストロベリー問題」だ。2024年10月12日(現地時間)、Tech系サイト「VentureBeat」にPangiamの機械学習エンジニアであるチンマイ・ジョグ氏が執筆した記事が掲載された。
ジョグ氏は「LLMによって人の質問に答えたり、言語を翻訳したり、コンテンツを要約したりするなど、受け取ったプロンプトに基づいた応答が可能になる。創造的な文章を生成するようなタスクに向いている」と語る。そして「LLMはテキストのパターンを認識するように設計されているため、幅広い言語関連のタスクを驚くほど正確に処理できる」と評価している。
一方で「高い能力を持っているにもかかわらず、単語『strawberry』の『r』の数を数えることができない」と指摘する。これこそがLLMにおける「ストロベリー問題」だ。ジョグ氏は、ChatGPTに「what is the number of r s in strawberry」(strawberryという単語の中に「r」は幾つあるか)と入力した。ChatGPTは「The word “strawberry” contains 2 r's.」(「ストロベリー」には2つの「r」が含まれている)と回答した。つまり、「strawberry」に含まれる「r」の数を正確に数えられていないということだ。
このストロベリー問題の原因は、深層学習モデル「Transformer」にあるとジョグ氏は考察する。多くのLLMはこのTransformerで構築されていて、Transformerはテキストをトークン化、つまり数値に変換して処理しているからだという。トークン化するときに、例えば「monkey」を1つずつのアルファベットに分解してトークン化することもあれば、「mon」と「key」と単語の一部に分けてトークン化することもあるという。
トークン化しているLLMは文章の前後の流れで内容を理解することは得意だが、単語そのものをアルファベットに分解し、その数を数えることは得意ではない、というのがジョグ氏の見解だ。Transformerアーキテクチャではストロベリー問題が度々発生し、現状で回避するのは難しいとしている。
そしてジョグ氏は、ストロベリー問題を回避する方法を語った。同氏は「LLMは構造化されたテキストを理解するのは得意」だとし、構造化されたテキストとして「プログラミング言語のコード」を入力することで正しく文字数をカウントすることが可能になると説明する。
例として、ジョグ氏は「answer how many r s in strawberry using python. show the code, and the explanation」(Pythonを使って「strawberry」という単語の中の「r」の数を答えてください)とChatGPTに入力した。するとChatGPTはPythonのコードを示した上でそれを実行し、「r」の文字数を正しく3と導き出した。
ジョグ氏は「単純な文字カウント実験によってLLMの根本的な限界が明らかになった。生成AIモデルはまだ人間のように思考することはできない。LLMはパターンマッチング予測アルゴリズムであり、理解や推論が可能な知能を持っているわけではないことが示された」としている。一方で「どのようなプロンプトがうまく機能するかを事前に知っておくと、ある程度は問題を軽減できるだろう」とも記している。
生成AIやLLMと正しく付き合いながら生活の中で生成AIを有効に使いたいのならば、その「弱点」を知った上で正しい答えを導けるような使い方を心掛ける必要がありそうだ。
上司X: 生成AI、LLMの「ストロベリー問題」がピックアップされて話題になっている、という話だよ。
ブラックピット: ストロベリー問題ですか。なるほど。文字のカウントみたいなのは苦手なんですねえ。奥が深い。
上司X: 自然言語を理解する性能がありながら、単純な処理はそれほど得意ではないんだな。
ブラックピット: そういう特性を理解していかなければならないということですね。
上司X: 生成AIをうまく使うためには、プロンプトの作り方が重要ってことだ。
ブラックピット: そうだ、最近ではプロンプトエンジニアなんて職種も誕生しているらしいじゃないですか。
上司X: ああ、プロンプト作成に関するスキルを備えたエンジニアだな。AIを使いこなしていくためにも重要な職種になるかもしれんぞ。
ブラックピット: なるほどー。僕もプロンプトの作り方をバッチリマスターして、AIとたっぷりコミュニケーションして良好な関係を築いてみようと思います!
上司X: うんうん。確かにキミの場合は人間とコミュニケーションするより上手にAIとコミュニケーションが図れるかもしれないな。最良のプロンプトを極めてみるといいよ。まあ、そこまで気合いをいれなくても、これからはプロンプトに気を遣いながらLLMを使うよう心掛けていけばいいと思うけどね。
ブラックピット(本名非公開)
年齢:36歳(独身)
所属:某企業SE(入社6年目)
昔レーサーに憧れ、夢見ていたが断念した経歴を持つ(中学生の時にゲームセンターのレーシングゲームで全国1位を取り、なんとなく自分ならイケる気がしてしまった)。愛車は黒のスカイライン。憧れはGTR。車とF1観戦が趣味。笑いはもっぱらシュールなネタが好き。
上司X(本名なぜか非公開)
年齢:46歳
所属:某企業システム部長(かなりのITベテラン)
中学生のときに秋葉原のBit-INN(ビットイン)で見たTK-80に魅せられITの世界に入る。以来ITひと筋。もともと車が趣味だったが、ブラックピットの影響で、つい最近F1にはまる。愛車はGTR(でも中古らしい)。人懐っこく、面倒見が良い性格。
関連記事
- ChatGPTでガクンと減った“ある用途”とは? ビジネスにおける利用動向【野村総研調査】
日本の「ChatGPT」利用に関する野村総研の最新の調査によると、2023年の前回調査に比べてビジネスユーザーの利用方法に変化がみられるという。全業界で減った「ある用途」とは。 - TBSテレビが生成AI活用にGoogle Geminiを選んだ理由
TBSテレビは、Googleの生成AIサービス「Google Gemini」を統合した「Gemini for Google Workspace」の検証をしている。同社は、何に魅力を感じ、どのようにGeminiを使っているのか。 - Copilotのデータ参照先は? 大事なデータを抜き取られないための鉄則
Copilot for Microsoft 365を利用し始めたユーザーからは、「Copilotが自分の情報を勝手に持って行ってしまわないか不安だ」という声が聞かれます。Copilot for Microsoft 365とMicrosoft 365の関係を整理しながら、利用する際に気を付けるべきことを紹介します。
Copyright © ITmedia, Inc. All Rights Reserved.