「ChatGPT」で知られるOpenAIの文字起こしツールが物議を醸している。開発元のOpenAIでさえ「使うな」と警告するほどだ。一体、どんな問題を抱えているのか。
議事録の作成やセミナー講演内容のテキスト化などに役立つ「AI文字起こしツール」。動画や音声ファイルから音声を認識し、生成AIを活用してテキスト化する。業務効率化が叫ばれるこの時代に喜ばれるツールだ。
今、OpenAIが開発した文字起こしツールが問題視されている。開発元のOpenAIでさえ「使うな」と警告するほどだ。深刻な状況だというが、どんな問題があるのか? 業務などの重要なシーンで利用するユーザーは、注意した方がよさそうだ。
問題のツールとは、「ChatGPT」でおなじみのOpenAIが提供する「Whisper」だ。OpenAIによれば、Whisperは英語音声認識において人間に近い正確性を誇るとのこと。
大手通信社のAP通信はWhisperの重大な欠陥を指摘した。同社は、2024年10月27日にWhisperに関する記事を掲載し、多くの耳目を集めた。
記事によれば、十数人のソフトウェアエンジニアや開発者、研究者へインタビューしたところ、Whisperに欠陥が存在することが分かった。インタビューによると、Whisperは文字起こししたテキストの一部や文章全体を捏造(ねつぞう)する傾向があるという。
欠陥を指摘した識者によれば、この問題は「ハルシネーション」によるものだという。ハルシネーションとは、まるでAIが幻覚を見ているかのように、事実ではない誤情報を生成する現象のことを指す。学習データの偏りや不正なプロンプトによって発生する可能性がある。
生成AIが不確かな回答をするのはままあることだが、文字起こしとなれば話は別だ。入力された音声に対してテキストを作成するのだから、音声をそのまま文字化すれば済むことだ。もちろん文字起こしAIにもミスは起こり得るが、捏造されるとなると困りものだ。しかも、単なる単語のスペルミスや文法の間違いではなく、差別的なコメントなどを捏造するという。
インタビューに答えた識者の多くは、Whisperによって作成されたテキストに捏造されたと思われる文章を発見した。ある機械学習エンジニアが100時間分の文字起こしデータを分析したところ、その約半分からハルシネーションが発生したと思われるテキストが見つかった。また別の開発者によれば、2万6000件の書き起こしのほぼ全てでハルシネーションの発生が確認されたという。
問題なのは、音声の状態が良好かつ短く、音声認識に問題が発生しにくい状況でもハルシネーションが発生するとことだ。コンピューター科学者の研究では、調査した1万3000本以上の鮮明な音声の中に187のハルシネーションが見つかったという。
Whisperは一部の医療機関で医師の診察内容の書き起こしに使われており、AP通信はこれを深刻にみている。欧米の一部の病院やクリニックでは、診療中の音声を録音し、文字起こしAIを使って診療内容をテキスト化している。医療行為は人命にも関わることであり、そのような分野でハルシネーションが発生したら大問題だ。
なお、AP通信の記事によれば、OpenAIは高リスク領域でWhisperを利用すべきではないと警告しているが、現在も多くの医療機関がAI文字起こし機能を利用しているという。Whisperが現実にない医療行為を捏造することも確認されていて、事態は深刻だ。プライバシーの観点から、医療機関が扱う文書を第三者が確認することは難しい。つまり第三者の目に触れないため、間違いが指摘される機会も少なくなる恐れがある。
この他にも、Whisperは聴覚障害者や難聴者支援のためのクローズドキャプション(テレビやビデオなどの音声から文字起こしされたテキスト)の作成でも利用されていて、医療機関と同じく事実と異なる情報が作成されては問題だ。
一部の識者はAIのハルシネーションによる間違った振る舞いが広がり、社会に影響を与えることを危惧し、政府にAI規制を実施するよう求めているという。AP通信がOpenAIの広報担当者にコメントを求めたところ、「OpenAIはハルシネーションを軽減する方法を継続的に研究している。フィードバック今後のアップデートに生かす」と回答した。
今のところ、ハルシネーションの原因は特定されていない。ソフトウェアエンジニアは音声の空白や背景音が原因の一つだとしているが、それも定かではない。有能なツールなだけに、早急に原因が判明して修正されることを願うばかりだ。
上司X: OpenAIが提供しているAI文字起こしツールWhisperが誤情報を平気で作成している、という話だよ。
ブラックピット: ハルシネーションによって起こる問題ですか。
上司X: ああ。生成AIとハルシネーションは、切っても切れない関係なんだな。
ブラックピット: 文字起こしなんですから、単純に音声をテキストにすればいい話ですよね。なぜそれができないんでしょうか。
上司X: だから、それが問題になっているんだよ。特に医療現場で事実とは異なる情報が生成されたら、それはもう大問題になることは容易に想像できますよね。
ブラックピット: そもそもOpenAIはそういうリスクがある現場では使うな、って言っていますよね。
上司X: でも、実際に使われていると。
ブラックピット: ハルシネーション以外の面では、きっと優秀なツールなんでしょうね、Whisperくんは。時々、間違っちゃうのも仕方ないないですよ。僕もそれなりにミスやら失敗やらかしますし。
上司X: なんだその「てへっ」みたいな顔は。キミのミスは上司である僕がカバーしないといけないんだけどな! とにかく、Whisperについてはあまり悠長なことは言ってられないだろうな。早急な改善が求められるところだ。
年齢:36歳(独身)
所属:某企業SE(入社6年目)
昔レーサーに憧れ、夢見ていたが断念した経歴を持つ(中学生の時にゲームセンターのレーシングゲームで全国1位を取り、なんとなく自分ならイケる気がしてしまった)。愛車は黒のスカイライン。憧れはGTR。車とF1観戦が趣味。笑いはもっぱらシュールなネタが好き。
年齢:46歳
所属:某企業システム部長(かなりのITベテラン)
中学生のときに秋葉原のBit-INN(ビットイン)で見たTK-80に魅せられITの世界に入る。以来ITひと筋。もともと車が趣味だったが、ブラックピットの影響で、つい最近F1にはまる。愛車はGTR(でも中古らしい)。人懐っこく、面倒見が良い性格。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。