開発元も「使うな」　OpenAIの文字起こしツールがヤバイ？：804th Lap

「ChatGPT」で知られるOpenAIの文字起こしツールが物議を醸している。開発元のOpenAIでさえ「使うな」と警告するほどだ。一体、どんな問題を抱えているのか。

» 2024年11月15日 07時00分公開

[キーマンズネット]

　議事録の作成やセミナー講演内容のテキスト化などに役立つ「AI文字起こしツール」。動画や音声ファイルから音声を認識し、生成AIを活用してテキスト化する。業務効率化が叫ばれるこの時代に喜ばれるツールだ。

　今、OpenAIが開発した文字起こしツールが問題視されている。開発元のOpenAIでさえ「使うな」と警告するほどだ。深刻な状況だというが、どんな問題があるのか？　業務などの重要なシーンで利用するユーザーは、注意した方がよさそうだ。

　問題のツールとは、「ChatGPT」でおなじみのOpenAIが提供する「Whisper」だ。OpenAIによれば、Whisperは英語音声認識において人間に近い正確性を誇るとのこと。

　大手通信社のAP通信はWhisperの重大な欠陥を指摘した。同社は、2024年10月27日にWhisperに関する記事を掲載し、多くの耳目を集めた。

　記事によれば、十数人のソフトウェアエンジニアや開発者、研究者へインタビューしたところ、Whisperに欠陥が存在することが分かった。インタビューによると、Whisperは文字起こししたテキストの一部や文章全体を捏造（ねつぞう）する傾向があるという。

　欠陥を指摘した識者によれば、この問題は「ハルシネーション」によるものだという。ハルシネーションとは、まるでAIが幻覚を見ているかのように、事実ではない誤情報を生成する現象のことを指す。学習データの偏りや不正なプロンプトによって発生する可能性がある。

　生成AIが不確かな回答をするのはままあることだが、文字起こしとなれば話は別だ。入力された音声に対してテキストを作成するのだから、音声をそのまま文字化すれば済むことだ。もちろん文字起こしAIにもミスは起こり得るが、捏造されるとなると困りものだ。しかも、単なる単語のスペルミスや文法の間違いではなく、差別的なコメントなどを捏造するという。

　インタビューに答えた識者の多くは、Whisperによって作成されたテキストに捏造されたと思われる文章を発見した。ある機械学習エンジニアが100時間分の文字起こしデータを分析したところ、その約半分からハルシネーションが発生したと思われるテキストが見つかった。また別の開発者によれば、2万6000件の書き起こしのほぼ全てでハルシネーションの発生が確認されたという。

　問題なのは、音声の状態が良好かつ短く、音声認識に問題が発生しにくい状況でもハルシネーションが発生するとことだ。コンピューター科学者の研究では、調査した1万3000本以上の鮮明な音声の中に187のハルシネーションが見つかったという。

　Whisperは一部の医療機関で医師の診察内容の書き起こしに使われており、AP通信はこれを深刻にみている。欧米の一部の病院やクリニックでは、診療中の音声を録音し、文字起こしAIを使って診療内容をテキスト化している。医療行為は人命にも関わることであり、そのような分野でハルシネーションが発生したら大問題だ。

　なお、AP通信の記事によれば、OpenAIは高リスク領域でWhisperを利用すべきではないと警告しているが、現在も多くの医療機関がAI文字起こし機能を利用しているという。Whisperが現実にない医療行為を捏造することも確認されていて、事態は深刻だ。プライバシーの観点から、医療機関が扱う文書を第三者が確認することは難しい。つまり第三者の目に触れないため、間違いが指摘される機会も少なくなる恐れがある。

　この他にも、Whisperは聴覚障害者や難聴者支援のためのクローズドキャプション（テレビやビデオなどの音声から文字起こしされたテキスト）の作成でも利用されていて、医療機関と同じく事実と異なる情報が作成されては問題だ。

　一部の識者はAIのハルシネーションによる間違った振る舞いが広がり、社会に影響を与えることを危惧し、政府にAI規制を実施するよう求めているという。AP通信がOpenAIの広報担当者にコメントを求めたところ、「OpenAIはハルシネーションを軽減する方法を継続的に研究している。フィードバック今後のアップデートに生かす」と回答した。

　今のところ、ハルシネーションの原因は特定されていない。ソフトウェアエンジニアは音声の空白や背景音が原因の一つだとしているが、それも定かではない。有能なツールなだけに、早急に原因が判明して修正されることを願うばかりだ。

上司X：　OpenAIが提供しているAI文字起こしツールWhisperが誤情報を平気で作成している、という話だよ。

ブラックピット：　ハルシネーションによって起こる問題ですか。

上司X：　ああ。生成AIとハルシネーションは、切っても切れない関係なんだな。

ブラックピット：　文字起こしなんですから、単純に音声をテキストにすればいい話ですよね。なぜそれができないんでしょうか。

上司X：　だから、それが問題になっているんだよ。特に医療現場で事実とは異なる情報が生成されたら、それはもう大問題になることは容易に想像できるよね。

ブラックピット：　そもそもOpenAIはそういうリスクがある現場では使うな、って言っていますよね。

上司X：　でも、実際に使われていると。

ブラックピット：　ハルシネーション以外の面では、きっと優秀なツールなんでしょうね、Whisperくんは。時々、間違っちゃうのも仕方ないないですよ。僕もそれなりにミスやら失敗やらかしますし。

上司X：　なんだその「てへっ」みたいな顔は。キミのミスは上司である僕がカバーしないといけないんだけどな！　とにかく、Whisperについてはあまり悠長なことは言ってられないだろうな。早急な改善が求められるところだ。

ブラックピット（本名非公開）

年齢：36歳（独身）
所属：某企業SE（入社6年目）

昔レーサーに憧れ、夢見ていたが断念した経歴を持つ（中学生の時にゲームセンターのレーシングゲームで全国1位を取り、なんとなく自分ならイケる気がしてしまった）。愛車は黒のスカイライン。憧れはGTR。車とF1観戦が趣味。笑いはもっぱらシュールなネタが好き。

上司X（本名なぜか非公開）

年齢：46歳
所属：某企業システム部長（かなりのITベテラン）

中学生のときに秋葉原のBit-INN（ビットイン）で見たTK-80に魅せられITの世界に入る。以来ITひと筋。もともと車が趣味だったが、ブラックピットの影響で、つい最近F1にはまる。愛車はGTR（でも中古らしい）。人懐っこく、面倒見が良い性格。

ChatGPTライクな自社専用の生成AI環境を構築できる「専用LLMサービス」とは？
「ChatGPT」のようなLLMサービスを自社専用の環境で使いたいという企業に向け、SaaS型「専用LLMサービス」が提供されている。今回は企業向けChatGPT活用プラットフォーム「法人GAI」を提供するギブリーの山川雄志取締役に、サービスの選定方法について聞いた。
Copilotだけじゃない会議用AI7選　機能と選定のポイントは？
「Copilot in Teams」や「Zoom AI Companion」などのAI会議アシスタントは、会議の準備や進行、フォローアップなどを支援し、生産性の向上を促す2024年注目のツールだ。本稿では、AI会議アシスタントの機能やトレンド、7つの主要サービスと選定のポイントを紹介する。
NTTデータがNotionで情報共有基盤を刷新した理由
NTTデータでは、2023年から一部の部門でNotionおよびNotion AIを導入し、情報共有の課題解決に取り組んできた。同社の利用部門の担当者が効果的な使い方を解説した。
生成AI時代でも議事録ツールに不満が集まる理由
近年は、AI技術の発展なども相まって議事録の作成、確認、共有などの作業を効率化、自動化するさまざまなツールが登場している。それらに期待が集まっている一方で、実際に導入した企業からは不満の声も寄せられた。どのような点が「イマイチ」なのだろうか。

会員登録（無料）

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。

アクセスランキング

アイティメディアからのお知らせ

キャリア採用の応募を受け付けています

SpecialPR

ITmediaはアイティメディア株式会社の登録商標です。

開発元も「使うな」 OpenAIの文字起こしツールがヤバイ？：804th Lap

ブラックピット（本名非公開）

上司X（本名なぜか非公開）

関連記事

アイティメディアからのお知らせ

開発元も「使うな」　OpenAIの文字起こしツールがヤバイ？：804th Lap