メディア

AIが文豪になる日は来るのか? 「日本語特化汎用言語モデル」が描く世界

AIが人の創作と見分けがつかない文章を生成できることを証明したGPT-3の衝撃冷めやらぬ今、LINEとNAVERが「日本語特化汎用(はんよう)言語モデル」の共同開発を公表した。それはいったいどのようなものなのか、何を目指しているのか。現時点での到達点を取材した。

» 2021年01月13日 13時00分 公開
[土肥正弘ドキュメント工房]

日本語特化汎用言語モデルとは?

 2020年10月、海外の人気掲示板(Reddit)に投稿された文章が、AI(人工知能)が作り出したものだと1週間見破られなかった事例が話題になった。その投稿文章を作り出したのが、OpenAI(人工知能研究の非営利団体)が開発した最新「汎用(はんよう)言語モデル」のGPT-3だ。この事例はOpenAIのプロジェクトとは無関係に不正にモデルを利用したものだったが、ほぼ同時期にGPT-3を利用した旨を注記した驚くほど流ちょうな英語の文章が複数公開され、自然言語を対象としたAI開発が新たな局面を迎えたことが明らかになった。

 LINEがNAVERと共同開発する「日本語特化汎用言語モデル」は、そのGPT-3開発に関する論文をベースにしながらも独自の技術開発により、同等以上の超巨大規模の日本語データを学習し、簡便な命令と例示(質問と回答)のみで目的に沿った文章、あるいはプログラムなどを生成可能にしようという取り組みだ。

自然言語での問いかけに適切に出力する「汎用言語モデル」

 ここでキーワードとなるのが「汎用言語モデル」と「超巨大規模の学習」という言葉だ。まず「汎用言語モデル」が意味するところを解説しよう。

 これまでAIチャットbotやコンタクトセンターの自動応答システムなどで、自然言語を理解し、質問などに応える音声や文章を自動生成(合成)しようという取り組みが進められてきた。そのためには、特定のテーマに関する質問と正解をひも付けて学習させ、適切にチューニングをした言語モデルが個別に必要なるが、そのテーマに沿った対話やサジェスチョンなどはある程度うまくできても、他の目的での利用には「分かりません」と応えるしかできない場合がほとんどだ。

 「汎用言語モデル」は、どのような目的でいかなる出力を求めるかを自然言語で問いかければ、問いかけの内容(コンテキスト)に沿って適切に出力することを目指すものだ。例えば、「この文章を要約せよ」とか「○○のような文章を記せ」「あの(特定)Webサイトのようなページを作れ」というように命令すれば、その目的に沿ってこなれた文章やプログラムを生成してくれる。そのように多様な目的に応用できるように、多種多様で膨大な言語データを学習した超巨大規模の言語モデルが「汎用言語モデル」である。特定の目的に沿って新たに学習やトレーニング、チューニングをする必要がなく、全てを単一のモデルで解決できるところが大きな注目ポイントだ。

目的特化型の言語モデルと汎用言語モデルのイメージ 図1 目的特化型の言語モデルと汎用言語モデルのイメージ(資料:LINE)

 現在のところまだ日本語利用サンプルが公開されていないのだが、LINEの開発者によると「Few Shot Learning」によって精度の高い文章生成が可能になるという。Few Shot Learningは、「○○と入力されたら△△と出力する」というような適切な(または不適切な)文章生成の例を入力すると、その例示の内容をAIが解釈して、○○ではなく□□と入力されても例示の内容に基づいて期待される出力を返す仕組みだ。処理の手順などを詳細に記述するのではなく、人間に仕事を頼むときと同様に「この場合だったらこうすればいい」と例示をするだけで、例示と異なる場合を提示されても柔軟に対応し、適切に処理してくれるというわけだ。

 GPT-3は別に文章の意味そのものを理解して文章を創造しているわけではないが、膨大な学習量と最新のアルゴリズムにより、統計的に適切と判断した単語の組み合わせによって意味のある文章を自然な形で提示してくれる。

幅広い活用が期待される汎用言語モデルの利用領域

 汎用言語モデルの利用領域は「汎用」であるだけに多様で幅広く考えられており、例えば現在のAIチャットbotよりも多目的で柔軟に対応してくれる自動チャットや、何らかの操作ナビゲーション、メンタルヘルス改善のための対話ロボット、コンタクトセンターの応答や文章の要約、翻訳、Webページの生成、プログラムの生成、そして、より柔軟かつ詳細なWeb検索などは早期に実現しそうだ。2020年9月にOpenAIからGPT-3の独占的なライセンスがマイクロソフトに供与されており、同社よりAPIの商用展開が始まったところで、2021年は同APIの適用事例が続々登場してくることだろう。

LINEとNAVERが目指す日本語特化の汎用言語モデル

 LINEは2017年のスマートスピーカー発売以前よりAI開発を進めてきたが、同社の開発担当者は「多種多様なニーズに対応するためにはユースケースごとのAI開発では限界がある。そこにGPT-3のようにタスクを入力するだけで最適な結果が得られる日本語対応の汎用言語モデルがあれば、開発工数の課題が解決可能になるだろう。また事業領域に関わる技術は内製するのがLINEの流儀だ。NAVERと当社のAI技術者が共同すれば、グループ内のプラットフォームを利用して日本語特化の汎用言語モデルが実現可能と考えた」と語る。

 汎用的に使える日本語言語モデルがあれば、例えばチャットbot導入の場合でも個別の言語モデルを開発する必要がなくなり、労働集約的な工程が省略できる。これまでは開発コストを早期に回収可能なソリューションにしか適用できなかったAIも、開発コストが下がることによって長期的なメリット(ロングテール)を期待できる領域にも適用を広げていくことができる。自然言語を対象としたAI開発の現場にも、大きなコスト低減効果を及ぼすに違いない。

2つの課題「言語データ」「コンピュータパワー」調達へのアプローチ

 だが大きな課題が2つある。それは「学習すべき言語データをどう調達するか」そして「短期間で膨大なデータを学習するためのコンピュータパワーをどう用意するのか」という点だ。GPT-3の場合は「Microsoft Azure」のリソースを利用し、学習した文章データは45TB、学習パラメータ数は1750億にも上る。GPT-3の前身で2019年2月に登場したGPT-2は、学習パラメータが15億であったことを考えると、100倍を優に超える巨大データを学習したことになる。GPT-3と同等以上の機能や性能を実現するのは容易なことではない。

 LINEのサービスでは日々膨大なメッセージが交換されているが、そのメッセージは暗号化されたままシステムを通過するのみで、LINE自身が読み取ることは技術的に不可能である上に、コンプライアンス上許されることではない。そこで、利用されるのが新聞や小説などからの文章データだ。当然ながら同意が得られた権利者から付与された権限内での収集と利用にとどまるが、複数法人にデータ提供の交渉を今後も積極的に進めていくという。自然言語研究分野の研究者によるオープンな日本語コーパス構築も進められてきているが、それとは一線を画した独自の取り組みを展開していく考えだ。

 一方、コンピュータパワーの面では、「DGX-A100」(NVDIA製)140クラスタを集約したインフラが利用できるところが強みだ。そのGPU(A100)は近年のスーパーコンピュータの性能ベンチマーク上位機種に多数採用されており、特にAI性能(学習スピードなど)については最速と目されている。LINE技術者によると「すでに700ペタフロップス以上の性能を達成している」とのことだ(スパコン領域では「富嶽」がLINPACKベンチマークで世界最高性能を示したが、AI性能は異なる指標で評価される)。

 このように調達した文章データを強力なコンピュータパワーで学習して日本語特化汎用言語モデルが構築されていく。学習パラメータは1750億以上、100億ページ以上の日本語データを学習データとして利用予定とのことだ。これは日本語をベースにした言語モデルとしては、世界の既存モデルの学習規模をはるかに超えるものとなる。

ユースケースと課題

 さて、このようなGPT-3に匹敵する日本語特化言語モデルが完成した暁には、どんなことができるのだろうか。前出のGPT-3のユースケース同様に、汎用であるだけに応用領域は無限にあると考えられるが、LINEが例として挙げるのは、次のようなケースである。

  • キャラクター会話型サービス:あらかじめインプットされた定型文ではなく、人間が発した言葉に対して自由に会話できる(ようにみえる)世界の実現
  • ブログ記事、Web記事などの生成:(事実や思想には基づかないが、記事フォーマットを踏襲して意味の通る文章の自動生成)
  • コード生成など:Webページ作成のためのコードをはじめプログラミングコードの生成

 ただし汎用言語モデルを「どのようなサービスに活用できるのか、実用に耐えられるのかといった点や、これらがどのようにビジネスとして成り立つのかについては、先行して商用化している英語圏も含め世界的にも模索中」という状況にあり、LINEとしては同社のAIサービスへの活用と、外部へのAPI提供を考慮中ではあるものの、現段階では、いつ、どのようなビジネス成果を目指すのかはまだ不鮮明だ。

 また、GPT-2が登場した頃から大きな不安要素となっているのが、例えば「フェイクニュースが量産される」「思想や宗教に関連して偏りのある文章生成や差別的な表現を含む情報が発信されかねない」「プライバシーデータが勝手に利用される」などといった倫理的な面でのリスクである。これらの危惧に対してどう応えるのかが、汎用言語モデルひいてはAI利用アプリケーション開発の大きな課題となる。

 これに関しては「LINEでは『Trustworthy AI』を重要テーマとして掲げている。統計データのみで結論を決めつけることなく、倫理観を併せ持つAIでなければ、外部提供、ましてやサービスとしての提供は難しいと考え、データ収集から学習、モデル利用の過程でどのように人々に信頼され安全と認めてもらえる仕組みを作れるかを追求していく」とのことだ。

 すでに学習データに存在する不適切なデータを排除する仕組みは運用されているとのことだが、AIの活用と公共の安全性やプライバシー保護について、どうバランスを取るのかは今後も議論を続けるべき大きな課題だろう。

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。