生成AIの性能向上には膨大なデータの学習が不可欠とされ、容易ではない。だが、今話題のDeepSeekの能力を簡単に引き上げる技術が誕生したという。
スタートアップ企業DeepSeekが開発した高性能なAIチャットbot「DeepSeek-R1」は2025年1月に無償で公開され、大きな反響を呼んだ。開発コストが約560万ドルと非常に低価格であったことが話題を呼び、公開からわずか1週間で「iOS」のアプリランキング1位を獲得した。だが、サーバが中国に設置されていることからデータプライバシーに関する懸念が一部で浮上するなど、ネガティブな要素もある。
DeepSeekが自身の能力を“勝手に引き上げる”新技術が爆誕したという。一体、どんな技術で、どうスゴイのか?
DeepSeekの研究者と精華大学の研究者による共同研究チームによって、DeepSeekの推論能力を大幅に向上させる革新的な手法が開発された。2025年4月5日(現地時間)、この成果に関する査読前の論文が複数名の連名でプレプリントサーバの「arXiv」に公開され、注目を集めている。
この論文では、研究チームが言語モデルのサイズや学習データ量に依存せず、LLM(大規模言語モデル)の性能を向上させる手法についての研究結果が記されている。一般的に、LLMは大量のデータを学習することでスケール(モデルの拡大と性能向上)を実現するが、追加トレーニングによってスケールを達成するLLMもある。
研究チームは「推論時スケーリング」に焦点を当て、LLMが推論する際に計算資源を投入することで「Reward Models」(報酬モデル)の精度を向上させ、スケールを実現する方法を提案した。報酬モデルとはLLMの回答内容を評価し、その善しあしを自己判断する仕組みであり、それによって推論出力の強化と改善が可能になる。
報酬モデルの評価はユーザー(人間)が担うものの、一貫性のある評価を出すことは難しく、特定の分野では正確な判断ができない場合もある。この課題を克服するために、研究チームは「Self-Principled Critique Tuning」(SPCT:自己原理批判チューニング)という学習手法を開発した。
その手法とは、LLMが回答を生成する際に「Principles」(評価原則)や「Critiques」(批評)を同時に生成し、それを基に報酬を得る「Generative Reward Models」(GRM:生成型報酬モデル)というものだ。つまり、AIが自らの回答を評価し、その善しあしを判断することでスケーリングを達成するという、革新的な仕組みなのだ。
研究チームは、このGRMを搭載した新たなモデル「DeepSeek-GRM」を開発した。DeepSeek-GRMは、入力クエリに対して複数の回答を生成し、それぞれを自己評価することで最適な出力を選択する仕組みを持つ。このプロセスには大きな計算資源が必要となるものの、推論時スケーリングを可能にし、推論を繰り返すほどモデル性能が向上するという研究結果が示されている。さらに、ベンチマークテストの結果、DeepSeek-GRMは「GPT-4o」や「Nemotron-4-340B」「Gemini-1.5-Pro」「LLaMA-3.1-70b-Instruct」といった代表的なLLMと遜色ない性能を発揮することが分かった。
論文では、トレーニング時のスケーリングよりも推論時のスケーリングの方が、LLMの性能向上に大きく寄与する可能性が高いことが指摘されている。この研究成果は、今後のLLM開発に多大な影響をもたらすことが期待されている。また、研究チームは今回の技術をオープンソース化する予定であり、他のエンジニアや研究者がこの技術を活用してさらなる発展を目指す可能性もある。この新技術により、LLMがさらなる進化を遂げる未来が開かれるかもしれない。
上司X: 自分自身で推論能力を強化させる「Self-Principled Critique Tuning」という仕組みがDeepSeekに搭載された、という話だよ。
ブラックピット: 自己原則批判チューニングですか。
上司X: LLMが信念や原則に基づき、自らの回答を批評、評価して質を向上させるという、驚くべき仕組みだな。
ブラックピット: 自己批判できる、優秀な人間のようですね。
上司X: 優秀じゃなくても大体の人は自己批判はできると思うが……。そして自己批判と自己批評はちょっと違うかな。まあ、それはいいとして、AIが自身の回答の善しあしを断するというのはなかなか面白いな。
ブラックピット: 善しあしを見極めることでさらに能力を高めていくんですよね。
上司X: そうだ。ただ、推論処理の過程で複数の出力を生成し、それらを自己批評する仕組みだから、計算コストが高くなるという弱点もあるようだよ。
ブラックピット: まあ、利点があれば弱点もあるってことですね。そういうところもヤケに人間クサい仕組みですねえ。そして、オープンソースになるって話じゃないですか。
上司X: そうなんだよな。DeepSeek以外のLLMがSPCTの機能を取り入れる可能性もあるかもしれない。LLMがさらに発展する起爆剤になったりしてな。楽しみにしながら行く末を見守っていきたいな。
年齢:36歳(独身)
所属:某企業SE(入社6年目)
昔レーサーに憧れ、夢見ていたが断念した経歴を持つ(中学生の時にゲームセンターのレーシングゲームで全国1位を取り、なんとなく自分ならイケる気がしてしまった)。愛車は黒のスカイライン。憧れはGTR。車とF1観戦が趣味。笑いはもっぱらシュールなネタが好き。
年齢:46歳
所属:某企業システム部長(かなりのITベテラン)
中学生のときに秋葉原のBit-INN(ビットイン)で見たTK-80に魅せられITの世界に入る。以来ITひと筋。もともと車が趣味だったが、ブラックピットの影響で、つい最近F1にはまる。愛車はGTR(でも中古らしい)。人懐っこく、面倒見が良い性格。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。