自分でデータを集めて最適化を実現する「自己競争AI」とは？：5分で分かる最新キーワード解説（3/3 ページ）

» 2018年05月23日 10時00分公開

[土肥正弘，ドキュメント工房]

ビールゲーム

　最小限のコストで消費者のビール需要に応えられるようにビールのサプライチェーンを最適化する方法を競うシミュレーションゲーム。1960年代にマサチューセッツ工科大学の研究者が考案し、以来経営スクールなどでシステムダイナミクスの原理を学ぶ教材として多用されてきた。

　1チームが1つのサプライチェーン、チームメンバーは4人以上でサプライチェーン内の拠点としてプレイする。それぞれのメンバーは情報を交換せずに週に一度発注し、35週以上プレイを繰り返す。複数のチームで最終的に在庫1個当たり0.5ドル、欠品は1個当たり1ドルの損失として計算し、損失が少ないチームを勝ちとする。

「自己競争AI」との関連は？

　不確定要素が多いビジネス課題をAIで解決する方法を開発するのが「自己競争AI」研究の目的。その研究モデルとしてビールゲームが採用された。AIエージェントがメンバーとなり、4つのAIエージェントが1つのチームを形成する。チームが競い合う中で総合スコアが悪いチームやAIエージェントが淘汰（とうた）され、効率のよい学習ができるAIエージントだけが選ばれていくシステムを開発した。

囚人のジレンマ

　もともとは犯罪の共犯と思われる囚人A、Bに対して、「両方が犯行を自白したら両者は懲役5年、片方が自白したら自白者は釈放、他方は懲役10年。両者が黙秘したら懲役2年」という司法取引をもちかけるという、1950年代の実験からこの名がついている。

　AはBを裏切って自白すれば釈放になるが、Bも裏切っていたら懲役5年になる。Aが黙秘してBも黙秘してくれれば懲役2年ですむが、Bが裏切ったら懲役10年になる。両者が協力して懲役2年を我慢する覚悟で黙秘すれば本当は最適なのだが、A、Bともに釈放となるか5年の懲役となるか分からない自白を選ぶのも、個別には合理的な選択になる。

　つまり協力しない側が利益を得る状況では協力する結論を選ばない（ナッシュ均衡）ことがあるというわけだ。個別最適な意思決定が全体最適にはならないというジレンマである。

「自己競争AI」との関連は？

　「自己競争AI」ではサプライチェーン全体の総合スコアを観測することで、個別に最大の利益を求めるのではなく全体のスコア向上を目指す仕組みを学習管理機能として組み込むことにより、「囚人のジレンマ」による全体最適化の阻害をなくすようにしている。

強化学習

　「教師あり学習」「教師なし学習」と並ぶ機械学習の手法の1つ。試行錯誤を通じてより良い結果を出す行動を学習する。

「自己競争AI」との関連は？

　「自己競争AI」では、AIエージェントを連ねてサプライチェーンを模倣した構成をとり、各エージェントが「損失の低減」を目標に試行錯誤を重ねる方法をとる。多くのAI群が同時並行で学習を実行し、本文中にある学習管理機能や学習進化機能を利用して短時間で効率的な強化学習を可能にした。

アイティメディアからのお知らせ

キャリア採用の応募を受け付けています

SpecialPR

ITmediaはアイティメディア株式会社の登録商標です。

自分でデータを集めて最適化を実現する「自己競争AI」とは？：5分で分かる最新キーワード解説（3/3 ページ）

ビールゲーム

囚人のジレンマ

強化学習

関連リンク

アイティメディアからのお知らせ