検索
連載

スパコン並みの処理能力でAI研究開発を加速する「ABCI」とは?5分で分かる最新キーワード解説(2/3 ページ)

AI技術の最先端研究開発と社会実装を加速するクラウドコンピューティング環境「ABCI」。AI特化の計算パワーの実力とは?

PC用表示 関連情報
Share
Tweet
LINE
Hatena

海外と日本の研究開発レベルの差は計算パワー

 その違いの主な理由の1つを、松岡氏は「AI用インフラの計算パワーの圧倒的な違い」と説明する。AI研究にブレークスルーをもたらしたディープラーニングの学習過程では、膨大な計算処理能力が必要だが、それを海外企業に匹敵するような規模で用意できるインフラが日本にはなかった。

 「AIの発展のためには、アルゴリズムの研究開発を進める体制と、AIの能力を高めるためのデータ(ビッグデータ)、そしてAIとビッグデータを活用するための計算機システム技術およびインフラが必要です。日本には公的なAI研究機関が複数あり、また各分野の大手企業やベンチャー企業がAI研究を進めていますし、AIの能力を高める学習のためのデータは、現在どの企業にもあり余るほど。欠けているのは計算機を中心としたシステム技術とインフラです」(松岡氏/図1)。

AI技術の発展に不可欠な3要素
図1 AI技術の発展に不可欠な3要素。※多数の企業が取り扱いに困るほどのデータを保有している(出典:産総研)

 Googleが2012年に「猫認識」に使用したコンピュータリソースは1万6000のCPUコアクラスタと、300万以上のノード、1億以上のエッジを有する多層ニューラルネットワークだった。そんな規模のリソースをスパコン以外で国内事業者から調達するのは当面不可能だ。

 AI研究目的で企業が自前で用意するのはコスト面から夢物語。データセンター事業者にはリソースがある程度豊富とはいえ、主にクラウドサービスを含むホスティングに利用されており、AI研究目的で利用できる高性能リソースを大規模に提供しているのはさくらインターネットなど少数。あるだけ利用しても海外クラウドの規模には遠く及ばない。

 スパコンの「京」(理化学研究所)や「TSUBAME」(東京工業大学)などのリソースは活用可能だが、そのワークロードは従来型のシミュレーションなどのワークロードで満杯の状況、AI研究が入り込む余裕がない。

日本企業が利用できるAI特化の計算パワーを作り出すのがABCI

 こうした状況を前に、構想されたのがABCIだ。ABCIは現在の国内のスパコン性能をはるかに超える130〜200ペタAIフロップスの処理性能をクラウド経由で、研究開発を必要とする国内AI研究者や機関、企業に提供しようというプロジェクトだ。そこでは大規模な多層ニューラルネットが構成でき、ハイエンドPCによるディープラーニングの学習3000年分を1日で行えるような計算パワーを目指している。

 そんなパワーの源となるコンピュータは、東京工業大学の次期スパコン「TSUBAME 3」をベースとする。TSUBAME 3は現在稼働中の「TSUBAME 2.5」(5.7ペタフロップス)よりも速い12.1ペタフロップス(倍精度)を実現するHPCシステムだ。ディープラーニングに利用する場合には、単精度または半精度の浮動小数点演算で良いので、その処理速度は47.2ペタAIフロップスと表される。

 CPUが乗るブレード(ケーブル配線はしない)は独自設計で、ハイエンドのXeonプロセッサ2個、NVIDIA Pascal GPUが4個、256GBメモリ、2TBのSSDが乗る(図2)。これを1ノードとし、1ラックに36ブレードを搭載、合計540ノードで運用する。1ラックあたり72CPU、144GPUの高密度実装とし、使用電力は50〜60キロワットにものぼるが、水冷機構と空冷を併用して効率的な電力利用技術が搭載されており、設置されるデータセンターのPUE(電力利用効率)は1.033(通年)になるという。

「TSUBAME 3」のブレード
図2 「TSUBAME 3」のブレード(出典:東京工業大学)

 もちろん周辺の設備も高速処理向けに設計されている。I/OはNVMeに対応した2TBの高速ストレージと、Intel Omnipathを利用した100Gbpsのバンド幅を持つネットワークインタフェース4基も備えられている。

 ABCIはこれらの仕様と技術をベースにしつつ、AI/ディープラーニングに特化したクラウドサービスの提供に適し、ビッグデータの取り扱いにも適する仕様にこれから変更/調整されていく。クラウドサービスには大量のコモディティサーバによる分散処理のイメージがあるが「高速なディープラーニングのためには、より強力な計算パワーと、メモリやネットワークの大容量や高バンド幅が必要。それにはスパコンをベースとした超並列技術を最も効率的に利用できるクラウド環境がいる」(松岡氏)とのことだ。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る