2021年9月13日、RPA BANK はキーマンズネットに移管いたしました。
移管に関する FAQ やお問い合わせは RPA BANKをご利用いただいていた方へのお知らせ をご覧ください。
先駆けとなる事例の出現から2年余りのうちに、国内ほぼ全ての大手企業が導入に至ったRPA(ロボティック・プロセス・オートメーション)。PC上での作業をソフトウエアが代替するRPAツールの活用は、業務フローの革新を通じて価値創造を図る「デジタルトランスフォーメーション(DX)」の“出発点”と目されている。初動の勢いを得て、いよいよ加速しだしたDXのロードマップにおいて、最終的に向かうべき“ゴール”近くに位置づけられるテクノロジーの代表格がAI(人工知能)だ。未来への期待を一身に集める感もあるAIは、実際のところどのような技術で、企業の実務にどこまで貢献できるのだろうか。学界・ビジネス界のそれぞれ最前線から、識者の見解を聞いた。
松原 仁(まつばら ひとし):公立はこだて未来大学副理事長。工学博士。1986年に東京大学大学院工学系研究科情報工学専攻博士課程を修了後、通産省工技院電子技術総合研究所(現・産業技術総合研究所)に入所。2000年に公立はこだて未来大学の教授に就任し、2016年より現職。人工知能、ゲーム情報学、観光情報学などを研究領域とし『コンピュータ将棋の進歩』『鉄腕アトムは実現できるか』ほか著書多数。人工知能学会前会長、情報処理学会前理事、観光情報学会理事。カーシェアの普及を図る大学発ベンチャー「株式会社未来シェア」の社長も務める。
飯沼 純(いいぬま じゅん):株式会社 Cogent Labs代表取締役。CRM(顧客関係管理)ツールで知られる米国Salesforce.com inc. の日本法人「株式会社セールスフォース・ドットコム」に13番目の社員として入社後、15年間にわたり同社の急成長に貢献した。2014年、エリック・ホワイトウェイ氏(現・Cogent Labs代表取締役)と会社を共同設立。海外の博士号取得者らを開発陣に迎えて製品化したAI-OCR「Tegaki」など、最先端技術の実社会への導入に取り組んでいる。
ー日本におけるAI研究の動向に詳しい松原先生は「AIのビジネスへの応用」が実用性を証明する上で非常に重要と以前のインタビューでおっしゃっています。今回は、実地でこの問題に取り組む飯沼社長と共に、現在の課題や今後の展望をお話しいただければと思います。
飯沼: 最初に、当社を簡単に紹介します。「AIを使って人々の生活をより豊かにすること」をミッションに4年前に設立し、主に文書の認識・検索に関するサービスを提供しています。約50人の従業員は、6割強が外国人。ディープラーニング(深層学習)をはじめとするAI専門のエンジニアに加え、天文物理や脳科学、統計学などの学位を持つ研究者らが知見を生かし、有望な技術をいち早く採り入れています。
最初のプロダクトとしてリリースしたのは、高精度な手書き文字認識を実現したAI-OCR「Tegaki」です。Tegakiは既に多くの業界で事務処理に活用されているほか、RPAやデータ連携ツールなどのベンダーと提携し、一体的なソリューションとしても販売しています。
Tegakiはクラウドサービスとして提供しており、読み取りたい文書データのアップロードや認識精度の確認などは、すべてWebブラウザ上で行います。リリースから1年で、既に帳票など1万7,000種類の文書を処理しており、AIが認識した結果のほか、それに対する修正もフィードバックしていくことで日々精度を向上させています。
松原: 私も大学院を出た30年前、電総研(旧通産省の「電子技術総合研究所」)に就職してすぐ日本語の手書き文字認識の研究をしていたので、認識精度を上げていく大変さはとてもよく分かります。懐かしい半面、当時とはケタ違いの精度に「技術が進んだな」と実感しますね。
OCRの性能向上にAIを役立てる取り組みには、実は長い歴史があります。私も電総研で、読み取る文字を整理するのにAIを使っていましたが、ビジネスへの応用には程遠かった。枠の中に1字ずつ書いてもらっても十分な認識精度が出なかったのです。
飯沼: 今の技術ではもちろん、枠に入っていない文字も読み取れます。用紙と平行でなく斜めに書かれたりすると、まだちょっと難しいですけれど(笑)。
ーAI-OCRの精度が、それほど劇的に向上した理由は何でしょうか。ハード面では、膨大な演算をこなせるプロセッサ「GPU」の応用が大きかったと言われていますね。
松原: さきほど飯沼さんから、さまざまな文書データがクラウド上にアップロードされているとのお話がありましたが、これが理由です。GPUの処理能力もさることながら、やはりネット社会の到来で、膨大かつ多様なデータを容易に集められるようになったのが最大の要因でしょう。学習するほど賢くなるAIに対し、十分な教材がそろったということです。
AIが学習するための例題と正解を示す「教師データ」には、実業務で使われる“生”の資料を使うのがもっとも効果的です。私が研究していた当時は、そういう生データを大量に集める手段がなかった。アルバイトを集めて、サンプルとなる字を書いてもらったりもしましたが、うまくいきませんでした。
というのも、こちらは崩した字のサンプルが欲しいのに「お金をもらって書くから」という真面目さのせいでしょう、筆跡がきちんとしすぎて役に立たないんです(笑)。仕方がないので、厳しい制限時間を設けて走り書きにさせるといった“苦肉の策”も使いました。私の先輩などは、郵便物の宛名書きを集めて乱雑な筆跡をピックアップし、その書き方をまねて教師データを作っていたようです。
ーAIに文字を学ばせる上で、データを手軽に送れるネットの普及がいかに革命的だったかが分かります。
松原: AIを用いたOCRの精度は、認識率3割・4割というレベルから7割・8割あたりまではすぐ実現できますが、そこからが難しい。これは、よくあるケースが出尽くし、レアケースを潰す段階に入っていくためです。たとえば認識率を1%、あるいは0.1%向上させるために、それまでの合計を超える手間や費用がかかる場合さえあります。
認識率0.1%の差は数値上ではわずかでも、長文の認識では明らかな違いとなって出てきますから、開発企業間でも、またユーザーにとっても極めて大きな要素となります。その意味でAI-OCRは、非常にシビアな世界だと思います。
AIによる文字認識の研究で大きなトピックとしては「左利き」も挙げられます。どちらの手で書くかによって文字の特徴が変わるのをどう認識するかが長く課題でしたが、右利きへの矯正が減った今日では左利きの絶対数が増え、またデータ収集のハードルも低くなったことで、左右いずれも十分な精度が得られるようになりました。
飯沼: 当社では利き手はもちろん、言語についても限定せず、子どもの答案から店頭のアンケート、製造現場の作業指示書にいたるまで、あらゆる手書き文字を認識できるテクノロジーの実現にチャレンジしています。これは「英語と日本語とハングルの併記」といった多言語が混在する文書に対応する目的のほか、言語別・用途別に開発する手間を省くことでAI-OCRの低コスト化につなげる狙いがあります。
ーどのような手書き文字も共通のエンジンで認識させるということですね。各言語のさまざまな語彙を網羅することになりますが、本当に対応可能なのですか。
飯沼: はい。保険関係の書類に出てくる難解な病名や、特定メーカーの製品型番といった専門的・定型的な文言に関しては、それぞれの分野ごとに辞書データとしてまとめ、判断に迷ったAIが最後に参照するという方法を検討しています。専門用語が既にリスト化されている業種・業界も多く、今後はそういったリストをお持ちの企業と共に、オプションの連携機能を充実させていきたいと考えています。
ー自社による開発だけでなく、パートナー企業やユーザーとの連携も重要ということですね。
飯沼: その通りです。諸先輩方が残してくださった“宝”ともいえるAIの設計を受け継ぎ、どう社会に生かすかを考える中で思うのは、「いいAI」はユーザーと共に育てていくものだということです。
例えば、帳票を読み取るAI-OCRの導入にあたって「帳票上のどの項目をどう処理するか」という作業手順も同時に見直せば、そのままの場合に比べて認識率は確実に上がります。また、文書データの読み取りで誤認識が発生したときにはユーザー側で訂正が行われますが、「正しい文字は何だったか」という訂正情報を開発側にも共有していただくことで、AIのさらなる学習に役立てることもできます。
松原: AIを応用したツールは、まず製品として優れていなくてはなりませんが、それ以上に重要なのが導入した後の運用だといえます。実用的なAIを育てるためには、少しでも多くのユーザー企業が開発企業と手を結び、生のデータを使ったAIの学習を加速させていかなくてはなりません。
データ活用に伴う個人情報の保護については既に法整備が行われていますが、今後はAIのユーザー企業間で学習結果をどこまで共有するかなど、ビジネス上のルール整備も強く求められていくと思います。
ーところで、Tegakiによる文字認識には画像認識のほか、自然言語処理(NLP)のAIも活用されていると聞きました。
飯沼: はい。TegakiではAIが文書中の「文字」を画像として扱うことで識別しているのですが、並行してNLPのAIも作動しています。Tegakiの画像認識で誤認識された文字は人間が修正し、その結果もAIにフィードバックし学習させていますが、NLPで行った部分については、人間が確認して修正するわけではありません。
ー同じ製品に併用する画像認識とNLPの間で、どうしてそのような差があるのですか。
飯沼: 簡単に言うと「人間が使っている言葉があいまいだから」です。NLPを突き詰めると、単語から文法、さらには意味の解析にまで及びますが、実際には文法的に間違っていても十分通じる文章が多いので、どこまで・どのように修正するかが難しい。それだけに、現段階ではあえて深入りしていないのです。
松原: 私からも補足すると、画像認識によってアナログからデジタルへ、文字を1対1で対応させるのと、人間が書いた文章をAIに解析させるのとでは、技術的な難易度が全く異なります。視覚で物を見分ける動物は多いですが、人間ほど言葉を操る生物は他にありませんから、「言語」や「意味」は生物進化の最後に登場した、最も難しい対象といえます。
いま最も注目されているAI技術のディープラーニングは、困難なNLPの領域でも一定の成果を挙げています。ただしそれは、言語の難しさを正面から解き明かす「構文解析」や「意味解析」の過程をあえてスキップさせ、統計的な“確からしさ”だけで整理させてみたところ「どういうわけか、人間から見てもよい結果が出た」という状況なのです。多少なりとも意味解析の機能を持たせていくことは、AI開発における今後の課題のひとつです。
ー「よい結果を返してくれるが、その理由はよく分からない」。AIとは不思議な存在ですね。ビジネスとして扱う上で、この点を意識することがありますか。
飯沼: 個人的な興味はもちろんあります。ただ、それ以上に「このことについて顧客から質問されたとき、どういう説明をすればよいか」のほうが気になっています(笑)。
松原: 「言語をどう処理しているのか、意味まで認識しているのかは依然不明だが、処理された結果を人間が詳細に検討しても違和感がないのであれば、とりあえずはAIを信頼してよいのではないか」ということでしょうね。
―AIの技術面での現況をつかんだところで、ビジネス面での展望もうかがいます。紙ベースの業務が依然多い国内市場でAI-OCRが有望なのは理解できますが、世界的にみたときはどうでしょうか。例えば、お隣の中国では業務のペーパーレス化が急速に進んでいると聞きます。
飯沼: かりに今後、タブレット端末や電子ペーパーの普及によって紙媒体が一掃されたとしても、「手で文字を書く」という行為は残ります。当社としても、そうしたデジタルデバイス上で活用できるAI-OCRの展開を始めています。
ただ、紙というメディアにも、まだまだ可能性が残されているのではないでしょうか。個人的には「圧倒的に安価」で「電気が不要」、しかも「誰でもすぐ書き付けられる」紙の活用がデジタルデバイスの普及より効果的な地域は、世界全体では決して少なくないと考えています。そうした地域においてもデジタルデータの収集と活用を進めていくとすれば、多言語に対応しているリーズナブルなAI-OCRへの需要は必ずあると信じています。
松原: 必要な分だけ破ってメモし、要らなくなったら捨てられる「チラシの裏」のような手軽さは、デジタルデバイスには真似できないでしょうね。データの活用を前提としても紙媒体を選ぶとなったとき、両者をつなぐ手段として「手入力以上の競争力」を持てるかどうか。AI-OCRの活用は、タイミングも重要だと思います。
中国については、確かに巨大な人口を抱えた市場ですからAIの学習には絶好の環境です。個人の信用情報を顔認証と結びつけるといった、他国にはまず真似できない方法でデジタルデータの活用を進めていますが、国内で集積したデータを国外のデータと連携させたり、他国に販売したりといった場面がいずれ出てくるはずです。世界標準の倫理観でいくと、そこでつまずく可能性が極めて高い。
データの収集方法が後になって不適切とされた場合、過去に遡って是正することはできず、また不適切な部分が一部にすぎなかったとしても、それらが混じったデータ全体が使えなくなるおそれがあります。日本としては焦ることなく慎重に、世界標準に沿ったデータの利活用を進めていくべきでしょう。
―では、日本発のAIやAIビジネスが世界に広まる可能性はありますか。
松原: ボーダーレス化が進んでいますから、日本と海外との間に昔ほどの違いはありません。それでも日本語を使う日本人の思考には、「その場の関係や環境との結びつきが強い」という特徴が現在も残っています。家族関係を示す「お父さん」「お母さん」を親が一人称としても使う、あるいは小さい子に「ぼく元気?」などと相手の一人称で呼びかけるのは、その現れでしょう。
ある物事が、時と場合に応じてさまざまに変化することを学問上「状況依存性」と呼んでいますが、これは現在のAIが処理を苦手とする分野の代表格です。常に主客をはっきり区別して俯瞰的に見る欧米的思考ではなく、自身を含めたその場を一体として捉える日本的な発想をベースに持つことは、状況依存性をもっときれいに処理するアプローチの発見に役立つかもしれません。個人的には、この点に希望を持っています。
―まさに日々、ボーダーレス化した環境の中にいる飯沼さんは、どう思われますか。
飯沼: 日本語は「世界有数の難しい言語」とされているため、難度の高い研究対象を求める意欲的なAI研究者が日本に注目しているのは事実です。彼らにしてみると、国力からみて不釣り合いなほど低い日本の労働生産性は「伸びしろの大きさ」に、また深刻な少子高齢化は「いずれ後に続く他国に先がけた課題解決の好機」と映るようです。
治安がよく清潔な住環境、さらに四季の変化があり、食ベ物がおいしいという生活面においても、日本は海外の研究者から根強い人気があります。ご存じの通り、AI分野での人材獲得は完全なグローバル市場での競争です。現状では米国と中国の企業に注目が集まりがちですが、私たちも日本からこの競争に参戦し、今後さらに存在感を示していきたいと思います。
松原: 日本的な発想には優れた面もありますが、自身を周囲と対立させないばかりに、本来解決すべき課題に関しても「しょうがない」と諦めてしまいやすい弱点もあります。強みを生かす技術開発を続け、新たなビジネスを開拓していくのは決して容易な道ではありませんが、私も実は経営者。これからも、お互い諦めず頑張りましょう(笑)。
飯沼: もちろんです。今回はアカデミックな視点からたくさんのお話をうかがいましたが、日ごろ感じていたことが体系立てて整理されていき、とても刺激になりました。
−同じ感想を持つ読者も多いと思います。本日はお忙しいところ、ありがとうございました。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。