メディア

わら山から「わら」を探す人工知能、「プレディクティブコーディング」とは?5分で分かる最新キーワード解説(3/3 ページ)

» 2015年03月04日 10時00分 公開
[土肥正弘ドキュメント工房]
前のページへ 1|2|3       

日本企業の米国訴訟対応ツールとして

 米国のディスカバリ制度への対応技術として生まれた技術であるだけに、欧米では欧米語ベースのツールが使われる。日本語に対応できないわけではないが、文字コードとしてはUnicodeが基本で、日本のJIS/シフトJISなどの文字コードに対応しないことから精度が低くなる。UBICでは欧米語に加えて日本語、中国語、韓国語の2バイトまたはマルチバイト系文字コードに対応し、日本企業の日本語文書やデータも対象にできるようにした。

 数年前から日本の自動車会社などが米司法省から価格カルテルなどで摘発される例が続き、巨額の罰金が科せられるケースが繰り返し報道される。また、消費者からの民事訴訟のケースも多い。たとえ訴えられても、プレディクティブコーディングを活用してeディスカバリに対応できれば、和解協議や裁判を相手と対等あるいは有利に進められる可能性が高くなる。

 会社の機密情報は訴訟に関係がない限りは不必要に提出したくない。その判断を適切に行って不必要な情報開示をしないためにも役立つだろう。さらに、自社内で誰も気付いていない不正が調査過程で分かることも、絶対ないとは言い切れない(当局に申告すれば罰金を免除されることがある)。

 米国および海外諸国とのビジネスが盛んになるにつれ、訴訟とそれに伴うリスクの回避や低減のためにプレディクティブコーディングは今後ますます重要になりそうだ。

訴訟対応だけでない応用用途

 上述したようにUBICのプレディクティブコーディングは「教師データが少量で済む=専門家の負担を軽減」「計算量が少ない=一般的なコンピュータで十分対応可能」、しかも「精度が高い」という特徴を持つ。ディスカバリ以外の目的に適用しても効果的なのではないかとピンときた読者も多いだろう。

 実際、日本の法執行機関ではフォレンジック目的で利用し、実績を積んでいる。他にも、民間企業の特許調査などの知財評価、医薬品開発時の臨床実験効果測定分析を効率化する医療データ(問診情報など非構造化データ)分析、ソーシャルメディア分析などの用途に応用が始まった。

 テキストで表現された文書やデータなら何でも対象にできるので、使い方次第でいかようにも活用できそうだ。企業データがますますビッグデータ化し、構造化データに加えて非構造データの量と重要性が増す中で、情報資産をビジネスに生かすツールとしての今後の活用が期待できる。

関連するキーワード

機械学習

 コンピュータが経験を通して自動的に学習を行うことをいい、人工知能研究の重要な一分野となった。人間がベースとなる少量の知識(教師データ)を与える「教師あり学習」と、データの特徴を基に自分で学習する「教師なし学習」の技術がある。

 前者の代表例に、ニューラルネットワークやサポートベクタマシン、ベイズ推定、伝達情報量による分類法があり、後者にはディープラーニングやクラスタリングという手法がある。

「プレディクティブコーディング」との関連は?

 UBICのプレディクティブコーディングのエンジンには伝達情報量による分類技術が使われるのが特徴で、独自の重み付け判定技術を加えた。教師データはごく少量でよく、計算コストも低いためPCでも十分効果的に処理できる。

エキスパートシステム

 1980年ごろに実用化された人工知能技術を利用する意思決定支援システム。専門家の意思決定ルールを割り出し、プログラム化して、専門家と同様の判断をコンピュータが行うことを目標に開発され、一部で成功したが、その領域はいまだに限定的だ。専門家の「暗黙知」に属するルールを定式化すること自体が難しいことが、広範な応用に結び付かない大きな理由の1つだ。

「プレディクティブコーディング」との関連は?

 現在の人工知能研究は、ルールベース推論から機械学習へと方向を変え、多くのデータを対象に経験値を上げることで、より広い応用領域で利用されるようになった。Google検索や音声認識、目的志向型のWatsonのような質問解答ツールなどが一般例だ。

 UBICのプレディクティブコーディングはこれらとは別の機械学習技術(前述の伝達情報量)を使い、文章の形態素ごとに網羅的に重み付けを行う方法で機械学習を行う。専門家の「暗黙知」を「暗黙知」のまま学んでビッグデータの解析が可能で、教師データを変えれば多様なアプリケーションに対応できる。

フォレンジック

 法的な問題や犯罪などの調査や捜査のために必要な証拠集めのこと。電子データを対象にしたフォレンジックは「デジタルフォレンジック」ともいう。デジタルフォレンジックは、「ログ収集と解析」と「HDDなどの記憶媒体の解析」を主な手段とし、PCやサーバのHDD内容やログ、ネットワーク機器、セキュリティ機器のログなどから、不正行為などに該当する内容を抽出し、統合して訴訟の際の証拠として提示できるレポートにする。

「プレディクティブコーディング」との関連は?

 プレディクティブコーディングは、デジタルフォレンジックにも適用可能で、実際にUBIC製品では実績がある。HDDなどの内容解析を行う際、不正行為を示唆する文書やデータの発見、あるいは怪しい文書やデータを効率的に絞り込むことが可能だ。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。