テキストマイニングとは、データマイニングのうち文章を対象としたものを指す。定性的な文章をAIなどで解析して定量的な情報を抽出する。
テキストマイニング(text mining)とは、データマイニングのうち文章を対象としたものを指す。一般的には、手作業では処理しきれない量のテキストデータをAI(人工知能)などで解析し、単語の判別や分類をして定量的な要素を抽出する。それによってヒューリスティック(発見的)な知識を獲得することを目的とする。
従来、日本語は文法のゆらぎの大きさなどが課題となって形態素解析などが困難とされてきた。しかし昨今は自然言語処理(NLP: Natural Language Processing)の発展に伴って実用的な分析が可能になり、テキストマイニングも簡易な分析を実行する無料サービスや企業向けに高度なデータ分析を提供するツールなどが存在する。
テキストマイニングは2000年前後から研究が活発化し、数学や統計学、言語学、社会学、心理学、認知学など多岐にわたる分野を網羅する技術として活用の模索や論文の発表が続いている。
テキストマイニングは定性的なテキストデータからヒューリスティックな知識を獲得することを目的として利用される。複数の手法があり、例えば以下のような手順で実行される。
プロセス | 処理 | 目的 | 課題 | |
---|---|---|---|---|
1 | 形態素解析 | 文章を単語ごとに分割して種類を特定する | 文章から意味の要素を抽出する | 複数の意味を持つ音節、方言、表記ゆれ |
2 | 構文解析 | 単語どうしの修飾関係を特定する | 単語の要素の組み合わせから文章の意味を読み取る | 文法のゆらぎ、複数パターンの係り受けに対する処理 |
3 | センチメント分析 | 文章の意味が表す文脈を特定する | ヒューリスティックな情報の獲得 | あいまいな表現の単語に対する評価 |
テキストデータにはアンケート回答や検索文、問い合わせ文、SNSに投稿された文章などがある。テキストマイニングでは上記の手法を通じて、これらの文章から文脈や意味を抽出、特定する。
ブラウザ上で動作する無料サービスは、ユーザーが入力した文章の関係性を分析して「ワードクラウド」や「共起ネットワーク」などの形式で視覚的に出力する。企業向けサービスでは、BIツールや顧客向けサービスの開発ツールなどに組み込まれる。
業種や業態、利用目的によってさまざまな特性を持つサービスが、SaaSやオンプレミス向けとして提供されている。代表的な用途には以下のようなものがある。
分析対象のテキストから抽出した単語の関係性から得られる情報をレポーティングしたり、ダッシュボードに出力してさまざまな切り口からのデータ分析を可能にしたりする。
大量の非構造化データの分析を通して潜在的なニーズや課題を発見したり、市場を予測したりする。非構造化データに含まれるテキストデータの分析に、テキストマイニングが利用される。
ユーザーが入力した文章から必要な情報を特定し、企業のサーバに分散するデータを横断的に検索して結果を提供する。ユーザーは最新の社内規定や文書フォーマット、ビジネスに関するデータなどを、ファイルの階層を意識せずに取得できる。
ユーザーからの問い合わせ文章から課題を特定し、候補となる回答を自動で提供する。社内向けITサービスデスクの業務や顧客向けサポートの自動化が可能になる。
テキストマイニングには、統計学や機械学習AIなどが活用される。そのため学術用語や技術用語にも関連するものがあり、さまざまな確度から研究が進んでいる。
自然言語処理(NLP)とは、人間の言語をコンピュータによって取り扱う処理の総称を指す。テキストマイニングの実行には自然言語処理が含まれ、一般的には自然言語処理の性能が高いほど、テキストマイニングの精度も上がる。
データマイニングとは、大量のデータをさまざまな最新技術を用いて分析する処理の総称を指す。テキストマイニングはデータマイニングの一種にあたる。
計量テキスト分析とは、テキストデータを対象とした計量的な内容分析を指す。統計学や社会学、経済学で用いられる用語で、一般的にはビジネス利用を目的とする計量テキスト分析をテキストマイニングと呼ぶ。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。