データマイニングとは、手作業で処理しきれない大量のデータを統計解析やAI(人工知能)で分析し、何らかの知見を得るための方法だ。文章を対象にしたものをテキストマイニングと呼ぶ(詳細はページ末尾へ)。
データマイニングはデータを用いた問題解決の手法である「PPDACサイクル」に沿って行うことが望ましい。PPDACは「Problem(問題)」「Plan(計画)」「Data(データの収集、整理)」「Analysis(分析)」「Conclusion(結果の考察、解決策の提示)」の頭文字を取ったものだ。詳細はデータ分析の解説ページを参照してほしい。
データマイニングをするためには、データの収集から加工、可視化、高度な分析に至るまでさまざまなツールを組み合わせる必要がある。それぞれのツールの特徴についてはデータ分析の解説ページを参照してほしい。ここでは、高度な分析を行う統計解析ツールについて解説する。
統計解析ツールは多変量解析などの高度な分析を行えるツールだ。テキストマイニングツールを使用すれば、文章を対象にデータマイニングを行うこともできる。「IBM SPSS」などGUIで高度な分析が可能なツールもあるが、RやPythonなどオープンソースのプログラミング言語で自由度の高い分析をすることも可能だ。
BIツールがデータの加工や分析の自動化に焦点を当てる一方、統計解析ツールはアドホックな分析(特定の目的に沿った1度限りの分析)で使うことを想定している。
データを読み込み、年齢を年代にカテゴライズするなどの簡単なデータの加工を施した上で、クロス集計表の作成から多変量解析まで、さまざまな分析が可能だ。
データウェアハウス(DWH)やBIツールの主要製品についてはそれぞれの解説ページを参照してほしい。
以下は統計解析ツールの主要製品一覧だ。
製品名 | ベンダー名 | 特徴 |
---|---|---|
SPSS Statistics | 日本IBM | 教育機関や医療機関、研究機関を中心に伝統的に使用されている統計解析ツール。GUIで手軽に、高度な分析が可能。特定の分析手法はオプションを購入する必要がある |
SAS | SAS Institute Japan | GUIや簡易的なコードで高度な分析が可能なツール。学術利用向けの無料ソフトも提供 |
R | オープンソース | 無料で高度な分析が可能なためデータサイエンス領域で広く使われている。プログラミング言語なのでコーディングが必要 |
Microsoft Excel | 日本マイクロソフト | Excelには表やグラフの作成だけでなく、データ分析機能も備わっている。「Excel アドイン」の「分析ツール」をオンにすることで、各種検定や回帰分析、相関分析などが可能だ |