メディア

「データマイニング/統計解析」とは 導入の目的、メリットを解説

「データマイニング/統計解析」に関する最新情報を紹介します。IT担当者やITを活用したいビジネス/バックオフィス部門の担当者に、役立つ製品・サービス情報や導入事例、業界動向を集めました。

「データマイニング」とは

 データマイニングとは、手作業で処理しきれない大量のデータを統計解析やAI(人工知能)で分析し、何らかの知見を得るための方法だ。文章を対象にしたものをテキストマイニングと呼ぶ(詳細はページ末尾へ)。

データマイニングのプロセス、必要なツール、主要製品一覧

データマイニングのプロセス

 データマイニングはデータを用いた問題解決の手法である「PPDACサイクル」に沿って行うことが望ましい。PPDACは「Problem(問題)」「Plan(計画)」「Data(データの収集、整理)」「Analysis(分析)」「Conclusion(結果の考察、解決策の提示)」の頭文字を取ったものだ。詳細はデータ分析の解説ページを参照してほしい。

データマイニングに必要な統計解析ツール

 データマイニングをするためには、データの収集から加工、可視化、高度な分析に至るまでさまざまなツールを組み合わせる必要がある。それぞれのツールの特徴についてはデータ分析の解説ページを参照してほしい。ここでは、高度な分析を行う統計解析ツールについて解説する。

 統計解析ツールは多変量解析などの高度な分析を行えるツールだ。テキストマイニングツールを使用すれば、文章を対象にデータマイニングを行うこともできる。「IBM SPSS」などGUIで高度な分析が可能なツールもあるが、RやPythonなどオープンソースのプログラミング言語で自由度の高い分析をすることも可能だ。

 BIツールがデータの加工や分析の自動化に焦点を当てる一方、統計解析ツールはアドホックな分析(特定の目的に沿った1度限りの分析)で使うことを想定している。

 データを読み込み、年齢を年代にカテゴライズするなどの簡単なデータの加工を施した上で、クロス集計表の作成から多変量解析まで、さまざまな分析が可能だ。

主要製品一覧

 データウェアハウス(DWH)BIツールの主要製品についてはそれぞれの解説ページを参照してほしい。

 以下は統計解析ツールの主要製品一覧だ。

製品名 ベンダー名 特徴
SPSS Statistics 日本IBM 教育機関や医療機関、研究機関を中心に伝統的に使用されている統計解析ツール。GUIで手軽に、高度な分析が可能。特定の分析手法はオプションを購入する必要がある
SAS SAS Institute Japan GUIや簡易的なコードで高度な分析が可能なツール。学術利用向けの無料ソフトも提供
R オープンソース 無料で高度な分析が可能なためデータサイエンス領域で広く使われている。プログラミング言語なのでコーディングが必要
Microsoft Excel 日本マイクロソフト Excelには表やグラフの作成だけでなく、データ分析機能も備わっている。「Excel アドイン」の「分析ツール」をオンにすることで、各種検定や回帰分析、相関分析などが可能だ