５分でわかる！データマイニングの意味と手法

ビッグデータ時代の到来により、企業は自社のビジネスをより有利に展開するため、以前とは比較にならないほど膨大な量の情報を世界中から収集、分析、活用することが可能になりました。

そんな中、上司から唐突に「データマイニングを使って、このデータから業務改善に役立つような案を出してくれ」と言われ、困ったことはありませんか？

今回は、この「データマイニング」について、わかりやすく丁寧に解説していきます。

INDEX

データマイニングとは何か
データマイニングの手法３選
データマイニングを活用した機械学習

データマイニングとは何か

データマイニングとは、膨大なデータから有益な情報（知識や内包するルールなど）を発掘（マイニング）する技術、手法の”総称”です。

近年の飛躍的なマシンパワーの増大、ネットワークの拡大、オープンデータの増大、情報収集・保持コストの低下は、多様な質、種類を含む膨大な量の情報、つまりビッグデータを、企業、個人が収集し、保持、分析することを可能にしました。

もっとも、扱える情報量が膨大ということは、その中のノイズもまた膨大という意味でもあります。

そのため、データマイニングを行う前には、分析の基礎となるデータからこのノイズを取り除く作業が必要です。

収集した情報をデータマイニングに使える形のデータに整える、仮説を構築する等の下準備を終えると、ようやくデータマイニングを始めることができます。

また、人間の力だけではなく、機械の力もデータマイニングに利用できるようになったことから、最近では数値型データ（四則計算の対象にできる数値データ）や名詞型データ（「鉄」「マンガン」のような物質の名称など）だけでなく、テキストデータ（「私は昼過ぎに友達とランチを食べに行った」のような文章）などもデータマイニングの対象となっています。

テキストデータのデータマイニングについて詳しく知りたい方は、「テキストマイニングを活用事例から手法まで丁寧に解説」をご参照ください。

データマイニングでできる３つのこと

データマイニングでできることは、大きく分けると次の３点ですので、覚えておきましょう。

①データの分類を行う

②データの関連性を見つけ出す

③事象の発生確率を予測する

企業の場合、例えば自社の新製品のマーケティング戦略を立てる際、根拠となるデータを得る等の目的で、データマイニングを実施することも多いでしょう。

＼文字より動画で学びたいあなたへ／

Udemyで講座を探す＞

データマイニングの手法３選

データマイニングを行う際に使用する分析手法は複数あり、どの手法を使用するかは分析目的によります。

よく使われる分析手法には、回帰分析、決定木分析、クラスター分析、ニューラルネットワーク、マーケット・バスケット分析、ロジスティック回帰分析などで、これらの手法は通常、組み合わせて使われます。

中でもよく耳にするのは、次の３つの手法です。

①マーケット・バスケット分析
②クラスター分析
③ロジスティック回帰分析

ここでは、これら３つの手法について、もう少し詳しく説明していきます。

データの関係性がわかる：マーケット・バスケット分析

マーケット・バスケット分析とは、データ同士の関係性を分析するもので、どの商品とどの商品をどのような顧客が同時に購入したかを分析する手法です。

コンビニのPOSデータの分析でよく使われます。また、AmazonなどのECサイトで、レコメンド機能に応用をきかせることができます。

なお、夕刻、紙おむつとビールが同時に購入される、という有名な事例がアメリカにあります。夕食の準備に忙しい母親に言われて商店に紙おむつを買いに来た父親が、自分へのご褒美にビールを買うため、と解釈されています。しかし、実際にこの話を基に商品の配置を変更した商店はないそうです。

データを分類できる：クラスター分析

クラスター分析は、データを分類する分析手法の一つです。

クラスター分析は、①階層クラスター分析、②非階層クラスター分析、の２種類にわけられます。

階層クラスター分析は、最も似ている組み合わせから順にまとめていく（クラスター化していく）方法です。

一番の長所は、近いものから順にまとめるため、クラスター数を事前に決めずに済むことです。しかし、分類の対象が数十個以下でなければ結果が不明瞭になることから、ビッグデータの分析には向きません。

一方の非階層クラスター分析は階層構造を持たないため、たくさんのデータがあっても分析が可能なことから、ビッグデータの分析に適しています。k-means法は非階層クラスター分析の代表的な解析手法です。

クラスター分析について詳しく知りたい方は、「ビッグデータ解析にも使われるクラスタリングを解説！」を参照して下さい。

データから将来を予測する：ロジスティック回帰分析

ロジスティック回帰分析は、発生確率を予測する手法です。企業ではマーケティング施策に対する顧客の反応を改善するためなどに使います。

小さな子供を持つ家族の購入履歴を例にとってみましょう。尤度（ゆうど）関数と対数尤度関数はもっともらしさの指標です。

対数尤度関数が最大になる結果のa1（おにぎりの購入）と a2（洗剤の購入）の関係を見ると、おにぎりの購入が予測値に影響を与えてます。顧客2と4、顧客3と5はそれぞれ似ており、前者は洗剤の購入と一緒におにぎりと子供服を購入、後者は洗剤の購入と一緒にはおにぎりを購入しないことが履歴からわかります。

これらのデータから、例えば前者の顧客は忙しく働きながら子育てをしている母親か父親、後者の顧客は子育てをしながら料理をする時間もある母親か父親、と考えると、それぞれの顧客に対するオファーは違ったものを考える必要があることがわかります。

データマイニングを活用した機械学習

AIにデータマイニングをさせると、人間が仮説を設定しなくても機械が与えられたデータから相関関係や傾向などを見つけ、人では気づかなかったデータの法則や分類が見つかる場合があります。

そうして得た新たな法則をマーケティングや業務に適用し、例えばこれまでは見過ごしてきた潜在顧客の存在を浮き彫りにしたり、既存の業務フローを改善することも考えられます。

しかし、データマイニングのツールを用いてデータマイニングを行うと、打ち出の小槌のように常に有用なルールが導き出される、というわけではありません。

例えば、風力および風向きのデータ（A)と、桶屋の売り上げデータ（B)をデータマイニングして「風が吹けば桶屋が儲かる」ルールが見つかったとして、この時「Aが生じるとCのメカニズムによりBになる」のCは機械の中に隠ぺいされて人間には見えません。

つまり、Cがデータマイニングに利用したデータの中でしか導けないメカニズムである可能性もあり得るのです。

また、ルールが存在しないところでルールを発見することはできません。

ツールを用いて出てきた結果の使い方や応用の仕方は、人間が決めるものなのです。

データマイニングとAIを組み合わせることで、もしかするとAIが業務の改善に役立つ法則性を発見してくれるかもしれません。

５分でわかる！データマイニングの意味と手法