photo
photo

多変量解析とは?入門者にも理解しやすい手順や具体的な手法をわかりやすく解説

多変量解析は、様々な分析方法を用いて、多数のデータから結果を予測したり、シンプルな計算式のような指標を導いたりする手法です。

本記事では、多変量解析について、基礎的な知識から具体的な手法までわかりやすく解説します。

多変量解析とは?どんなことができる?

多変量解析とは、複数の変数に関するデータをもとに、これらの変数間の相互関連を分析する統計的技法の総称です。特定の分析方法を指すものではありません。

多変量解析には、重回帰分析やクラスター分析など様々な分析手法が含まれます。中にはエクセルで解析できる手法もあり、高度な数学的知識が必ずしも必要というわけではありません。

多変量解析でできることや手法をみていきましょう。

多変量解析でできること

多変量解析では、例えば、次のようなことが可能です。

  • アンケートの結果から商品の強み・弱みを知りたい
  • 身体測定のデータから病気になる確率を知りたい
  • 既存店舗の売上や顧客数などのデータから、新店舗の将来の売上を予測したい

上記以外の事柄でも、複数のデータの相互関連を分析できます。

多変量解析でできること

 

多変量解析の基礎知識【入門者向け】

冒頭でも説明したとおり、多変量解析は特定の解析方法を指すものではありません。そのため、「扱うデータ」と「目的」によって分析手法を決める必要があります。

いざ多変量解析をする際に、分析手法を決めるための基礎知識をまとめましたので、理解に役立ててください。

多変量解析で扱う4種類のデータ

多変量解析で扱うデータは、4種類の「尺度」と呼ばれるグループにわけて解析を試みます。種類には次のようなものがあります。

  • 量的データ:間隔尺度、比例尺度
  • 質的データ:名義尺度、順序尺度

それぞれどのようなものなのか、下図にまとめました。
多変量解析で扱うデータの種類

測定値は、このいずれかの尺度を使用して解析されます。

多変量解析の2つの目的

多変量解析の目的は「予測」と「要約」の2つがあります。それぞれの例を表にまとめています。

多変量解析の目的

まずは解析における目的を明確にしてから分析を始めましょう。

 

多変量解析の手順とは?

ここからは、実際に多変量解析をする際の具体的な手順をみていきましょう。多変量解析は、多くの要素の相互関連を分析できますが、最初から多くの要素を一度に分析するわけではありません。

下図のように、まずは単変量解析や2変量解析でデータの特徴を掴んで、それから多変量解析を実施するのが基本です。

多変量解析の手順

それぞれのステップで、具体的に何をするのか、ご紹介します。

①データ収集:対象データの選択、データクリーニングなど

まずは、解析する対象のデータを収集し、選択する必要があります。不明瞭なデータがあれば取り除くなど、データのクリーニングもこの段階で実施しておきます。

②単変量解析(1変量解析)

単変量解析の作業は、主に次の3つです。

  • 外れ値の処理
  • 異常値の処理
  • 図による分布状況確認

以下で、それぞれの作業についてご紹介します。

外れ(はずれ)値の処理

外れ値とは、多くの値が分布している「正常値とみなすことのできる範囲」からの差が大きく、「外れ」に分布してしまっている観測値のことです。

外れ値の検定には複数の方法があります。

  • 箱ひげ図を使う
  • スミルノフ=グラブス検定を使う
  • クラスター分析を使う

しかし、これらの方法で検定をしたとしても、外れ値とみなすかどうかには十分な検討が必要です。

例えば、人間の体重を例に見てみましょう。65~75kgの測定値が多い中に、一つだけ110kgの測定値があったとします。この110kgは外れ値ではなく、正常な測定値として扱うべきです。

異常値の処理

外れ値の中で、測定ミスが明らかな場合などは、異常値として処理します。

極端な例ですが、例えば、「はい」を「0」、「いいえ」を「1」と入力する調査の場合に、「3」が入力されていた場合は異常値とし、解析対象から外します。

図による分布状況確認

ヒストグラムや箱ひげ図などを用いて、視覚的に外れ値や異常値と考えられるものを見つけ、正常な値かどうか分析します。

③2変量解析

2変量解析は、その名の通り2つの変数を使って解析をします。実施する作業は、主に次の2つです。

  • 相関係数の計算
  • 図による分布状況確認

それぞれの作業を見ていきましょう。

相関係数の計算

相関係数を計算すると、各測定値の相関の度合を求めることができます。相関係数は、一般的に次の手順で算出されます。

  1. 各測定値の平均値を算出
  2. 各測定値の偏差(測定値-平均値)を算出
  3. 各測定値の分散(偏差の二乗平均)を算出
  4. 各測定値の標準偏差(分散の正の平方根)を算出
  5. 共分散(偏差の積の平均)を算出
  6. 共分散を各測定値の標準偏差で割って相関係数を得る
図による分布状況確認

クロス集計表や散布図などを用いて、視覚的に外れ値や異常値と考えられるものを見つけ、正常な値かどうか分析します。

④多変量解析

最後に、多変量解析を実施します。詳細な解析内容と手法は後述します。

 

多変量解析の分析手法は?種類を紹介!

続いて、代表的な多変量分析の手法を、「予測」「要約」それぞれの目的別にお伝えしていきます。

データを要約する場合

データを要約する場合には、次のような手法があります。

データ要約手法名 使用場面例
主成分分析 有名人のイメージ調査において、複数のイメージを2~3個のイメージ項目に要約する
因子分析 主成分分析と同様の場面で使用する
コレスポンデンス分析 自社ブランドと競合ブランドのイメージを表で視覚的に把握する
多次元尺度構成法 コレスポンデンス分析と同様の場面で使用する
クラスター分析 ユーザーの特性分類に活用して、ダイレクトメール送付の際に使用する
クラスター分析については、詳細を説明している記事がありますので、ぜひ読んでみてください。

 

データを予測する場合

データを予測する場合には、次の手法を使います。

データ予測手法名 使用場面例
判別分析 いくつかのグループが、どのような基準で分けられているのか分析する
パス解析 要素をパスで結んだパス図を用い、要素間の因果関係や相関関係を分析する
分散分析 商品AとBで高い評価をされているのはどちらか分析する。ABテストとも呼ばれる
コンジョイント分析 製品のどの属性によって評価がなされているのかを分析する
回帰分析 顧客アンケートなどで、ある項目の評価を別項目の評価から予測する

回帰分析については、詳細を説明している記事がありますので、ぜひ読んでみてください。

重回帰分析 顧客アンケートなどで、総合評価を個別の項目評価から予測する

重回帰分析については、詳細を説明している記事がありますので、ぜひ読んでみてください。

ロジスティクス回帰分析 1日の喫煙本数と1ヵ月間の飲酒日数から、がん発症との関連性を分析する

ロジスティクス回帰分析については、詳細を説明している記事がありますので、ぜひ読んでみてください。

 

多変量解析を実施する際には、場面に応じた適切な分析手法を選択することが重要です。

 

今回は、多変量解析についてお伝えしました。
この記事を参考に、まず調査の目的を明確にし、適切な解析手法を選択して分析しましょう。

 

AI・機械学習を学びたい方におすすめの講座

AIとは何かを理解し、機械学習と数学の基礎を理解

データサイエンスの一連の流れを体験!

AIの初歩「チャットボット」を自作してみよう!