仕事で2つ以上のデータの関係性、または相関性を調べなければいけない時はありませんか?例えば来客数と売上高であったり、気温とビールの売上高であったり…。
そんな時に活用すべき分析方法が「相関分析」です。相関分析を行えば2つのデータの相関の強さを求めることができます。
こちらの記事では相関分析とは何なのか、また相関分析と回帰分析との違い、エクセルでできる相関分析のやり方などを紹介します。
相関分析とは?回帰分析との違いも教えます!
はじめに相関分析とは何か、詳しく紹介します。
2つ以上の変量で一方の変量が変化した時に、他方もその変化に応じて変化する関係のことを相関関係といいます。そして、この関係を統計的に分析することを、相関分析といいます。
相関分析を行うには散布図を作成する必要があります。散布図は変数間の関係を視覚的に表現した図で、その図から相関係数を求めます。
相関係数とは2つの変数の間の類似性の高さを表す指標です。相関分析では散布図を描き、外れ値など異常値がないか確認し、相関分析の結果として相関係数が求められます。
そして、相関係数は
の式で求めることができます。
回帰分析との違い
では、相関分析と回帰分析にはどのような違いがあるのでしょうか?
相関関係や因果関係があると予測される、2つの変数の1つの変数から将来的な値を予測するための予測式のことを回帰直線といいます。そしてこの回帰直線を求めるための手法が回帰分析です。
回帰分析では関数をデータに当てはめ、1つの変数yの変動を別の変数xの変動で予測・検討することができます。回帰分析については「回帰分析(単回帰分析)をわかりやすく徹底解説!」で詳しく解説されているので、より詳しく知りたい人はぜひこちらの記事を読んでみてください。
\文字より動画で学びたいあなたへ/
Udemyで講座を探す >エクセルを用いた相関分析のやり方
続いて、エクセルを使用した相関分析の方法を紹介します。今回使用したエクセルは「Microsoft Excel for Mac」です。
はじめに相関分析をエクセル内で使用できるよう設定を変えます。ツールの項目から「Excelアドイン」を選択します。
Excelアドインを選択した後、「分析ツール」にチェックを付けてOKをクリックしてください。
すると以下のようにデータの欄の右端に「データ分析」というマークが表示されるようになります。これで相関分析を行う準備が整いました。
準備を終えたら、以下のように相関分析をしたいデータを記入します。今回は来客数と売上高のデータを使用します。
データを記入したら、先ほど確認したデータの欄にある「データ分析」をクリックし、入力範囲や出力先の設定をします。
設定をしてOKをクリックすると、以下のように指定した出力先に相関分析の結果が表示されます。
散布図の描き方
エクセルでの散布図の描き方を紹介します。はじめに「挿入」の欄にある散布図のマークをクリックし、作りたい散布図のタイプを選択します。
そして先ほど相関分析に使用したデータを当てはめると、以下のように散布図が表示されます。
散布図を描いている時に、他の値とは大きく離れている値、「外れ値」を見つけることもあります。原因が記入時のミスや、ツールの誤作動などの場合、外れ値は除去して構いません。
また、元々のデータの性質のために除去が不可能な外れ値もあります。ただし、外れ値となる明確な理由が判明している時は除去をしても問題ありません。外れ値については、「箱ひげ図の概念から作り方まで、わかりやすく解説!」でもご紹介していますので、参考にしてみてください。
相関係数の求め方
つづいてエクセルでの相関係数の求め方を詳しく紹介します。
先ほど紹介したエクセルでの相関分析を行えば、相関係数を求めることができます。以下の相関分析では、B10に書かれている「0.43077338」が来客数と売上高の相関係数です。
相関係数は-1以上、1以下の間となっていて、1に近いと正の相関が強く、-1に近いと負の相関が強いです。0に近い場合は2つのデータは相関関係が薄い、無相関であることが分かります。
相関分析を用いた事例
最後にエクセルで求めた散布図と相関係数から読み取れるデータの傾向について詳しく紹介します。
相関係数は-1から1の間で割り出され、1に近い値が出た時は正の相関が強く、-1に近い時は負の相関が強いです。こちらの記事で割り出した相関係数は「0.43077338」だったため、負の相関よりも正の相関の方が強いですが、無相関に近い値でもあります。
また、散布図は正の相関が強いとデータは右肩上がりに表示され、負の相関が強ければ右肩下がりになります。無相関だった場合、データは一貫性のない、バラバラに散らばった状態で表示されます。
相関分析を行って相関係数を求めることで、2つのデータの関わりは強いのか、それとも弱いのが分かります。また、散布図を作ることで2つのデータの大まかな関係を知ることができるのです。
関連のある可能性が高い2つのデータがあった場合、相関分析を行うことで、直感よりも確実にデータの相関の強さを調べることができます。さらに生じた外れ値を調べれば、異常値の特性や原因を特定し、さらにデータから得られる情報の精度を上げることができます。
相関分析を行う時は回帰分析との違いを明確に把握しておくことが大切です。データからどのような情報が欲しいのか、また何を予測、分析したいのかを明確にしてから、相関分析は行ってくださいね。
最新情報・キャンペーン情報発信中