ビジネスでもさらに役立つ!重回帰分析についてわかりやすく解説!

AI・機械学習

2018/04/25

AI・機械学習

IT技術の発展により、企業は多くのデータを収集できるようになりました。ビッグデータと呼ばれるこの膨大なデータの集合体は、あらゆる企業でその有用性が模索されています。

このように集まった、一見、なんの関連性もないデータから、有益な情報を得るために使用されるのが「回帰分析」です。

今回は、回帰分析の手法の中から「重回帰分析」をご紹介します。計算自体は、エクセルなどの分析ツールで簡単にできますが、仕組みを知っておくことで応用しやすくなるはずです。

重回帰分析をやる前に、回帰分析について復習!

重回帰分析は、回帰分析のひとつであり「単回帰分析」の発展形です。重回帰分析へと話題を進める前に、まずは単回帰分析についておさらいしてみましょう。

単回帰分析では、目的変数yの変動をp個の説明変数x1x2x3……xpの変動で予測・分析します。単回帰分析で用いられる説明変数は、xひとつです。y=ax+bの回帰式にあてはめ、目的変数yを予測します。

回帰分析

単回帰分析においては、資料から2変数のデータを抽出した散布図から、回帰式を決定するのが一般的です。回帰式の目的変数と実測値との誤差が最少になるような係数abを算出していきます。その際、最小二乗法の公式を用いると、算出が容易です。

この場合、回帰式をグラフにすると、xが増加した場合のyの値が予測できます。ただし、実際のデータ分析の現場では多くの場合、ひとつ説明変数だけでは十分ではありません。そのため、単回帰分析が利用できるシチュエーションはそれほど多くないのが事実です。

詳しくは回帰分析(単回帰分析)をわかりやすく徹底解説!の記事をご確認ください。

 

重回帰分析とはどんなもの?単回帰分析との違いは??

単回帰分析は上述したとおり、説明変数がひとつの回帰分析です。一方、重回帰分析は説明変数が2つ以上の回帰分析と定義できます。

「変数同士の相関関係から変動を予測する」という基本的な部分は単回帰分析と同じですが、単回帰分析に比べて柔軟に適応できるため、実際の分析では広く活用されています。

しかし、その便利さのかわりに、重回帰分析では考えなければならないことも増えます。計算も単回帰分析よりかなり複雑です。説明変数の数が増すほど、複雑さを極めていくという課題があります。

ただし、実際の活用現場では方法が確立されており、深い理解が求められることはありません。エクセルやその他の分析ツールを用いれば計算も容易なので、仕組みを理解しておくと良いでしょう。

 

重回帰分析のやり方を紹介!

重回帰分析の基本的な概要についてはご説明しました。ここからは重回帰分析の具体的なやり方についてお話しましょう。簡単な流れと、実際の分析業務で使える、一般的なエクセルを使った方法について解説します。

重回帰分析の流れ〜例を用いて紹介〜

実際に重回帰分析を行う際は、以下のような3つのステップをたどります。

①分析したいデータに関し、相関関係があると考えられる目的変数と説明変数を抽出します。重回帰分析ではひとつの目的変数と複数の説明変数の関係を分析できます。以下は目的変数と説明変数の例です。

1
目的変数:商品売上数
説明変数:宣伝費、生産数、リリースからの経過日数

2
目的変数:体重
説明変数:身長、腹囲、胸囲

②y=a+b1x1+b2x2+b3x3……といった回帰式を仮定します。各係数は最小二乗法により算出されます。

③重回帰分析の回帰式は3次元、あるいはさらに多くの次元の「超平面」になるため、単回帰分析のように図形での視覚的理解が困難です。そのため、あくまで参集した値をもとに分析を行うのが一般的です。

実際のデータと回帰式の結果から、回帰式の妥当性を示す「決定係数」が求められます。

また、「残差(観測値から推定値を引いたものとして算出)」や「てこ比(サンプルごとに説明変数のデータを変えずに目的変数yの値を1だけ変えたときの予測値の変化量)」で妥当性を調べることもできます。

 

重回帰分析をエクセルでやってみよう!

表計算ソフトのエクセルを用いると、重回帰分析を簡単に実施できます。上述した例2のケースをもとに、具体的な手順をご説明しましょう。

①表に各データを入力

標本となるデータを表に入力します。

標本となるデータを表にする

②「データ分析」を選択

「データ」タブから「データ分析」を選択します(「データ分析」が見つからない場合は、アドオンで追加する必要があります)。

データ分析を選択

③「回帰分析」を選択

回帰分析を選択

表示させるウィンドウから「回帰分析」を選択します。

④変数を指定

変数xに体重を、変数yに身長・腹囲・胸囲を指定します。それぞれ範囲選択で指定可能です。指定後、「OK」をクリックします。

変数を指定

⑤算出結果を確認

エクセルの別シートに重回帰分析の結果が出力されます。

算出結果

とりわけ注目すべきなのは以下の数値です。

重相関R:「重相関係数」とも呼ばれます。1に近ければ近いほど、近似され信頼できるモデルであることを意味します。

重決定R2:重相関を2乗した値です。「決定係数」とも呼ばれます。1に近いほど説明変数で説明できる割合が多いことも意味します。

補正R2:データの標本数が少ない場合は、自由度の影響により実際の大きさよりも大きいR2が算出されることがあります。補正R2は自由度を考慮し、補正した実用的な決定係数です。

係数:相関式における係数です。係数が大きいほど、各変数の影響力が大きいことを示します。

エクセルを活用すれば、複雑な計算をすることなく、重回帰分析を行うことができます。上記の注目すべき値を参考に、実務に活用してみてください。

重回帰分析のメリットデメリットとは?

続いて、重回帰分析の具体的なメリットとデメリットについてご紹介します。

メリット

・単回帰分析のメリットである「数字で確認できる統計的な予測、根拠ある推論が可能になる点」は、重回帰分析においてもメリットとなる。

・単回帰分析と同じように、まだデータが得られていない時点についても予測が可能。

・重回帰分析では複数の変数を取り扱うため、単回帰分析よりも実用的な分析が可能。

・各変数の係数からは、変数の効果量が判断できる。

デメリット

・実際には把握している変数以外にも「剰余変数」がデータに影響を与えている可能性がある。必要に応じて「統制」が必要。

・概念や計算処理が複雑なため、理解が困難(処理についてはエクセルなどのツールを用いることで容易になる)。

・変数同士に相関関係がある場合、「多重共線性(マルチコ)」に陥る危険がある。

 

重回帰分析を活かそう!重回帰分析の活用法

重回帰分析は非常に汎用性が高い処理であり、ビジネス・マーケティングのさまざまな分野で活用されています。最後に、重回帰分析が活用されているシーンを具体的にご紹介しましょう。

寿命予測

アメリカでは重回帰分析を利用して、特定地域の寿命予測が行われた例があります。この場合の目的変数は寿命であり、説明変数には人口・収入・殺人率・面積などが選ばれました。

マーケティング

重回帰分析は店鋪の売上を予測するためにも用いられます。予測に用いる要素としては、接客、品揃え、面積などが選ばれます。接客や品揃えなど単純な数値化ができない要素に関しては、調査によるスコアリングを行うのも一般的です。

営業予測

重回帰分析を用いると数値的な根拠に基づいて営業予測を立てることができます。営業訪問回数、値引率など、営業スタイルに応じて戦略を数値化し、取引額を目的変数に設定すれば、戦略が変化した場合の結果を予測可能です。また、係数からは各戦略の効果が数値で確認できます。

 

重回帰分析の計算自体はエクセルを使用すること簡単にできますが、実際にビジネスシーンで応用するためには背景の理解が必要です。

一方で、回帰分析の中でも重回帰分析は、複数の変数で回帰式が構成されているため、より実用的な推測ができますので、覚えておいて損はありません。

 

Udemyでは、今回ご紹介した重回帰分析をはじめ、統計についてわかりやすく学べるオンライン学習動画を用意しています。

統計に関する理解を深めていく際に、ぜひお役立てください。

AI・機械学習を学びたい方におすすめの講座

AIとは何かを理解し、機械学習と数学の基礎を理解

分類・パターン認識からSVM、交差検証や過学習など機械学習に必要なあらゆるスキルが身に付く!

TensorFlowの環境構築から学べる、ディープラーニングの学習におすすめの講座

  • シェア
  • ツイート
  • Poket
  • はてなブックマーク
  • フォロー
  • シェア
  • ツイート
  • Poket
  • はてなブックマーク
  • フォロー

関連記事