ベイズ統計とは?普通の統計と何が違う?徹底解説!

ビッグデータの活用、データサイエンティストといったトレンドワードと一緒に話題にのぼる「統計」。

説得力のある提案書や会議資料の作成にも、統計の知識は欠かせません。

今回は、機械学習と相性がよく、柔軟なマーケット調査やトレンド分析などにも役立つ「ベイズ統計」を、やさしく解説していきます。

ベイズ統計とはどんなもの?基本となる考え方を解説!

確率には、客観確率(客観的確率)と主観確率(主観的確率)があります。

ベイズ統計とは、主観確率を扱う統計学です。

ベイズ統計は、データが不十分でも、”ある事態が発生する確率”を最初に設定(=事前確率を設定)した後、さらなる情報が得られる度に”ある事態が発生する確率”(=事後確率)を更新していき、本来起こるであろう事象の確率(主観確率)を導き出します。

得られたデータから確率を更新していく、この概念を、ベイズ更新といいます。

ベイズの定理

近年、ベイズ統計が更なる注目を浴びているのは、コンピュータの性能向上による機械学習、深層学習の進展もあります。

ベイズモデルはデータを追加、再学習することで自ら精度を上げていくモデルであることから、機械学習と相性が良いのです。

\文字より動画で学びたいあなたへ/

Udemyで講座を探す >

統計学の種類とベイズ統計の位置づけ

統計学は大きく分けると、ベイズ統計学、記述統計学、推計統計学、の3つに分けられます。以下、簡単に説明します。

・ベイズ統計学:標本を必ずしも必要としない、母数が確率的に動くとみなす学問
・記述統計学(古典統計学):データを集計する手法を学ぶ学問、データの特徴を表現(以下の推測統計の基礎となる)
・推計統計学:限られた標本のうち全体となる母集団の性質を推測する学問

なお、統計を扱う上で知っておきたい概念である標準偏差については、「標準偏差をエクセルで求める方法と完璧なグラフの作り方!」があります。ぜひこちらもご覧ください。

ベイズ統計と普通の統計との違いは??

統計の立場・考え方は大きく分けて2つあります。ベイズ主義(ベイズ統計)と頻度主義(一般的に扱われる統計)です。

ここでは、両者の違いについて簡単に見ていきます。

頻度主義は、母数は不変、データは変わりうる、と考え、唯一の真の値を求めます。

一方、ベイズ主義は、得られたデータは不変と考え、そこから変わりうる母数を推測していきます。

分析時に得られているデータでは〇〇ということが△△の程度言える、という主張の仕方をします。

ベイズ統計と頻度比較

ターゲットとするテーマによって両者を使い分ける人が増えていますが、両者の学者は今も対立関係にあるそうです。

なお、ベイジアンとは、ベイズ的であることやベイズ主義の人を指します。

ベイズ統計はベイズが1700年代中頃発見し、彼の死後1763年にプライスが公開、ラプラスが定式化した後は普通にデータ分析で使われていました。

しかし、1920年頃から頻度主義者のフィッシャー、ネイマン、ピアソンらが弾圧したため、1950年頃まで忘れられていました。

フィッシャーが否定したのは、ベイズ統計を”観測上の根拠が前もって存在しない場合に利用すること”であり、次ので挙げる、観測上の根拠が前もって存在するような場合への利用は否定していない。(ベイズ統計では”主観確率”の数値に根拠データを要求しない。これを悪用すれば恣意的な結果をもたらしうるとしている。)

わかりにくい方のために…例題を使ったベイズ統計の解説!

これまで解説してきた内容をより理解していただくため、検査薬の例題を用いて、ベイズ統計を解説します。

【問題】

あなたが検査薬Yで陽性の時、実際に病気Xに罹患している確率(%)を求めてください。

・病気Xには、10万人に20人の割合で罹患する。
・病気Xの罹患者に検査薬Yを投与すると、80%の確率で陽性になる。
・健康な人に検査薬Yを投与すると、95%の確率で陰性になる。

ベイズ統計の例題

この問題は、P(X|Y):Yが起こった際のXの確率 を求める問題です。

ベイズの定理では、”原因→結果”ではなく、”結果→原因”という、時間の流れが逆の、「原因の確率」を論じます。

このような事後確率を「逆確率」といいます。(今回の問題では、病気Xが原因で、検査薬Yが結果、です。)

求めたいのは、P(X1|Y1):検査薬Yで陽性(Y1)の時、実際に病気Xに罹患している(X1)確率です。

ベイズの定理の数式に当てはめて計算すると、P(θ|X)=P(θ)×{P(X|θ)/P(X)}を変形して、

P(X1|Y1)={P(Y1|X1)・P(X1)}/{P(Y1|X1)・P(X1) + P(Y1|X2)・P(X2)}

☆P(X1|Y1):事後確率 …検査薬Yで陽性、かつ病気Xに罹患している確率
☆P(Y1|X1):病気Xに罹患している人が検査薬Yで陽性になる確率
☆P(X1):病気Xに罹患している事前確率
☆P(Y1|X1)・P(X1):病気Xに罹患していない人が検査薬Yで陽性になる確率
☆P(Y1|X2)・P(X2):病気Xに罹患していない事前確率

= {0.80×0.0002}/{0.80×0.0002 + 0.05×0.9998}

= 0.003190428

≒ 0.32(%)

健康な人が検査薬Yで陽性反応が出る場合、病気Xに罹患している確率は約0.32%。つまり、あなたが病気Xに罹患している確率は約0.32%、です。

ベイズ統計の応用例

最後にまとめとして、ベイズ統計が応用されている身近なサービスをいくつかご紹介します。

◆迷惑メール判別
ユーザーがスパムとしたメール(以下、スパムメール)と、スパムではないとしたメール(以下、正常なメール)から、タイトル、本文に含まれる語句ごとの出現確率(=特徴)を抽出、点数をつけ、スパムと正常なメールを判別するための閾値を導き出します。新規メールを受信したら、そのタイトルや本文を自然言語処理(=単語に分割)し、閾値と照らし合わせ、スパムメールである確率が高ければスパムメールとして振り分けます。

◆検索エンジン
Googleやマイクロソフトの検索エンジンはベイジアンフィルタを採用して、1990年頃まで一般的だったブール型検索エンジン(if, and, or butを使うクエリで言葉を判別)の検索精度や速度を凌駕しました。

◆アプリケーション開発
インテル、マイクロソフトなどで活用されている他、LINEスタンプのレコメンドエンジンにも応用されています。

◆機械学習
機械学習はベイズ理論をベースに設計されています。マルコフ連鎖モンテカルロ法や変分ベイズ法の登場も、ベイズ理論の実用性をより高めています。
機械学習について詳しく知りたい方は、「機械学習とは?ディープラーニングとの違い&必ず知っておきたいDQNとは?」をご覧ください。

いかがでしたか?

Udemyでは、統計学や機械学習について学べる学習動画を多数、用意しています。

これを機に動画講座を活用し、理解を深めてみてはいかがですか?