統計の中でも最重要分野のひとつ、t検定について徹底解説!

AI・機械学習

2018/04/21

AI・機械学習

統計学の中でも、活用の幅が広い仮説検定。その中でも「t検定」はとりわけ汎用性が高く、最初に学習することも多い検定です。

同時に仮説検定は理解が難しく、脱落してしまう方も少なくありません。

こちらでは、t検定の概要や手順、応用されている現場についてご紹介します。

そもそもt検定とは?

「t検定」というワードをはじめて耳にする方も多いかもしれません。まずは、t検定が用いられる仮説検定の概要や、t検定に関する初歩的な知識について知っておきましょう。

t検定の前に仮説検定について知ろう

t検定について知るためには「仮説検定」への知識が不可欠です。

「仮説検定」とは、ある仮説について正否を判断する方法です。正否の根拠としては、確率が用いられます。

仮説

数学的には100%の確率で成立しなければ正として認められない仮説も、統計学的仮説検定であれば「おおよそ認められる」と言えるような確率を根拠とすることで「正しい」と認められます。

t検定とはどんなもの?

t検定とは、上述した仮説検定で用いられる方法のひとつ。「t分布」を使った検定は「t検定」と総称されています。

t分布は「最も一般的な分布」である「正規分布」の母集団に関して、データの散らばり方「母分散」がわからない場合に用いられます。母分散がわかれば母集団の平均である「母平均」もわかるため、大量の要素で構成された標本のデータを分析するために頻繁に用いられる分布です。

なぜt検定を用いるの?注意点も合わせてチェック!

仮説検定には多くの方法がありますが、t検定は母集団の分散が未知の場合に用いられる方法です。実際の現場では、母集団の分散があらかじめわかっているケースは多くありません。そのため、t検定は多くの現場で重宝されています。

また、t検定は少ないサンプルで大きな母集団の分散を算出できるのもメリットです。そのため、母集団に対して少ないサンプルしか集められない場合にも、t検定が利用されます。サンプルの数が十分大きい場合は他の「z検定」など、ほかの検定のほうが有用です。

 

t検定の方法・手順を紹介!

続いて、t検定を用いた仮説検定の方法をご紹介しましょう。概念だけで手順を理解するのは困難なため、以下のようなケースを想定します。

“内容量50gの缶詰を生産している。10個の缶詰をサンプルに、「平均50g」とみなしてよいのか確認したい。”

 

1.「帰無仮説」を立てる

仮説検定では「知りたい事実と反対の主張」を「帰無仮説:H0」として設定します。上述した例の場合、「平均=50g」が帰無仮説です。帰無仮説に対する「対立仮説:H1」はこの場合、「平均≠50g」です。

 

2.「有意水準」を設定する

帰無仮説を棄却する判断基準となる確率として「有意水準」を設定します。有意水準に決まりはありませんが、0.05(5%)を用いるのが一般的です。

 

3.t値を算出

「比較するデータに意味がある差があるかどうか」を示す値「t値」を算出します。上述した例の場合、缶詰内容量の平均値と50gとの差で考えます。t値は((サンプルとして測定した缶詰内容量の平均値)-50)/(標準誤差)で求められます。

 

4.p値を算出

t値が算出されると、「得られたデータの希少性」を示す「p値」が定まります。「t分布表」を用いると算出できますが、統計ソフトを使うのが一般的です。

 

5.p値と有意水準を比較

算出されたp値と事前に決めておいた有意水準を比較します。有意水準はデータの希少性を判断する基準のため、有意水準よりp値が小さければそのデータは極めて起こりづらいと言えます。

 

6.帰無仮説を棄却

以上の手順により、「平均=50g」という帰無仮説を棄却できます。帰無仮説は「示した事象と反対の事実」なので、帰無仮説が棄却できれば示したい結果が示せたことを意味します。

ここまでの一連の流れを「t検定」と言います。

 

実世界では大活躍!?t検定の実用例を紹介!

母集団に対して、少ないサンプルの数で仮説の正否を検証できるt検定は、さまざまなフィールドで活用されています。

各値の算出自体を手計算で行うのは困難ですが、エクセルや分析ツールにより、深い理解が伴っていなくても利用できるのもメリットです。最後に、多くのt検定を利用している現場の中から一例をご紹介しましょう。

工場の品質管理

工業製品の品質管理は、t検定が用いられる代表的な現場です。上述したように製品ごとのバラつきを調べることもできますが、工程改善後の生産性を検定し、改善が本当に効果的だったのかを調べることもできます。

工場 品質調査

新薬の効果判定

治験で得られるデータをもとに、t検定で新薬の効果を判定することもできます。この場合、「新薬を使用しても被験者の身体には影響はない」という事象が帰無仮説です。

新薬

アンケート分析(マーケティング)

顧客の生の声を捉えるために行われるアンケートですが、そのデータには多くの場合誤差が含まれています。「単純な誤差なのか、あるいは意味のある差なのか」を検証するためには、仮説検定、およびt検定が有効です。

 

母集団の分散が不明でも使えるt検定は非常に汎用性の高い検定です。

理解するには根気が入りますが、一度身につけてしまえばさまざまなシーンで応用できます。

Udemyでは、「統計について学べる学習動画」を用意しております。

t検定をはじめとする統計学の理解のためにお役立てください。

AI・機械学習を学びたい方におすすめの講座

AIとは何かを理解し、機械学習と数学の基礎を理解

データサイエンスの一連の流れを体験!

TensorFlowの環境構築から学べる、ディープラーニングの学習におすすめの講座

  • シェア
  • ツイート
  • Poket
  • はてなブックマーク
  • フォロー
  • シェア
  • ツイート
  • Poket
  • はてなブックマーク
  • フォロー

関連記事