1. トップ
  2. データ分析
  3. 統計学とは?入門者向けに概要をご紹介!統計学を生かせる資格も

統計学とは?入門者向けに概要をご紹介!統計学を生かせる資格も

この記事では、現代のビジネスパーソンにとって必須のスキルとも言える、統計学について概説します。また、統計学の基本的な方法論や、スキルを確認するための資格についても紹介します。

統計学とはどのような学問?

統計学は、統計について研究する学問です。統計とは、データの特徴を数値で示したものです。

データを数値で示す

また、数値に加えてグラフで表現すれば、さらに理解しやすくなるでしょう。

データをグラフで表現する

どのような方法でデータをあらわせば、特徴がより明確になるか、理解しやすくなるか、その方法を研究するのが統計学です。

統計学では、データの背後に、その発生源である「母集団」を想定し、母集団から抽出した少数の部分集合である「標本」から、母集団の特徴を確率的に考えます。その意味で、統計学は確率を扱う学問でもあります。

なお、統計学は、アプローチによって、大きく3つに分けて考えることができます。

記述統計

記述統計は、手元にあるデータの特徴を捉えるためのアプローチです。基本統計量とグラフ化が広く用いられます。

基本統計量

基本統計量は、データの特徴を数値で表現する指標の総称です。例えば、データの中心をあらわす指標として、平均や中央値が使われます。基本統計量から、データがどのような特徴を有しているか、把握できます。

Excelで基本統計量を算出する様子
Excelで基本統計量を算出する様子

グラフ化

基本統計量に加え、グラフを活用しながらデータの特徴を把握します。グラフにはさまざまな種類があるため、目的によって適切なものを選ぶ必要があります。

目的によってグラフを選ぶ

推測統計

推測統計は、標本から母集団の特徴を推定するためのアプローチです。

まず、標本の特徴から、母集団についての仮説 (モデル) を立案します。特に重要なのが、母集団の確率分布についての仮定です。ここで用いられる確率分布として、「正規分布」が広く知られています。正規分布は、下の図のように左右対称のグラフになります。

標準正規分布
標準正規分布

ベイズ統計

近年「ベイズ統計」も広く利用されています。ベイズ統計では、得られたデータから、そのデータを最も適切に表現できる母集団の確率分布を求めます。

ベイズ統計学について詳しくは、「ベイズ統計とは?普通の統計と何が違う?徹底解説!」を参照してください。

 

今、統計学が重視される背景とは?

統計学が注目される理由として、ビッグデータが容易に取得できるようになったこと、現実的な時間・コストでデータを分析し意思決定できるようになったことが挙げられます。経験に基づく判断よりも、統計学に基づいた意思決定のほうが、よい成果を得られることが増えてきたためです。

 

統計学学習のための基礎知識

統計学を理解する上では、確率をはじめとした数学の知識が求められます。その他、統計学のための基礎知識については、「統計学入門!文系でもわかる基本知識とおすすめの勉強法」も参照してください。

ここからは、統計学に必要な、母集団の値の推定、統計的検定、相関分析、回帰分析の基礎を紹介します。

統計学の学習内容①データの扱い方

はじめに、データについて、外れ値や異常値のチェック、標準化などの加工を行い、分析しやすいデータ、精度が出やすいデータにします。

また、データを並び替えたり、グループ化したりするなどして、データの特徴、パターンや関係性を観察しましょう。

統計学の学習内容②ばらつきや傾向を示す分散や標準偏差

データの特徴のうち、ばらつき (分布) は、ヒストグラムを使って表現できます。

ばらつき (分布) をヒストグラムを使って表現

また、基本統計量として、「分散」や「標準偏差」が使われます。分散の計算式は以下の通りです。

分散の計算式

データが平均から大きくばらついているほど、分散の値も大きくなります。なお、実用上は分散の平方根を取った標準偏差が使われます。

標準偏差

統計学の学習内容③推定と検定

標本から母集団の特性を考察する方法として、「推定」と「統計的検定」があります。

推定は、標本から母集団の統計量 (母数) を求めることです。標本には抽出のたびに誤差が含まれるので、標準誤差を用いて、ばらつきの大きさを評価します。標準誤差は、以下の式で求めることができます。

標準誤差

標準誤差が小さいほど、標本の平均と母数は近い値である、と言えます。また、母数の推定結果を区間としてあらわすこともあり、これを「区間推定」といいます。区間推定の場合、「日本人の平均身長 (母数) は、169.5cmから170.7cmの間にある」といったように表現します。

統計的検定は、データについて、仮説が当てはまるかどうかを検証することです。以下のようなプロセスを踏んで行います。

  1. 帰無仮説 (否定したい仮説) と対立仮説 (実現して欲しい仮説) を設定する
  2. 有意水準 (帰無仮説を否定する基準) を設定する。一般的に5%とする
  3. 帰無仮説のもとで検定統計量 (帰無仮説が成立する確率) を計算する
  4. 検定統計量と有意水準を比較する
  5. 統計量が有意水準より小さい場合、帰無仮説を棄却 (否定) し、対立仮説を採択する
  6. 統計量が有意水準より大きい場合、帰無仮説は棄却できない
ビジネス施策の効果を検証

このようなプロセスを経て、例えば新しいビジネス施策の効果があったと言えるかどうか、といった検証ができます。

統計学の学習内容④相関分析と回帰分析

相関分析は、データ間の関係性を、散布図や相関係数といった指標で検討します。

散布図
散布図

散布図で、xが大きくなるとyも大きくなる、といった関係を「正の相関」、xが大きくなるとyは小さくなる、という関係を「負の相関」、xとyの間に関係がなさそうな場合を「無相関」といいます。また、相関係数はプラス1に近いほど正の相関が強い、マイナス1に近いほど負の相関が強いことを示す指標です。相関係数は、以下に示す式で求められる、共分散という指標から求めます。

共分散という指標

x が y の原因である、という因果関係を検証するのが「回帰分析」です。回帰分析は以下のようなステップで行います。

  1. 目的変数 (結果) y と説明変数 (原因) x を設定し、仮説を立てる
  2. y と x の間にどのような関係性 (線形、非線形、誤差の分布など) を仮定するか決定する
  3. 回帰分析を実行し、結果の評価指標を確認し、モデルの精度を考察する
  4. 良いモデルができれば、それを使って予測を行う

回帰分析を行うことで、まだ発生していない未来のデータを予測することができます。

 

統計学を生かした資格3選

ここでは、統計学の知識やスキルと関連する3つの資格を紹介します。

統計検定

統計検定は、 (財) 統計質保証推進協会が実施する「統計に関する知識や活用力を評価する全国統一試験」です。文科省をはじめとした各省庁も後援しており、ビジネスにおいても保有する価値のある資格です。

OSS-DB技術者認定資格

OSS-DB技術者認定資格は、NPO法人エルピーアイジャパンが実施する「オープンソースデータベースのスペシャリストを認定する資格」です。データベースについてのスキルを証明したい場合に有用な資格です。

基本情報技術者試験 / 応用情報技術者試験

独立行政法人情報処理推進機構 (IPA) が実施する情報処理技術者試験でも、応用数学の項目として統計学と関係の深い領域が出題されます。

その他の資格や試験についての紹介は、「【データサイエンス入門】必要なスキルや資格は?」を参照してください。

 

この記事では、現代のビジネスパーソンにとって必須のスキルとも言える、統計学について概要を紹介しました。統計学についてさらに学習を進めたい方には、Udemyの豊富なコンテンツがおすすめです。ぜひ、自分の興味関心とマッチするコースを探し、スキルアップに取り組みましょう!

 

AI・機械学習・データサイエンスを基礎から学ぶ

初心者向けの人工知能と機械学習

みんなのAI講座 ゼロからPythonで学ぶ人工知能と機械学習 【2020年最新版】
みんなのAI講座 ゼロからPythonで学ぶ人工知能と機械学習 【2020年最新版】

Pythonを使って、機械学習とプログラミングの基礎、必要な数学を勉強しましょう!

機械学習がよくわかる

【キカガク流】人工知能・機械学習 脱ブラックボックス講座 - 初級編 -
【キカガク流】人工知能・機械学習 脱ブラックボックス講座 - 初級編 -

機械学習の考え方、微分、単回帰分析まで一気通貫で解説します。

データサイエンスを深堀り

【世界で34万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜
【世界で34万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜

データサイエンティストになるために必要な一連のツールについて学べる!

ディープラーニングを理解!

【Hands Onで学ぶ】PyTorchによる深層学習入門
【Hands Onで学ぶ】PyTorchによる深層学習入門

機械学習・深層学習の復習やPyTorchのライブラリの基本的な使い方など基礎的な内容から段階的にステップアップ