【 機械学習を体験!】人気オンライン講師が教える初学者でもわかるPythonプログラミング

開発

2017/06/01

開発

2016年あたりから、データサイエンスやAIが脚光を浴びています。中には人間の仕事がAIに取って代わられるのではないかという脅威論まで出てきています。しかし、2017年現在の人工知能は万能ではありません。

今回はPythonの機械学習ライブラリ(Scikit Learn)を使って、ボストン郊外の住宅価格データを分析するチャレンジしてみたいと思います。

機械学習とPython

みなさんが普段仕事で使用するExcelは数万行くらいのデータまではスムーズに扱えます。しかしウェブサイトのアクセスログなどより大きなサイズのデータを扱うとPCがフリーズしてしまいます。そこで、多くの企業ではリレーショナルデータベース(RDBMS)やHadoop(より大きなサイズのデータを扱えるデータベースシステム)などが使われています。

こうしたデータベースからデータを取り出したり、売り上げデータを分析して、商品開発をしたりするのに、SQL(データベース問合せ言語)やPythonなどのプログラミングツールを使うと、データサイズが大きくなっても高速にデータを集計したり、スムーズに分析が行えます。さらにPythonを使用することでウェブシステムと連携したり、データを機械に分析(学習)させたりして、お勧め商品を提示するリコメンデーションなどが実現できます。

一度体験しておくと恐怖感も減らせますので、ぜひこの機会に動画も参照しながらトライしてみましょう。

 %e2%91%a0

Pythonの公式サイト

Pythonの実行環境をインストールしよう

Pythonはプログラミング言語の1つで、無料で入手・使用が可能です。今回は、Pythonにデータサイエンス用のパッケージを同梱したAnacondaというパッケージを導入し、線形回帰問題を解いてみます。

%e2%91%a1

Anacondaの配布サイト

このサイトからあなたの環境にあったインストーラーをダウンロードし、インストールを実行しましょう。Windowsの場合は32ビット版と64ビット版があるので注意しましょう。macOSでは64ビット版を使用します。インストールを終えたら、Anaconda Navigatorを起動してメニューが出ることを確認しておきましょう。

Housing データセットについて

Housingデータセットは統計解析の授業などでよく使用される題材で、1978年にD.HarissonD.L. Rubinfeldによって収集され、UCI(カリフォルニア大学アーバイン校)Machine Learning Repositoryで公開され、ダウンロードできます。今回はプログラムの中からダウンロードして、プログラムに読み込んで使用します。

%e2%91%a2

UCI Housing Datasetのダウンロードページ

%e2%91%a3

データセットを配布しているページ(housing.data

データセットに含まれる値は以下のようになっています。1行に1件のデータが入っています。

  • CRIM 犯罪発生率
  • ZN 25,000平方フィート以上(広い)区画の割合
  • INDUS 非商店用土地の割合
  • CHAS チャールズ川沿いかどうか
  • NOX 空気汚染度(窒素酸化物の割合)
  • RM 1戸の平均部屋数
  • AGE 古い(1940以前)建物の割合
  • DIS オフィス街への距離
  • RAD 環状道路へのアクセスしやすさ
  • TAX 10,000あたりの所得税率
  • PTRATIO:教師あたりの生徒数(少ない方がベター)
  • B (Bk – 0.63)^2 Bkはアフリカンアメリカンの割合
  • LSTAT 低額所得者の割合
  • MEDV 住宅価格の中央値(単位1000ドル)

 

今回はこの中でMEDV(住宅価格)を部屋数などの値から推測するプログラムを書いてみます。

%e2%91%a4

データセット(ファイル)を開いたところ

Jupyter Notebookで回帰分析を実行してみよう(わかりやすい動画解説付!)

Anaconda Navigatorを起動したら、Jupyter Notebookを起動しましょう。そして、ビデオで紹介されているコードを入力し、1行ごとにShift + Enterを押して実行していきます。

 データの読み込みと確認

 

 

線形回帰(最小二乗法)の実行

 

結果のグラフ表示

 

いかがだったでしょうか?予想外に少ないプログラムで2つの変数の関係を分析できました。部屋数のところを変更すると、さまざまな変数と住宅価格の関係性を分析できます。また、売り上げデータやアクセスログなどを対象にすれば、みなさんが担当しているプロダクトやサービスの売れ筋を分析したり、今後の予測や商品開発に役立てることができるようになります。

Pythonにはこうした統計解析に役立つライブラリが多数あり、基礎的な統計解析から、最先端のディープラーニングまで学ぶことができます。

あなたも動画の手順を参考にしながら、ビジネスにも活かせるデータサイエンスや人工知能の基礎を学んでみませんか?

 

%e5%9b%b33

目的別!最先端ITスキル講座

基礎的なパソコン操作の知識があればOK!

最新!iOS12アプリ開発講座

日本を代表するデータサイエンティスト辻真吾氏による人気講座

初級者から学べる人工知能講座の決定版

Udemy秋の大セール
  • シェア
  • ツイート
  • Poket
  • はてなブックマーク
  • フォロー
  • シェア
  • ツイート
  • Poket
  • はてなブックマーク
  • フォロー

関連記事