PythonでWebスクレイピングする方法をライブラリ別に解説

Pythonを使ったWebスクレイピングに取り組みたいものの、

・コードの書き方が分からない…。
・スクレイピングに役立つライブラリが知りたい…。

という方も多いのではないでしょうか。そこでこの記事では、

・Pythonのライブラリを使用したWebスクレイピングの方法
・PythonでWebスクレイピングを行う際の注意点

について、サンプルコードを交えながら解説します。

Webスクレイピングが初めての方でも、この記事を読めばPythonでデータやタイトル、見出しなどを取得する方法がわかります。

公開日：2024年5月27日

＼文字より動画で学びたいあなたへ／

Udemyで講座を探す＞

INDEX

PythonでできるWebスクレイピングとは？
Webスクレイピングを行う際の注意点
Webスクレイピングに利用できるライブラリ
データを取得するためのスクレイピング【Requests】
タイトルや見出しを取得するためのスクレイピング【BeautifulSoup】
Javaで作られたコンテンツを取得するためのスクレイピング【Selenium】
Webスクレイピングを活用して情報解析に役立てよう

PythonでできるWebスクレイピングとは？

Webスクレイピングとは、WebサイトからWebページのHTMLデータを取得し、見出しや写真といった特定のデータを抽出するコンピューターソフトウェア技術のことです。Webスクレイピングによって得られた情報は、不要な部分の削除といった加工が自動的に行われます。そのため、人の手でデータを収集する際にかかる時間を大幅に削減できます。

このWebスクレイピングを行うプログラムのことを「スクレイパ」と言います。なお、Webスクレイピングの作業を始める前に、対象のサイトを「クローリング」する必要があります。クローリングとは、WebサイトからHTMLなどの情報を取得する技術で、クローリングを行うプログラムのことを「クローラー」といいます。

Webスクレイピングは、「スクレイパ」と「クローラー」によって構成されています。

スクレイピングの基本的な流れ

Webスクレイピングを行う時の基本的な手順は以下の通りです。

1.クローリングをして対象のWebページの内部情報を取得する
↓
2.取得したWebページを解析し、スクレイピングをして特定のデータを検索・抽出する
↓
3.スクレイピングして抽出したデータを整形し保存（もしくは表示する）

上記の一連の作業を行うために、Webスクレイピングのライブラリやフレームワークを使用することが多いです。

＼文字より動画で学びたいあなたへ／

Udemyで講座を探す＞

Webスクレイピングを行う際の注意点

スクレイピングで特定のデータを抽出する際、自分の管理元にないWebサイトの情報を抽出すると、違法行為になる可能性があります。

違法行為をしてしまうことを未然に防ぐために、注意点がいくつかあります。以下の点に留意して、行いましょう。

Webサイトの利用規約・著作権を事前に確認する

スクレイピングを行うWebサイトの利用規約、著作権を事前に確認しましょう。

Webサイトの中にはページ内の情報の抜き出しを禁止しているものもあります。そのため、抽出した情報を使用する時、著作権法に違反していないか確認しましょう。

robots.txtの指示を守っているのか確認する

robots.txtの指示を守っているかどうかも、Webスクレイピングを行う際に注意するべきポイントです。

robots.txtは検索エンジンのクローラー（ロボット）からWebページへのアクセスを制限するためのファイルです。robots.txtにはアクセスしても良いページ、してはいけないページなどの記述があるので、該当のページのスクレイピングが許可されているか確認しましょう。

アクセスの間隔を空けて負荷を抑える

Webスクレイピングの目的でサーバーにアクセスをする時は、最低1秒以上間隔をあけて、Webサーバーに負荷をかけないようにしてください。

Webサーバーに負荷がかかると、他の閲覧者がサイトを見られなくなったりサーバーが落ちてしまったりします。トラブルの原因とならないよう、Webサーバーへの負荷は極力避けましょう。

スクレイピングに使うプログラムに連絡先を明記する

クローリングをするためのプログラム、クローラーを開発する時は、コード内に連絡先を明示しておくのがおすすめです。

明示しておくことで、問題が起きた時サーバー管理者とスムーズに連絡を取ることができます。連絡先は、クローラーのUser-agentヘッダーにURLやメールアドレスを書きましょう。

Webスクレイピングに利用できるライブラリ

PythonにはWebスクレイピングに適したライブラリが複数用意されています。よく利用されるライブラリは、「Requests」、「Beautiful Soup」、「Selenium」の3つです。

ライブラリによって、出来ることや特徴が異なります。

ライブラリ	Webページ取得	データ抽出	特徴
Requests	〇	×	Webページを取得する。シンプルで人が直感的に分かりやすいプログラムを記述できる。
Beautiful Soup	×	〇	取得したWebページの情報（HTML）をパースする。
Selenium	〇	〇	Webページ取得と、データ抽出の両方が利用できる。 JavaScriptが使用されたサイトやログインにも使用できる。動作が遅いのがデメリット。

以下では、それぞれのライブラリについて詳しく解説します。

データを取得するためのスクレイピング【Requests】

Requestsは、Webサイトからデータを取得する機能を持ったライブラリです。ここでは、Webスクレイピングを行うために、Requestsを用いてHTMLデータを取得する処理を、ソースコードも交えて解説していきます。

ライブラリを利用するには、まずインストールが必要です。
Python3系バージョンのRequestsをインストールする時は、以下のコマンドを実行しましょう。

$pip3 install requests

1	$pip3 install requests

Requestsのメソッドを解説

ライブラリの機能を実行するために、メソッドを利用します。

Requestsで主に利用するメソッドは次の通りです。

メソッド	処理内容
get()	サーバーから情報を取得する
post()	サーバーへ情報を登録する
put()	サーバーの情報を更新する
delete()	サーバーの情報を削除する

それぞれのメソッドの使い方を詳しく見ていきましょう。

・get()

記述方法は

r= requests.get(URL, ＜オプション＞)

1	r= requests.get(URL, ＜オプション＞)

です。

引数のURLは必須で、<オプション>には任意で値を設定します。

引数	説明
URL	読み込み対象のURL

続いて、<オプション>で利用される引数をいくつか紹介します。

引数	説明
headers	辞書を設定することで、ヘッダーとして送信する内容を書き換える
timeout	リクエストのタイムアウトを指定する
files	バイナリータイプのデータを送信する

・post()

記述方法は

r= requests.post(URL, ＜送信データ＞)

1	r= requests.post(URL, ＜送信データ＞)

です。

URLに対して、送信データを送ることができます。

送信データにはファイルを指定したり、JSONと呼ばれる形式で記述されたデータ列を指定したりすることができます。

・put()

記述方法は

r= requests.put(URL, ＜更新データ＞)

1	r= requests.put(URL, ＜更新データ＞)

です。

postと同様にリクエストできます。

・delete()

記述方法は

r= requests.post(URL, ＜送信データ＞)

1	r= requests.post(URL, ＜送信データ＞)

です。
postと同様にリクエストし、指定のデータを削除できます。

Webページのデータを取得しよう

それでは実際に、Webページのデータを取得してみましょう。

　
importimport requests

url = "https://example.com"
　　　　　　　　　　　　　　　　　
r= requests.get(url)

importimport requests

url = "https://example.com"

r= requests.get(url)

上記を実行すると、response変数に、指定したURLのWebページ情報が取得できます。

Webページ情報が取得できたら、print()を利用して特定の情報を見ることができます。例えば、ヘッダー情報を取得したい時は

print(r.headers)

1	print(r.headers)

を、ボディ内の情報を取得したいなら

print(r.content)

1	print(r.content)

を実行することで、情報を見ることができます。

タイトルや見出しを取得するためのスクレイピング【BeautifulSoup】

BeautifulSoupは、取得したHTMLデータを解析できるライブラリです。BeautifulSoup自体には、サーバーと情報をやり取りする機能はありません。そのため、まずはRequestsでHTMLデータを取得した上で、BeautifulSoupを使ってページのタイトルや見出しなどの情報を抽出します。

Python3系バージョンの Beautiful Soupをインストールする時は、以下のコマンドを実行しましょう。

$ pip3 install beautifulsoup4

1	$ pip3 install beautifulsoup4

BeautifulSoupのメソッドを解説

BeautifulSoupでHTML要素を取得するには、「find系」（find(), find_all()）と「select系」（select_one(), select()）のメソッドを使用します。

find系も、select系もHTMLの内容を検索し、条件に合う要素を返すという事は同じですが、条件の指定方法が異なります。

find系は、引数にHTMLの属性と属性値を指定します。一方、select系はCSSセレクタと呼ばれる、「何をどの値にするか」を設定した要素（セレクタ）を指定します。どちらを使うかは好みで良いでしょう。

また、メソッドに_allや_oneが付くことで、全ての要素を返すのか、１つだけの要素を返すのかが異なります。

処理速度を気にする場合は、全ての要素だと遅くなるため、１つだけの要素を返すメソッドを使うのがおすすめです。

これらを表で整理すると下記のようになります。

タイプ	全ての要素をリストで返す	1つの要素だけ返す	検索条件
find系	find_all()	find()	属性、属性値
select系	select()	select_one	CSSセレクタ

WebページのタイトルやURLを取得しよう

それでは実際に、RequestsでWebページを取得し、BeautifulSoupでタイトルやURLを取得してみましょう。
先に、ソースコードと実行結果です。

　
import requests
from bs4 import BeautifulSoup

url = "https://example.com"

r = requests.get(url)

soup = BeautifulSoup(r.content, "html.parser")

print(soup.select("h1"))

print(soup.select("p"))

import requests

from bs4 import BeautifulSoup

url = "https://example.com"

r = requests.get(url)

soup = BeautifulSoup(r.content, "html.parser")

print(soup.select("h1"))

print(soup.select("p"))

上記コードを実行すると、

 　
[<h1>Example Domain</h1>]
[<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>, <p><a href="https://www.iana.org/domains/example">More information...</a></p>]

[<h1>Example Domain</h1>]

[<p>This domain is for use in illustrative examples in documents. You may use this

domain in literature without prior coordination or asking for permission.</p>, <p><a href="https://www.iana.org/domains/example">More information...</a></p>]

のように出力されます。
ソースコードについて解説していきます。

import requests
from bs4 import BeautifulSoup

1 2	import requests from bs4 import BeautifulSoup

ここで、BeautifulSoupを使用するためにモジュールを読み込みます。

　
url = "https://example.com"

r = requests.get(url)

soup = BeautifulSoup(r.content, "html.parser")

url = "https://example.com"

r = requests.get(url)

soup = BeautifulSoup(r.content, "html.parser")

Requestsを使用し、「https://example.com」のWebページの情報を取得します。

その後、BeautifulSoupの関数を呼び出し、Webページのコンテンツの内容を分析しています。

第2引数で設定されている”html.parser”は分析を行う時に使用するパーサー（解析器）を指定しています。html.parserはPythonの標準ライブラリに入っており、ライブラリの追加が不要です。

この時点で、soupには、Webページのコンテンツの全てが入っています。

　
print(soup.select("h1"))

print(soup.select("p"))

print(soup.select("h1"))

print(soup.select("p"))

で、selectメソッドを使用し、条件に合うデータを出力しています。今回は、Webページの、「<h1>」と「<p>」を指定しています。

Chromeブラウザであれば、「F12」を押下することで、下記のようにWebページの情報を参照できますので、取得したいデータ情報を簡単に得ることができます。（左側がWebページで、右側がWebページのHTML構造）

Javaで作られたコンテンツを取得するためのスクレイピング【Selenium】

Seleniumとは、Webアプリケーションのテストを自動化するための複数の機能が備わったフレームワークです。その中の1つである「Selenium WebDriver」を使うと、プログラミング言語を通じてブラウザを自動的に操作できます。

また、SeleniumではJavaScriptで動的に生成されるコンテンツも扱うことが可能です。そのため、静的なHTMLだけでなく、動的なWebページをスクレイピングしたい場合に適しています。

Seleniumを用いたWebスクレイピングを行いたい方は、「Selenium WebDriverとは？インストール方法から使い方まで解説」を参考にしてください。

Webスクレイピングを活用して情報解析に役立てよう

今回の記事では、Pythonを使ってWebスクレイピングする方法を紹介しました。

RequestsとBeautifulSoupのライブラリを使用することで、簡単な記述でWebページから情報を取得し、データを解析・抽出することができます。また、Javaなどで作られた動的なページをスクレイピングしたい場合は、Seleniumが便利です。

PythonによるWebスクレイピングさらに詳しく学びたい方には以下の講座がおすすめです。

Udemyおすすめ講座

Pythonによるビジネスに役立つWebスクレイピング（BeautifulSoup・Selenium・Requests）

★4.2（1,132 件の評価）

10,902 人の受験生

作成者: 清水義孝(データサイエンス、Python、スクレイピング、データ分析、BIツール)

Python3のスクレイピング用ライブラリ BeautifulSoup・Selenium を用いて、世界中のWebサイトからデータを取得します。効率的にデータを収集・活用することで、業務効率化・自動化に貢献するスキルを身に付けましょう！

＼無料でプレビューをチェック！／

講座を見てみる

評価：★★★★★
私はpython初心者の中年です。その私から見ても落ち着いた話し方に知性を感じ、セリフもあらかじめ作られているので、無駄がなく、優良かつ有料なのも納得です。

評価：★★★★★
Webスクレイピングを体系立てて勉強できました。短期間で広範囲をカバーしているので、大変有意義なコースでした。

Webスクレイピングのやり方を習得することで、自動化したり、面倒な手間を省いたりするツールを作成することも可能ですので、是非使ってみてください。

PythonでWebスクレイピングする方法をライブラリ別に解説

PythonでできるWebスクレイピングとは？

スクレイピングの基本的な流れ

Webスクレイピングを行う際の注意点

Webスクレイピングに利用できるライブラリ

データを取得するためのスクレイピング【Requests】

Requestsのメソッドを解説

・get()

・post()

・put()

・delete()

Webページのデータを取得しよう

タイトルや見出しを取得するためのスクレイピング【BeautifulSoup】

BeautifulSoupのメソッドを解説

WebページのタイトルやURLを取得しよう

Javaで作られたコンテンツを取得するためのスクレイピング【Selenium】

Webスクレイピングを活用して情報解析に役立てよう

Python配列の基礎！リスト（list）の初期化方法から基本操作まで解説

【初心者向け】Jupyter Notebookの使い方！インストール方法から解説

「Python3 エンジニア認定データ分析試験」とは？出題内容や勉強方法を解説！

Google ColaboratoryでPythonを実行しよう！できることや実行方法を解説

【初心者向け】基本のLinuxコマンド一覧！操作別に紹介

【初心者向け】Jupyter Notebookの使い方！インストール方法から解説

CCNAとは？どんな資格でどれくらい勉強が必要？時間の目安やおすすめサイトもご紹介！

公開鍵暗号方式とは？初心者でもわかる公開鍵暗号方式の基礎

Python入門！導入方法や基本的な使い方を分かりやすく解説

現役シリコンバレーエンジニアが教える次世代インターネットWEB3.0 NFT DeFi 入門講座

Google Cloud（GCP）の基礎 - 図解と実践でインフラの基礎を固める【2025年最新版】

令和7年版:参考書の著者直伝！【基本情報技術者試験　科目A】講座　基礎理論から経営戦略までの全範囲を網羅

最新情報・キャンペーン情報発信中

PythonでできるWebスクレイピングとは？

スクレイピングの基本的な流れ

Webスクレイピングを行う際の注意点

Webスクレイピングに利用できるライブラリ

データを取得するためのスクレイピング【Requests】

Requestsのメソッドを解説

・get()

・post()

・put()

・delete()

Webページのデータを取得しよう

タイトルや見出しを取得するためのスクレイピング【BeautifulSoup】

BeautifulSoupのメソッドを解説

WebページのタイトルやURLを取得しよう

Javaで作られたコンテンツを取得するためのスクレイピング【Selenium】

Webスクレイピングを活用して情報解析に役立てよう

Related posts:

RANKING 人気記事ランキング

【初心者向け】 基本のLinuxコマンド一覧！操作別に紹介

【初心者向け】Jupyter Notebookの使い方！インストール方法から解説

CCNAとは？どんな資格でどれくらい勉強が必要？時間の目安やおすすめサイトもご紹介！

公開鍵暗号方式とは？初心者でもわかる公開鍵暗号方式の基礎

Python入門！導入方法や基本的な使い方を分かりやすく解説

RECOMMENDED COURSE 人気のUdemy講座

現役シリコンバレーエンジニアが教える次世代インターネットWEB3.0 NFT DeFi 入門講座

Google Cloud（GCP）の基礎 - 図解と実践でインフラの基礎を固める 【2025年 最新版】

令和7年版:参考書の著者直伝！【基本情報技術者試験 科目A】講座 基礎理論から経営戦略までの全範囲を網羅

最新情報・キャンペーン情報発信中

【初心者向け】基本のLinuxコマンド一覧！操作別に紹介

Google Cloud（GCP）の基礎 - 図解と実践でインフラの基礎を固める【2025年最新版】

令和7年版:参考書の著者直伝！【基本情報技術者試験　科目A】講座　基礎理論から経営戦略までの全範囲を網羅