はじめに

Pythonによるスクレイピングの情報を以下にまとめる。

環境

Pythonでは以下の選択肢がある。

Requesstライブラリを用いたHTTPプロトコルによる操作。
Selenium+WebDriverを用いたブラウザ操作（RESTfulAPIを用いてブラウザ操作をする）WebDriverには以下のような選択肢がある。ChromeDriverが無難。
- ChromeDriver。Chromeを操作できる
- PhantomJSライブラリ。こちらはブラウザを立ち上げない。Seleniumで使用するのは現在非推奨（PhantomJSはWebKit（レンダリングエンジン）ベースのブラウザ。WebkitはApple主導でSafariなどに使用されている）
- 上記以外のライブラリもあり。詳細はこちらを参照

今回はこちらを選択。選定理由はセッション管理が容易な点と画面操作によりファイルをダウンロードが容易な点。

ChromeDriverをダウンロードし、パスを通せば使えるようになる。使い方の詳細はこちら

ファイル保存のサンプルはこちら。

DOM要素コントロールはこちら。

HTMLのParserは3つある。

こちらが参考になる。

以下のような形でパースする。最もメジャーものはBeautifulSoup。

※パースは「HTML文法に基づき意味や構造を解釈すること

soup = BeautifulSoup(res.text, "html.parser")

PythonのParserとしてよく使用されるHTML構文解析ライブラリ。ChromeDriverにより画面を操作した後、要素抽出などで使用する。

使い方についてはこちらの説明がわかりやすかった。

リファレンスはこちら→http://kondou.com/BS4/

BeautifulSoupだと画面操作はできないので、画面操作はDriver、要素の取得等はBeautifulSoupといった形で使い分けが必要。

XPathの取得はChromeのデベロッパーツールが便利。手順は以下の通り。

aws ddd java kotlin rails ruby wordpress

温泉ソムリエエンジニア。サーバ構築からアプリケーションの開発まで手広く対応。Web系・サーバサイドの開発が特に得意