自動ですぱこーを集めてみる

この記事はプロ生ちゃん Advent Calendar 2014クローラー/スクレイピング Advent Calendar 2014の19日目の記事です。

はじまり

クローラースクレイピング Advent Calendarを見ていると、どうやらPythonRubyでわりとお手軽にクローリング、スクレイピングができるらしい・・・。
プロ生ちゃんアドベントカレンダーにも登録しちゃったし、ネタも特にないしスクレイピングやってみるかな~といった感じで始まりました。

目的

プロ生のWebサイトで公開されているWebマンガすぱこーを自動で収集して保存する。

やった流れ

  1. すぱこーが公開されているページのソースを眺めて、マンガの画像を見つけるための特徴を探す。
  2. 見ているとどうやらサムネがマンガの画像をリサイズしただけのものだと気付く。
  3. loop-entryクラスのarticleタグを取得し、その中のimgタグからhrefを取得して?以下を削除して、リサイズをなくしてやれば元の画像になりそうだと思い、実装。

環境

Python3.4
BeautifulSoup4

結果

f:id:nyarurato:20141218164848j:plain
半分成功。半分失敗。
すぱこーのVol.15よりサムネが別に準備されていたので、マンガ自体の画像はダウンロードできなかった。
ちゃんと確認しなかったうっかりミス・・・

まとめ

思った以上に簡単にスクレイピングができた。
どのくらいの時間にどの程度以上のリクエストを投げたら怒られちゃうのかが分からなかったので、画像をダウンロードするごとに5秒スリープさせたが、どのくらいの時間が最適なのだろう・・・

プロ生ちゃんかわいい。