自動ですぱこーを集めてみる
この記事はプロ生ちゃん Advent Calendar 2014、クローラー/スクレイピング Advent Calendar 2014の19日目の記事です。
はじまり
クローラー/スクレイピング Advent Calendarを見ていると、どうやらPythonやRubyでわりとお手軽にクローリング、スクレイピングができるらしい・・・。
プロ生ちゃんアドベントカレンダーにも登録しちゃったし、ネタも特にないしスクレイピングやってみるかな~といった感じで始まりました。
やった流れ
- すぱこーが公開されているページのソースを眺めて、マンガの画像を見つけるための特徴を探す。
- 見ているとどうやらサムネがマンガの画像をリサイズしただけのものだと気付く。
- loop-entryクラスのarticleタグを取得し、その中のimgタグからhrefを取得して?以下を削除して、リサイズをなくしてやれば元の画像になりそうだと思い、実装。
環境
Python3.4
BeautifulSoup4
結果
半分成功。半分失敗。
すぱこーのVol.15よりサムネが別に準備されていたので、マンガ自体の画像はダウンロードできなかった。
ちゃんと確認しなかったうっかりミス・・・
まとめ
思った以上に簡単にスクレイピングができた。
どのくらいの時間にどの程度以上のリクエストを投げたら怒られちゃうのかが分からなかったので、画像をダウンロードするごとに5秒スリープさせたが、どのくらいの時間が最適なのだろう・・・
プロ生ちゃんかわいい。