2006-01-18
_ [開発] POEで簡易クローラ
POE::Component::Client::HTTPとか、WWW::RobotRulesとかを使うと、ロボットルールを守りつつ、同一サーバへのアクセスを一定時間おきにして、与えられたURLのリストを秒間10URL程度のスピードでクロールするプログラムが200行くらいで書ける。楽になったものである。比較的使い回しできるコードにできたので、パッケージにしたいところだが、面倒くさいなあ。ほぼ同じものとして、未来検索ブラジルがXangoというPOEを使ったクローラフレームワークを公開してるが、最新のバージョンはロボットルールの処理を自前で追加しないといけないようなので、結局一から書いてしまった訳。
READMEと日記の書き方