トップ «前の日記(2006-01-17) 最新 次の日記(2006-01-19)» 編集

豊田正史のSLとは関係ございません


2006-01-18

_ [開発] POEで簡易クローラ

POE::Component::Client::HTTPとか、WWW::RobotRulesとかを使うと、ロボットルールを守りつつ、同一サーバへのアクセスを一定時間おきにして、与えられたURLのリストを秒間10URL程度のスピードでクロールするプログラムが200行くらいで書ける。楽になったものである。比較的使い回しできるコードにできたので、パッケージにしたいところだが、面倒くさいなあ。ほぼ同じものとして、未来検索ブラジルがXangoというPOEを使ったクローラフレームワークを公開してるが、最新のバージョンはロボットルールの処理を自前で追加しないといけないようなので、結局一から書いてしまった訳。


README日記の書き方