2005-12-20
_ [業界] ブログ検索について思うこと
百花繚乱的に立ち上がっているブログ検索サイトだが、共通して言えるのはどれも収集範囲が狭いということだ。テクノラティなどの有名どころでも非常に狭い。検索サイトによって結果が全然違うし、どこで検索してもでてくる結果が少ない。検索エンジンではもうインデックスしたページ数で競う意味はなくなってきたが、ブログ検索についてはまだ追跡ブログ数で争う意味があると思う。数を増やすことが今のところは検索結果を充実させることに直結しているからだ。できれば追跡ブログ数を公開にして競争して欲しい。
ところで、最近ソーシャルブックマークが流行っているのは、面白くホットなページとそれらに対するコメントおよびタグを即時的に共有できるという点が大きいと思うのだが、本来これはブログの役割だったはずである。ブログの数が増え、ブログサービスが分散しすぎたことから、知識共有のスピードが集中管理サービスにまったく及ばなくなったためにブックマークサービスへのシフトが起きたと私は理解している。今後、十分なカバレッジを持ち、ほぼリアルタイムでインデックスが更新され、ユーザにとってホットな情報が提示されるようなまともなブログ検索エンジンが出てくれば、ソーシャルブックマークはその役割を終えると思う。
READMEと日記の書き方
ユーザによる「投票」という側面はあんまり関係ないんでしょうか?
それも、検索の一種として実現されるものと考えてます。ホットな情報の提示というのはそれのことです。
既存のブログエントリ収集手法は収集範囲が狭いというより,Pingサーバからの情報を元にしているからだと思っています.つまり,重要なブログサイトでも(スパムを恐れて?)Pingサーバに登録していないことが多いので.検索結果に出てこないようです.
やっぱりPingサーバベースではきついですよね。Blogの空間内をクロールするだけでもだいぶ違うと思うのですが。
面白いです。Technoratiにおけるlink popuralityと、はてなブックマークにおけるbookmark popularityという二つのメトリックがあるとき、どのようにpopularityを評価すべきでしょうか?
リンク元のユーザに重複が出ないように合算したいところですね。どちらも早晩(既に?)スパムにやられそうな気がします、それを回避する方法は色々ありそうで面白いところですね。
ええそうですね。ちょっと煙に巻くような質問をしてしまったので私の意図を説明しておきます。linkかbookmarkかと書いたのは分散か集中かという意味合いです。直感的にはpopularityの速報性とスパミングは表裏一体の関係にあるような気がしていて、集中型だと速報性が高い反面スパミングに弱いと思われるのですが、SBMなどでは一般にIDによる管理によってそれが抑制されます。一方で分散型で速報性を実現しようとすれば、投機的にクロールに行ったりPingをトリガーにクロールに行かなければならない上にうまいHeuristicsを見つけてスパムを排除しなければなりません。後者がもし本当に技術的に困難ならば、ひたすらcoverageとlink popularityの計算に集中する一方で、速報性の大部分は前者の仕組みに頼るような複合的な構成もありではないか、と。もしそうだとすると、両方のメトリックを合成する必要があるよなどうするんだろうな、という意図があっての質問でした。随分話を端折ってしまって済みませんでした。
ブログエントリ収集を見ていると,Pingサーバだけでなく新着情報などの他の方法を組み合わせてはいるのですが,ブログ空間をクロールしないために,重要な個人ブロガの欠落や,ネットワーク構造の細かい分断が起こっている気がします(たとえば,Technoratiで検索したエントリ群では,うまくネットワーク構造が得られません).ブログ空間をクロールしないのは,まず発見したブログの定期監視という実装が多いために収集した中からのブログの発見が困難とか,広告などの他のリンクが多すぎるとかいう事情がありそうですが,今私のところではなんとかしようと思ってます(うまくいくか?)
(o)さん。なるほど問題意識はとても良く分かりました。まず分散型での速報性ですが、スパムを気にしなければ1000万ブログを1日単位で追跡ぐらいまでは現在でもいけるのではないかと思います。スパムブログの詳細にはあまり詳しくないのですが、結局綺麗に取り除くのは難しいでしょう。そのあたりにはヒューリスティックとは別な方法でアプローチできそうな気もしています。<br>それ以上の速報性を追及するならSBMのほうが良いかもしれません。で、メトリックの合成ですが、やらないというのも一つの手ですね。スパムをある程度取り除いたブログのlink popularityとスパムがあまりないSBMの組み合わせであれば安直に足し合わせてしまってもそれほど酷いことにはならないのではないかと思います。もっと詳細に、Burstのような短時間での盛り上がりを見たい場合にはインターバルを設定してpopularityを見るなど時系列を使う必要も出てきます。ブログは普通のウェブページよりメタ情報が多いですからいろんな切り口のランキングを用意した方が面白いと思います。全体的なランキングにどれだけ意味があるのかという問題もありますし...。
おお、Cafebabeさんその辺りにも手を出されているんですか。楽しみにしてます。Technoratiはどうも登録ベースで自分からあまり発見にいっていないように見えますね。ブログ空間のクロールはブログツールをある程度限定すれば簡単にいけそうに思えるのですが、それすらあまりやられていないように見えるのは何ででしょうね。クローラの運用を続けることが難しいことは良く分かるんですが...。