2006-07-13
_ [研究] WWW2006 reading 2回目
今日は、Hさんが以下の論文を紹介してくれた。
Topical TrustRank: Using Topicality to Combat Web Spam
PageRankをTopic-sensitive PageRankに拡張したように、TrustRankをTopical TrustRankに拡張したという、一見安直な発想の論文。TrustRankについてはこちらを参照のこと。
TrustRankでは、人間がシロと判定したページ(シード)からスコアを伝播させることで、スパムページへスコアがあまり行かないようにする。このシードページをトピックごとに分類して(DMozなど使用)、トピックごとにTrustRankを計算し、あとで(重みつき)和をとるのがTopical TrustRankである。ほかにもいろいろと小細工を付け加えて、オリジナルのTrustRankより良い精度が得られたと主張している。なぜTopicalにするとうまくいくのかいまいち感触がつかめないのだが、オリジナルではシード中で多数を占めるトピックによる影響が大きすぎるということらしい。トピックごとに分けて計算することでそれぞれのトピックの影響をバランス良く配合できるそうだ。
READMEと日記の書き方