2005-02-07
_ [論文] Zoltan Gyongyi, Hector Garcia-Molina, Jan Pedersen. Combating Web Spam with TrustRank. VLDB 2004
リンクスパムという手法でGoogleを騙しページランクを上げようとするサイトが多い。手法としては以下のようなものがある。
・密に相互リンクを張りまくる。
・1つのIPアドレスのホストへエイリアスをいくつも作り製品名などをエイリアス名に埋め込む(URL内の文字列にスコアを与える検索エンジンもある)。でそのURLを指すページを山ほど作る。
・掲示板やblogのコメントに、ランクを上げたいサイトへのリンクを張りまくる。
・一見有用なコンテンツを持つページをつくり(UNIXドキュメントのコピーなど)、そこから隠しリンクを対象サイトに張りまくる。それを見て誰かがリンクを張ってくれればランクが上がる(ハニーポットと言うんだそうだ)
この論文では、スパム対策のプロが見て、問題ないと判定されたサイトからスコアを伝播することで、スパマーのサイトへ高いスコアが行かないように工夫したランキング手法を提案している。ページランクの改良版のような趣。ポイントは人間が見ないといけないサイト数をいかに減らすか。スコアを伝播する際にカバーする範囲をできるだけ多くするため、アウトリンク数の多いページを重点的に見ることにしている。そういうページを抽出するために、リンクの向きを逆にしたPageRankを使う。
良いサイトからスパマーサイトへのリンクがあると、スパマーサイトが高いスコアを持ってしまうのが問題だと前半で述べているが、実験した範囲では上位にスパマーサイトはあまり来てないからまあよいんじゃないかと言っている。本当かなあ?
READMEと日記の書き方