2008-03-05
_ [研究] リンクスパムの分布図
PageRankのようなリンクに基づく検索結果ランキング手法を騙そうとする行為をリンクスパムと呼びます。大量にドメインを確保したり、業者同士で結託したりして、密なリンク構造を構成するのが簡単な方法です。日本語ウェブアーカイブから、そのほんの一部を抽出してグラフ構造を可視化すると以下のようになります(丸はサイトの集合で、線はサイト集合間のリンク)。真中のグレーの丸は、ウェブグラフの中心にあたります。これは全サイトの3分の1くらいが含まれる巨大な強連結成分で、良いサイトも悪いサイトも山ほど含まれています(中の数字は、含まれるサイト数)。その周りに浮遊している黒い丸が、スパムサイトからなる強連結成分です。1つ1つに数百から数千の相互に強く結びついたスパムサイトが含まれています。スパムの強連結成分同士がまた密な構造を作っていてなかなか興味深い図になっています。昨日の情報爆発プロジェクト成果報告会でも紹介したのですが、なんだか綺麗な絵になったので、ここにものっけておきます(拡大図)。
READMEと日記の書き方
_ ハル [まるで曼荼羅のようですね.一個一個のサイトに仏像の画像を割り当てたい気分です. といったん思いましたが,外の方はス..]
_ とよだ [確かに裏曼荼羅ですねこれは。中央に深くもぐりこんでいくと表が見えてきますので、ご期待ください。]
_ ststststst [はじめまして、slにはいつもお世話になっております(わざと出します)。 一つの今日連結成分を構成しているノードはどう..]
_ とよだ [ここでは、外部からのリンクを一定以上受けているページをトップとし、ディレクトリ構造でその下にあるページをひとまとめに..]
_ ststststst [論文を読みました。よく分からなかったので質問させてください。 例えば、ヤフーブログ、http://blogs.yah..]
_ とよだ [場合によります。もしその個人ブログのURLが外部からある程度以上リンクされていると、そのブログは、別なサイトのトップ..]
_ ststststst [なるほど、被リンク数によって、その情報が単一の情報源として認められるかどうかが決まるということですね。勉強になります..]