2008-03-05
_ [研究] リンクスパムの分布図
PageRankのようなリンクに基づく検索結果ランキング手法を騙そうとする行為をリンクスパムと呼びます。大量にドメインを確保したり、業者同士で結託したりして、密なリンク構造を構成するのが簡単な方法です。日本語ウェブアーカイブから、そのほんの一部を抽出してグラフ構造を可視化すると以下のようになります(丸はサイトの集合で、線はサイト集合間のリンク)。真中のグレーの丸は、ウェブグラフの中心にあたります。これは全サイトの3分の1くらいが含まれる巨大な強連結成分で、良いサイトも悪いサイトも山ほど含まれています(中の数字は、含まれるサイト数)。その周りに浮遊している黒い丸が、スパムサイトからなる強連結成分です。1つ1つに数百から数千の相互に強く結びついたスパムサイトが含まれています。スパムの強連結成分同士がまた密な構造を作っていてなかなか興味深い図になっています。昨日の情報爆発プロジェクト成果報告会でも紹介したのですが、なんだか綺麗な絵になったので、ここにものっけておきます(拡大図)。
READMEと日記の書き方
まるで曼荼羅のようですね.一個一個のサイトに仏像の画像を割り当てたい気分です.<br><br>といったん思いましたが,外の方はスパムサイトでしたね.むしろ雑念の塊か(笑).うまく可視化していただけると,非常にありがたい「ウェブ曼荼羅」になると思います.
確かに裏曼荼羅ですねこれは。中央に深くもぐりこんでいくと表が見えてきますので、ご期待ください。
はじめまして、slにはいつもお世話になっております(わざと出します)。<br>一つの今日連結成分を構成しているノードはどうなっているのでしょうか。ドメインごとですか?それともページごとですか?
ここでは、外部からのリンクを一定以上受けているページをトップとし、ディレクトリ構造でその下にあるページをひとまとめにしたものを「サイト」として扱い、サイト単位の強連結成分を用いています。
論文を読みました。よく分からなかったので質問させてください。<br>例えば、ヤフーブログ、http://blogs.yahoo.co.jp/というアドレスの場合、それ以下にある個人のブログhttp://blogs.yahoo.co.jp/AAA/等もhttp://blogs.yahoo.co.jp/というノードつまり、サイトとしてひとくくりにカウントするのでしょうか?
場合によります。もしその個人ブログのURLが外部からある程度以上リンクされていると、そのブログは、別なサイトのトップとして扱われます。もしリンクされていなければ、ヤフーブログサイトにひとくくりにされます。
なるほど、被リンク数によって、その情報が単一の情報源として認められるかどうかが決まるということですね。勉強になります。<br>もしかしたら、”ある程度”の数によって異なる結果が得られる可能性もあるのかな。