2007-05-04
2007-05-08
_ [学会][WWW2007] AIRWeb 2007
この日はAdversarial Information Retrieval on the Web (AIRWeb'07)に参加。ホームページで全論文が公開されている。以下ピックアップ。
- Splog Detection Using Self-similarity Analysis on Blog Temporal Dynamics
Yu-Ru Lin, Hari Sundaram, Yun Chi, Junichi Tatemura and Belle Tseng - ポストの時間分布、内容・リンク先の自己相似性でsplogを判断する。時間情報を利用するのがちょっと新しい。ただ若干ナイーブな手法なのでだますのは簡単そう。
- A Large-Scale Study of Link Spam Detection by Graph Algorithms (S)
Hiroo Saito, Masashi Toyoda, Masaru Kitsuregawa and Kazuyuki Aihara - 合原研の齋藤さんのやった仕事を代わりに私が発表。強連結分解、クリーク列挙、ミニマムカットを駆使してスパム抽出を行う。IBM Almadenが示したウェブグラフのBow-tie構造におけるスパムの分布を示した。ウェブ全部には適用できないでしょというコメント多数。やっぱりちょっとは近似を入れないと駄目だよなあ。
- Combating Spam in Tagging Systems
Georgia Koutrika, Frans Effendi, Zoltn Gyngyi, Paul Heymann and Hector Garca-Molina - Frickr, del.icio.usなどのソーシャルタギングシステムにおけるスパムの影響力を分析。悪いやつがどの程度いると、どの程度場が荒らされるのかをsynthetic dataでシミュレートした。del.icio.usをクロールしたデータでの実験を予定している。
- A Taxonomy of JavaScript Redirection Spam
Kumar Chellapilla and Alexey Maykov - JavaScriptを使ったredirection spamの手法を分類し、実際にどの手法がどの程度使われているか実データで統計を取った。まあ色々マニアックな手法があるもんだ。複数の変数にURLを分割して書いておいて後で結合してevalしたり、URLエンコード・デコードを使ったり。難読化ですな。
Web Spam Challengeというスパム検出コンテスト企画もあったのだがいまいち決着がすっきりしなくてぐだぐだ。結局何がよいのか分からなかった。他にもP2P上でのspamとか面白そうなネタがあったのだけど力尽きた。Belleさんや、Andrew Tomkinsさん、Alex Ntoulasさんが出ていたのでご挨拶。Tomkinsさんがひげを生やしていてちょっとびっくり。AlexさんはMSに移られたそうな。
READMEと日記の書き方
_ 中村 [いってらっしゃいませ. えらく高いらしいですね.]
_ とよだ [高いっス。大赤字です。]
_ たかぎ [すでにバンフ入ってます。そうそう、めちゃくちゃなつかしい。]
_ とよだ [おお、早いすね。私は7日の夜に着く予定です。]
_ まつした [バンフですか。 なつかしい。僕も10年前のUISTで言った記憶が、、 たしかトナカイが放し飼いにされているところです..]
_ とよだ [そーです。今日もホテルの近くで2頭見ました。]