2005-05-11
_ [学会] WWW2005 Keynote by Berners-Lee
Berners-Lee - WWW2005 Keynote やっぱりSemantic Web。
なんでか分かりませんが、携帯ですね。去年も.mobiドメインについて、そもそもSemantic Webならそんなドメインは必要ないとか言っていたので、その延長なのかもしれません。
_ [学会] WWW2005 Data Extraction
Fully Automatic Wrapper Generation for Search Engines
Hongkun Zhao, Weiyi Meng, Zonghuan Wu, Vijay Raghavan, Clement Yu
検索エンジンの結果ページから、広告など余分なものを除き結果部分だけ取り出すラッパー生成手法。タグの構造だけでなく、インデントなどの視覚的な構造も使うと、良い精度のラッパーが得られる。しかし実験結果に適合率99%、再現率99%とか書かれるとちょっと眉につばをつけたくなる。
Web Data Extraction Based on Partial Tree Alignment
Yanhong Zhai, Bing Liu
Eコマースサイトの商品ページから商品名、値段等のテーブルを自動生成したりするのが目的。1本目と同じくこれも視覚的構造を使っている。また適合率、再現率に98%、99%とえらい高い数値が書いてある。
Thresher: Automating the Unwrapping of Semantic Content from the World Wide Web
Andrew Hogue, David Karger
著者がGoogleの人だが、これはGoogleに入る前の仕事だそうだ。内容は、ラッパー生成 by Exampleのような感じ。
_ [学会] WWW2005 Current trends in the integration of search and browsing (Panel)
Krishna Bharat(Google), Jan Pedersen(Yahoo!), Susan Dumais(Microsoft), Steve Papa(Endeca), Prabhakar Raghavan(Verity)らによるパネル。Search, navigation, multi-facetのどれが良い?という議論。まあ結論の出る話ではないしなあ。
_ [学会] WWW2005 Index and Querying
Improving Web Search Efficiency via a Locality Based Static Pruning Method
Edleno S. de Moura, Celia Francisca dos Santos, Daniel R. Fernandes, Altigran S. da Silva, Pavel P. Calado, Mario Nascimento
Sampling Search-Engine Results
Aris Anagnostopoulos, Andrei Broder, David Carmel
検索エンジンの結果からランダムなサンプルを採る手法。ランダムなサンプルであるという安心感は得られそうだが、実際トップNを取るのとどれだけ差がでるのかな。
READMEと日記の書き方
Semantic Webって電話重視なのか。
Semantic Webの応用としては有望な分野には違いなさそうですが、ヨーロッパやアメリカで使ってるの見たこと無いんですけど。<br><br>ところで↓の「今日のリンク元」って、検索で引っかかったのも出てるんですね。なぜに「肉の万世橋」? :-)
WAPとか言っていたのはどうなったんでしょうねえ。<br>リンク元のほうは、以前、肉の万世橋に行ったことを書いたからですね。referrerを引っ掛けてるだけなんで、古い日記へのアクセスでも本日のほうに記録されちゃうようです。
WAPは最初っからダメポだったような気も。<br>ヨーロッパのケータイってめちゃ高いから(端末もSMSも)その辺からなんとかしないとね。3Gへの本格移行がポイントですかね。