2005-05-01
2005-05-03
2005-05-05
2005-05-06
2005-05-07
2005-05-08
_ と [さあ、第二回戦の始まりです。 わたしは、「あがり」っぽい:-)]
2005-05-09
_ と [なんか微妙に鼻が詰まりましたが、鼻水・くしゃみなし。もちろんマスクなし。 でも両鼻詰まったときは思わず薬を使ってし..]
2005-05-10
_ [学会] WWW2005 Workshop Day メモ
今年はなぜか幕張です。時差はないのになぜか時差ぼけ気味です。現在、Workshop on the Weblogging Ecosystemに参加中。Weblogワークショップのblogなんていうメタなものもある。
Invited Talkは、Ethan Zuckerman (CSの人ではないみたい)の Media Attention in the Age of the Weblog - Will Blogs Make News More or Less Global? blogによって市民ジャーナリズムみたいな状況ができていると言うが、結局blogで記事にされている事は、本当にグローバルになっているのか?大手メディアによる事件の扱いとどれほど違うのか?結局メジャーな国のニュースばかりになっていないか、という問題提起。各国がblogでどれだけ触れられているかについて、ニュースサイトとの比較などの統計を取っていてなかなか面白かった。詳しくは、彼のサイト、Ethan ZuckermanのGAP - Global Attention Profilesを参照。ランチのときに、各国のblog人口は取れないの?と聞いてみたが、やっぱり正確に測るのは難しいそうだ。
論文は、blogのクラスタリングとか、ランキングとか、アジテーターを探す話とか、Web日記とblogとの違いについての考察など色々。
午後は、ちょこっとAIRWEB Workshopのパネルを聴きに行った。Google, Yahoo, MSNなどそうそうたるパネリストによる検索エンジンSPAMに関する議論。nofollow属性はまあしようがないよねとか、クリックフローについては話したくないとか、SPAMに関してアカデミックでやることはあるの?とか、まあそんな感じ。
2005-05-11
_ [学会] WWW2005 Keynote by Berners-Lee
Berners-Lee - WWW2005 Keynote やっぱりSemantic Web。
なんでか分かりませんが、携帯ですね。去年も.mobiドメインについて、そもそもSemantic Webならそんなドメインは必要ないとか言っていたので、その延長なのかもしれません。
_ [学会] WWW2005 Data Extraction
Fully Automatic Wrapper Generation for Search Engines
Hongkun Zhao, Weiyi Meng, Zonghuan Wu, Vijay Raghavan, Clement Yu
検索エンジンの結果ページから、広告など余分なものを除き結果部分だけ取り出すラッパー生成手法。タグの構造だけでなく、インデントなどの視覚的な構造も使うと、良い精度のラッパーが得られる。しかし実験結果に適合率99%、再現率99%とか書かれるとちょっと眉につばをつけたくなる。
Web Data Extraction Based on Partial Tree Alignment
Yanhong Zhai, Bing Liu
Eコマースサイトの商品ページから商品名、値段等のテーブルを自動生成したりするのが目的。1本目と同じくこれも視覚的構造を使っている。また適合率、再現率に98%、99%とえらい高い数値が書いてある。
Thresher: Automating the Unwrapping of Semantic Content from the World Wide Web
Andrew Hogue, David Karger
著者がGoogleの人だが、これはGoogleに入る前の仕事だそうだ。内容は、ラッパー生成 by Exampleのような感じ。
_ [学会] WWW2005 Current trends in the integration of search and browsing (Panel)
Krishna Bharat(Google), Jan Pedersen(Yahoo!), Susan Dumais(Microsoft), Steve Papa(Endeca), Prabhakar Raghavan(Verity)らによるパネル。Search, navigation, multi-facetのどれが良い?という議論。まあ結論の出る話ではないしなあ。
_ [学会] WWW2005 Index and Querying
Improving Web Search Efficiency via a Locality Based Static Pruning Method
Edleno S. de Moura, Celia Francisca dos Santos, Daniel R. Fernandes, Altigran S. da Silva, Pavel P. Calado, Mario Nascimento
Sampling Search-Engine Results
Aris Anagnostopoulos, Andrei Broder, David Carmel
検索エンジンの結果からランダムなサンプルを採る手法。ランダムなサンプルであるという安心感は得られそうだが、実際トップNを取るのとどれだけ差がでるのかな。
2005-05-12
。 〇 o 〇 o 〇 ☆登録無料 まずは登録!☆ 。o 〇事実です⇒http://www.xxxxxxx.net/?point 。。o 〇 ┏┓┏━┓ ★★★ ┏┻┻┛□┃┏★★★★┓┏━━━━┓┏━━━━┓┏━━━━┓ ┃pt当り ┃┃出会える┃┃\(~▽~)/┃┃\(^◇^*)┃┃ (*^-^) ┃ ┗◎━━◎┻┻◎━━◎┻┻◎━━◎┻┻◎━━◎┻┻◎━━◎┛
_ [学会] WWW2005 Industrial and Practical Experience Track
The Infocious Web Search Engine: Improving Web Searching Through Linguistic Analysis
Alexandros Ntoulas, Gerald Chao, Junghoo Cho
自然言語解析を積極的に取り入れたInfociousという新しいサーチエンジンを立ち上げたらしい。文書中の単語にpart-of-speechタグを付け、より意味的な検索ができるようにした。例えば、動詞にも名詞にもなる単語についてはどちらの意味で検索するか選択できたりする。
_ [学会] WWW2005 Text Analysis and Extraction
Gimme' The Context: Context-driven Automatic Semantic Annotation with C-PANKOW
P. Cimiano, G. Ladwig, S. Staab
Nigerは国か川かなんてのを自動判別できるかという話。
Opinion Observer: Analyzing and Comparing Opinions on the Web
B. Liu, M. Hu, J. Cheng
デジカメなど商品に関する評判を抽出する手法。デジカメといっても、電池とかサイズとか重さとか色々な評価ポイントがあるがそれらの特徴をまず抽出し、それぞれの特徴について肯定、否定表現がどれだけあるかを算出する。
_ [学会] WWW2005 User-focused Search and Crawling
CubeSVD: A Novel Approach to Personalized Web Search
J.-T. Sun, H.-J. Zeng, H. Liu, Y. Lu, Z. Chen
Automatic Identification of User Goals in Web Search
U. Lee, Z. Liu, J. Cho
クエリがnavigationalかinformationalかをアンカーテキストや検索結果のクリックログを用いて判別する手法を提案。ただ、navigationalであればGoogleで十分そうだし、informationalだと分かってもできることは少なそうな気がする。
User-Centric Web Crawling
S. Pandey, C. Olston
2005-05-13
_ [学会] WWW2005 Link-based Ranking
PageRank as a Function of the Damping Factor
P. Boldi, M. Santini, S. Vigna
PageRankのランダムジャンプの確率を変化させるとどのような挙動を示すかを詳細に調べた。
Object-Level Ranking: Bringing Order to Web Objects
Z. Nie, Y. Zhang, J.-R. Wen, W.-Y. Ma
A Uniform Approach to Accelerated PageRank Computation
F. McSherry
_ [学会] WWW2005 Link-based Similarity
Scaling Link-Based Similarity Search
D. Fogaras, B. R´cz
おお、まだこのネタでやることあったのか。という感じ。
LSH Forest: Self-Tuning Indexes for Similarity Search
M. Bawa, T. Condie, P. Ganesan
Partitioning of Web Graphs by Community Topology
H. Ino, M. Kudo, A. Nakamura
Max-flowを用いたコミュニティの定義を、より厳密にしてそれを効率良く抽出できる手法を提案。
2005-05-17
_ [業界] 総務省、2005年3月末のブログ利用者は約335万人、SNSは約111万人と分析
ずいぶん増えましたねえ。私がとある記事を書くため2月頃に調べたところでは、主要7ブログサービスの開設数合計で150万を超えていました。小さいところも合わせると200数十万ぐらいにはなっていたのではないかと思われます。とすると一月半ぐらいで、さらに100万ぐらい増えたことになります。本当ならすごい勢いですが、信用してよいのかどうか分かりません。しかし、開設数よりも、アクティブなユーザの数のほうが気になります。「BlogFan.ORG - サービス比較」に統計がありますが、これを見るとアクティブなユーザの割合は相当小さいことが分かります。まあアクティブだから質が良いとも言えないので、本当に良質な情報源となりうるブログの数はかなり限られてくるでしょう。まあなんにせよ、分母が大きくなるのは良いことです。
と、ここまで書いて総務省発表の報道資料を見てみたら...結構いい加減な算出してますねえ。bulkfeedsで得たシェアで単純に割り算してるし、掛け持ち考慮の純利用者数なんて2で割ってるだけだし。うーん。これはあんまり信用しないほうが良さそうな気がしてきました。
2005-05-19
_ [開発] Perlで子プロセスのエラー出力が親プロセスに横取りされる
ループの中で以下のようにfork,execを繰り返していたら、最後にforkしたプロセスでだけ、err.logに吐かれるべき結果が親プロセスのエラー出力に吐かれるという現象に悩まされた。それ以外のプロセスではきちんとerr.logに出力されている。
$pid = fork(); if ($pid == 0) { exec("foo 2> err.log"); }
_ 結局、以下のようにしたら解決。うーむ。
$pid = fork(); if ($pid == 0) { open(STDERR, "> err.log"); exec("foo"); }
2005-05-24
_ さね [おぉ〜 それは おめでとうございます. ザ, ザルツブルグ!?!? う, 羨ましい... この前のイタリアの会議..]
_ とよだ [へええ、そうなのですか。前にウィーンには行った事あるので、比べて見ます。]
_ いあいあはすたー [おめでとう。学会発表というのは表向き、神聖ローマ帝国の皇帝の末裔を救出するのが本当の任務…うわ何するがえいヴぇうやめ..]
_ さね [モーツアルトの生家とか 写真とってきてください〜♪]
_ みな [おめでとうございます。お土産は塩ですね。]
_ あまがさ [おおっ,すばらしい! おめでとうございます!! 楽しんできてください.]
_ Cafebabe [おめでとうございます.次は目指せ!WWWCですね.]
_ とよだ [皆さんありがとうございます。塩のほかにも元祖モーツァルトチョコのなんてのもあるようです。寒くなければ良いなあ。]
2005-05-25
_ さね [勝率7割超えてすごいことに, なっておりますね. コバマサがまたセーブあげてるし. 今度帰省したときにもで マリ..]
_ とよだ [ゆったり見たいときは内野、騒ぎたいときは外野がお勧め。外野は攻撃中飛び跳ねて応援してるので、試合後にグッタリきそうで..]
_ さね [一塁側外野が一番興味がありますね。 実は三塁側しか行ったことがありません。某球団ファンってのが 一番の理由ですが、「..]
_ TrackBack [http://blog.goo.ne.jp/sane3/e/62e79569159a268e8a08f21a2b7d..]
_ さね [すみません. TB打ったらなぜか 文字化けてしまいましたm(_ _)m 別の箇所から 打ち直しました. (2005..]
2005-05-26
_ [宣伝] 生研公開ネタ(6/2, 6/3)
生研公開で私が御見せできるネタはこんな感じになりそうです。
- 時系列検索エンジン
- 99年からのアーカイブの各スナップショットをキーワード検索し、出現ページ数、サーバ数などの推移をグラフ化。検索結果は手抜きランクでランキング。新規ページ、旧ページ優先など、時系列を考慮した並べ替えも可能。一応新ネタ
- ウェブコミュニティーチャートブラウザ
- 福地君作で毎年デモっている。ウェブのスナップショットから、同種ページの塊であるコミュニティを抽出し、それらの関係をグラフ化した地図を検索・閲覧できる。
- ウェブコミュニティー発展過程ブラウザ
- 上記のチャートが時系列的にどう変化しているかを閲覧できる。キーワードによる検索、新しく現れたコミュニティなど進化の特徴量に応じたコミュニティの抽出ができる。去年もやりましたがちょっと進化しています。
- ウェブページ間関連の発展過程ブラウザWebRelievo
- コミュニティよりもさらに詳細なページ間関連の時系列変化を観察できる。WISS2004版をより発展させたもの。
2005-05-27
_ [テレビ] 東京工業大学のうた 作詞/作曲 増田ジゴロウ
サクサクで電通大、農工大に続き、東工大のうたが発表されました。私のかつていた大岡山でなく、すずかけ台のうたなのですが、これがすんばらしい傑作。あまりの衝撃と感動に3度も聴いてしまいました。以下ウケたポイント。
トーコー ダーイ! (HIGH! HIGH! テクノロジー!) トーコー ダーイ!(応用! セラミックス!)
トーキョーコーギョー ダーイ! x3 ダンシ...(TOO MUCH! TOO MUCH!) トーキョーコーギョー ダーイ! x3 ジョシ...(A FEW! A FEW!)
見てごらん...東工大のシンボルマーク...まるでラピュタの「ロボット兵」... さすが工業大学...ロボット兵...
この大学で学んだ事が日本の将来のテクノロジーの発展に 役立つ可能性... 大ーっ!
_ よしかず [とよださんもサクサカーでしたかw 私は最近は朝見れてないのですが、ぜひ聞きたいです〜〜!]
_ と [これ、CDとかでないんですかね。電通大、農工大も渋そうな感じ(が予測され)よいですね。どうも3音節(という数え方はあ..]
_ siio [そうか、あれはラピュタのロボット兵だったのか。]
_ とよだ [最近見始めたばかりなんですが、面白いですねえ。 この前DVDが出たらしいので、いつか出るかもしれません。 大学の歌は..]
_ たかぎ [ああああ,ロボット兵に見えてしまったらそうとしか見えない・・・]
_ たかぎ [ところでサクサクってなに!?]
_ と [私もそもそもサクサクというのが何なのかわからん。誰でもいいので軽く教えてください。]
_ とよだ [ググってみましょう。]
2005-05-30
_ [本] 佐藤優「国家の罠〜外務省のラスプーチンと呼ばれて」
いろんなところでお勧めされているので買ってみました。まだ70ページほどしか読んでいないけど、これは必読ですよ。ちょっと面白ポイントを挙げてみます。
- 1991年8月のクーデターの折、執務不能になったゴルバチョフの病名はギックリ腰だった?
- 外務省幹部「とにかく田中(真紀子)さんは自分のお父ちゃん(田中角栄)は偉い。だから、日露関係でも田中・ブレジネフ会談が原点なんだ。それから自分のお父ちゃんを裏切った経世会(橋本派)は許せないという、この二つの想いで動いている。」
- ソ連通訳チジョフ氏「ブレジネフは領土問題に関して田中角栄があまりに激しい剣幕なので、驚いてウォー、ウォーとうなっただけで確認などしていない」
- 私を含め、外務省員は全員親米派である。ただし、新米の中身については、日本はアメリカと価値観を共有するので常に共に進むべきであるという「イデオロギー的な親米主義」と、アングロサクソン(英米)は戦争に強いので、強いものとは喧嘩してはならないという「現実主義」では、「親米」という結論は同じだとしても、その論理構成は大きく異なる。
- 官僚とちょっとした行き違いがあった後、政治家が「俺は気にしていないぞ」と言ったとする。この永田町言語を翻訳すると「俺の方ではなく、お前のほうで深く反省して、何か言ってこい」ということだ。
- 外務省幹部「しかし、五月八日、アーミテージ米国務副長官との会談をドタキャンしたが、婆さん(田中女史)はその時、大臣就任祝いにもらった胡蝶蘭への礼状を書いていたんだ。これに対してみんなが危機感を持った。」
- 同幹部「新聞は婆さんの危うさについてきちんと書いているんだけれど、日本人の実質識字率は五パーセントだから、新聞は影響力を持たない。ワイドショーと週刊誌の中吊り広告で物事は動いていく。残念ながらそういったところだね。その状況で、さてこちらはお国のために何ができるかということだが……」
わ、笑えない……
_ いあいあはすたー [この本には「国策捜査」という言葉が出てきているらしいね。佐藤氏自身はノンキャリアながら日本の政官学のインナーサークル..]
_ みな [> 日本人の実質識字率は五パーセントだから うーむ。新聞はメディアとしては死に体とは思ってましたが、やっぱりそうな..]
_ とよだ [政官学インナーサークル……そんなのがあるのですか。続報は……気長にお待ちください。しばらく公開で大変なので。 新聞は..]
_ よこやま しょーへー [>実質識字率 という言葉が気になってググってみました。その結果ほとんどがこの作者の言葉の引用が書いてあるページしか..]
_ とよだ [おそらく数値的な根拠はないのでしょうが、色々なメディアに情報が出たときの、国民の反応を観察していれば体感的にはそんな..]
_ くめ [> 政官学インナーサークル……そんなのがあるのですか。 まあ、その話は実際に会ったときにでも。って、別に大した事を..]
READMEと日記の書き方
_ と [というか、症状の重い患者をターゲットに高い薬を売る、というのではなく、比較的症状は軽いけどより多い患者に「超立体」を..]
_ とよだ [おおっ!かなりロングテールっぽいですね。さらに花粉症でない人にも花粉症グッズを買ってもらえればもっとロングテールにな..]
_ いあいあはすたー [なんか、ロッテに関するコメント。おいらの周りの阪神ファンのコメントとそっくり。東のロッテ西のタイガーズ?]
_ とよだ [双方、弱さがファンを集めたチームですからね。ファン心理も似てくるのかもしれません。]
_ いあいあはすたー [なるほど、ということは、とよだはタイガーズファンの心理が良く分かる→タイガーズファンと話が合う→潜在的な(一つ間違え..]
_ とよだ [いったいどんな何段論法やねん!あ、やっぱ駄目です。関西人にはなれませんです。]
_ いあいあはすたー [いやあ、「とにかくウケを狙う」ということに執念をもやすところなんか…関西人のノリでっせ。(偏見?)関係ないけど先日研..]
_ etemitmawanab [より長い稼働を&#..]