2006-05-01
_ [Mixi] RSSをmixiの日記に投稿するスクリプト
mixiがクロールしてくれるのを待っていると日が暮れるので、外部ブログとの連携がしたいなあと思っていたら、こんな記事を発見。
ftp-recordings:returns? : Blogとmixiの連携ネタあれこれ
以下のRSSとの連携が使えそうなので、ありがたく拝借。
mizzy.org - ブログを書いたら mixi 日記に自動投稿
とりあえずうまくいっているようだ。日記を書いた後でスクリプトを手で動かさないとダメだけど。ひとまずはこれで十分。
2006-05-02
_ [業界] John Battelle's Searchblog: Google Worried? Yes.
IE7の右上に検索ボックスが付く件について、Googleがワシントンでのロビー活動を強化し始めたという記事がNYTに出たとのこと。この前Dellと組んだのはDellのPCでIE7のデフォルト検索先を変更するためではないかとの憶測も。あれだけの検索シェアを持っていてもやはり脅威なのか。
2006-05-04
_ [PC] HDのアクセス速度が遅いなと思ったら
転送モードが「PIOモード」になってました〜。チックショー!
久しぶりにノートPCのバックアップを取っていたときに遅いことに気がついてベンチマークを取って見たら、read, write共に2MB/sくらいになっていたんですよ。これはいくらなんでもひどいと思って調べて見たら以下を発見。IDEのデバイスドライバをいっぺん削除して再起動したら18MB/sくらいまで復活しました。
複数回のタイムアウトまたは CRC エラーの発生後 IDE ATA および ATAPI ディスクで PIO モードが使用される
開いた口がふさがらないような不具合ですが、だいぶ長いことこんなので生活できていたことのほうにびっくり。まあ、ノートでは重たい実験とか全然やらないからなあ。
2006-05-06
_ [ゲーム] ボナンザ世界一
将棋ソフト世界一に「Bonanza(ボナンザ)」 : 文化 : 社会 : YOMIURI ONLINE(読売新聞)
カナダで理論物理を研究している保木邦仁と言う方が、空いた時間でコツコツ作ってきたものだそうだ。昨年6月に公開され、あまりの強さにコンピュータ将棋界隈では話題だったらしい。とはいえ、そんなに安定した強さでもないらしく、予選では苦戦もしていたらしい。アルゴリズムなど詳しいことは下記のホームページを見ても良く分からないのだが、なにがブレークスルーだったのかは興味のあるところ。
2006-05-08
_ [業界] さすがは中国ブログ数も桁違い
中国のブログユーザー数、今年中に6,000万を突破か (MYCOMジャーナル)
さすがは中国と思いきや、なんですかこの「突破か」てのは、東スポじゃないんだから。しかし謎なのは、中国語ブログサイトが3,682万で、ブログのユーザー数が1,600万というくだり。1人が2つ以上ブログを開設してると言うことなのかな?いったいどうやってカウントしているのか?中国の場合は個人特定ができてしまうのだったっけ?そういえば、Technoratiの中の人の統計でも中国語のポストが結構な割合を占めるようになったとの結果が出ていたなあ。
Sifry's Alerts: State of the Blogosphere, April 2006 Part 2: On Language and Tagging
関係ないが、この記事では日本語のポスト数が英語のポスト数より多いという結果が出ていて、結構謎。携帯からの短いポストが多いためではないかと推測されているが本当なのかな?
2006-05-12
_ [学会] ソフトウェア論文
ソフトウェア科学会の編集委員会に出席。学会誌「コンピュータソフトウェア」の新しい投稿規程で「ソフトウェア論文」というカテゴリが新設された。これまでにも「ソフトウェア紹介」という査読なしの記事はあったのだが、「ソフトウェア論文」は査読ありで業績になる記事としての位置づけということらしい。規定では「著者によって実現されたソフトウェアの報告であり、発想、構成法、実装法などの点で優れ、ソフトウェアの発展に寄与するもの」とある。
ただ、なにを基準に評価をすればよいのか良く判らないところがあり、査読は少々難しそうである。例えば、類似ソフトとの比較はなくても良いのかあったほうが良いのかとか、ソフトの面白さをどう評価するのかとか、広く使われているソフトなら良いのかとか、何が書かれていればソフトウェア論文の要件を満たすのか、などなど。編集委員会でも色々と議論があったのだが、なにぶん前例がないものだから結論は出そうにない。実績を積み上げて感触を掴んでいくしかないのかも。この手の議論はWISSのプログラム委員会でも毎年のようにあるのだが、やっぱり結論はそう簡単には出ないのだよね。と思っていたら、この委員会でもかなり前からある議論らしく、時折不死鳥のごとく蘇り、そのまま決着せずに飛んでいってしまうのだとか。
なんにせよ編集委員会としては、従来の学術論文としては採録しにくくても、面白いソフトや、広く使われているソフトに関する記事を幅広く載せていきたいという意向である。面白いソフトを作っているんだけど投稿先がない、なんて方は是非ドシドシと投稿していただきたい。基準の定まっていない今がチャンスだ。うまくいけばソフトウェア論文のスタンダードを確立できるかも。
2006-05-14
2006-05-15
_ [Software] prefuse
講演に来ていただいた木實先生が人物ネットワークの表示に使っていた可視化フレームワーク。CHIとかInfoVisで発表されていたらしい。なんだか使えそうな雰囲気である。
prefuse | interactive information visualization
グラフレイアウト部については、スプリングモデルの斥力の計算にバーンズハットを使った高速化を適用していて結構スケールしそう。これまで作ってたのをこれで書き直して見ようかなあ。
2006-05-16
2006-05-18
_ [業界] テレビとネットの近未来カンファレンス
youtubeやらなんやらで最近動画関係が熱いらしいのでちょっと遊びに行ってきた。
第5回 テレビとネットの近未来カンファレンス 〜 ネット映像新時代、テレビは変わるのか? 〜
テレビブログで開発中の動画ブラウザとか、skypecastとかNAB2006のレポートとか。CGMがらみで紹介されていたJumpcutなんかではウェブブラウザ上で動画編集ができるようになってたり、もはや何でもありな状況になってますな。違法にアップロードされた動画も氾濫してるし、これからどうなるんでしょ。
2006-05-19
_ [テレビ] DoCoMoの福本さんCM
中の友人からのタレコミで、以前テレビで見た福本さんCMがDoCoMoのホームページで見られるようになったことがわかりました。以下からどうぞ。
テレビCM : 「ウェアラブル・ケータイ」篇(夢工場) | 企業情報 | NTTドコモ
以前の日記([テレビ] DoCoMoのCMに福本さん登場)で書いた、「指ノックと骨伝導携帯の一体化」てのは嘘でした。すみません。
2006-05-21
_ [WWW2006] 出国
結局徹夜でプレゼン準備してそのまま出発。今回のフライトはBA。ロンドン経由でエジンバラ入り。余裕があると思っていたのだが、ロンドン行きが悪天候で遅れ、乗り継ぎ時間が30分に。でも同じ第1ターミナルだから何とかなるだろうと思っていたらこれがまた広いんだ。ぜいぜい言いながらエジンバラ行きに滑り込み。と思ったらさらに上手の遅刻がいて出発遅れ。なんだ、走らなくてもよかったではないか。
エジンバラはあいにくの雨天。Air Linkというバスで、Heymarket駅まで行きそこから歩いてホテルへ。部屋は想像以上にボロい。ドアを開けるとキィィィィィと音がするし、歩くと床がミシミシいうし、バスタブはなしでシャワーのみ。無線LANは付いているのだが高くて(24時間17ポンド、1週間69ポンド)使う気がしない。そこそこ綺麗なのが救いだが、これで70ポンドは高いよなあ。
2006-05-22
_ [WWW2006] Workshop day
ホテルの朝食は、トースト、目玉焼き、温トマト、ソーセージ、ベーコン、ハギスなどを選べるスコティッシュブレックファースト。いきなりハギスに御対面で驚いたが、とりあえず発表が終わるまで我慢(?)することにする。
今日はワークショップのみの日で、申し込んでおいたModels of Trust for the Web (MTW'06)に参加。しつつ、プレゼンの準備もする。
夜は会場でお会いした方々とIL Castelloというイタリア料理のレストランへ。ここは以前エジンバラに行かれた某さんからエジンバラの中ではまともと聞いていたお店。おかげで普通に頂けました。陽気なオヤジさんに変な名前のソフトドリンクを勧められて飲んだのだが名前を忘れてしまった。ブルー何とかとか言ったかな。青くなかったけど。
2006-05-23
_ [WWW2006] オープニングとワークショップ2日目
今日はまだワークショップデーにもかかわらず会議全体のオープニングがあった。なんだか今サイトを見たら講演の内容がpodcastされている。なんだか今風である。
参加したワークショップは今回が3回目のWeblogging Ecosystem。
WWE 2006 | 3rd Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics
ウェブログのコメントやリンクを解析してたり、ロンドンのテロのときのblogの動きを解析してたり、コメント、リンク、トラックバックなどでできる相互関係からコミュニティを抽出してたり、スパムの解析をしていたり、となかなか広がりが出てきていて面白い。
夜はYahoo!主催のパーティーに招待されたので出席。どこかのバーを半分くらい貸切っていたのだが人多すぎで身動きとれず。1時間ほどいて、なぜか折りたたみ傘をもらって帰る。
2006-05-24
_ [WWW2006] 本会議1日目
今日から本会議。オープニングではSir Tim Berners-Lee他3名がパネル討論でセマンティックセマンティックとおっしゃっていた。参加したセッションは、Fighting Search Spam、Browsers、Web Mining。Web Miningセッションでは自分の論文発表。反省点多し。以下、後で読もうと思っている論文と、私の論文の紹介。
Topical TrustRank: Using Topicality to Combat Web Spam
PageRankをTopic Sensitive PageRankにしたように、TrustRankをTopicalTrustRankにした。のか?良くわからなかったので後で読む。
Detecting Spam Web Pages through Content Analysis
ページコンテンツの特徴だけでスパムを識別できるかトライ。タイトルがめちゃくちゃ長いとか、アンカーテキストの量が多いとか、内容の重複が激しいとか、いろいろなスパムっぽさの特徴量を取り出して、人手で作った正解セットで学習して分類器を作成。そこそこうまくいっているようだ。
Finding Advertising Keywords on Web Pages
マイクロソフトリサーチの発表。アドセンスのような広告システムを実現する際には、看板を置くページに適切な広告を選ぶ必要がある。そのために、看板を置くページからターゲットキーワードをどうやって抽出するかというお話。関連研究の紹介で「この人とこの人はリッチになった」などとやけに生々しい事を言っていたのが印象的ではあった。
What's Really New on the Web? Identifying New Pages from a Series of Unstable Web Snapshots
すみません、私のです。ウェブの変化は実世界の変化に連動する傾向を強めており、ウェブの進化データは社会学やマーケティングの観点から重要な情報源になりつつある。定期的にウェブを大規模収集することでウェブの進化を観察することができる。しかし、毎回すべてのページを収集しつくすことは不可能なため、新規に収集したページが本当に新しいとは限らない。たまたま前に収集されていなかっただけかもしれない。こういった不安定なアーカイブからでも、リンク解析を用いて確実に新しいと思われるページを取り出せる手法を提案した。
2006-05-25
_ [WWW2006] 本会議2日目
参加したセッションは、Search Engineering、Search、New Search Paradigms。あまり印象に残った発表がないが、とりあえず気になる論文リスト。
Random Sampling from a Search Engine's Index
ベストペーパー受賞論文。サーチエンジンの結果から均一にランダムなサンプルを取り出す手法。これを用いて各検索エンジンの相対的なインデックスサイズを測ったりしている。面白いけど使う機会はなさそう。
A Web-based Kernel Function for Measuring the Similarity of Short Text Snippets
最近珍しいGoogleからの発表。ただこのMehran Sahamiという人は、スタンフォードとGoogle両方に籍を置いているそうだ。そういうのもありなのか。内容は、cosine similarityなどが効かないような短いテキストの類似度を測る手法。たとえば、AIとArtificial Intelligenceなど。方法は基本的には単純で、テキストを検索エンジンに投げ、結果の文書から文書ベクトルを作ってそれを比較するというもの。クエリのサジェスチョンに使うらしい。ふーん。
Generating Query Substitutions
これはYahoo!の発表。Googleの「もしかして」をもうちょっと高度にしたものをどう実現するかというお話。クエリログを使っている。
Retroactive Answering of Search Queries
これも珍しいGoogleからの発表。ユーザの検索履歴から、ユーザが継続的に追いかけたいと思っているネタを抽出するという話。様々な特徴量を測定した結果を示していた。パーソナライズ検索につなげたいらしいがまだ先は長そう。とりあえずアラートのリコメンデーションには使えそうである。
Yahoo!のY!Q Contextual Searchに使えるアルゴリズムの提案。Googleのもそうだがテストセットがしっかりしているのは検索エンジン会社の強みだよなあ。
2006-05-26
_ [WWW2006] 本会議3日目
今さら(6/29)どうかと思うが、完成させとかないと気持ち悪いので書く。参加したセッションは、Data Mining、Data Mining Classification、Improved Ranking。気になった発表は以下。
Improved Annotation of the Blogosphere via Autotagging and Hierarchical Clustering
Technoratiのタグの階層クラスタリングをやって見たという論文。同じタグの付いた記事は本当に似ているかとか、タグが記事の検索に有用かどうかとか、そんなことを調べている。あまりオチはない。
Beyond PageRank: Machine Learning for Static Ranking
Microsoft Researchからの論文。本文、アンカー、PageRankなど様々なfeatureの組み合わせをニューラルネットで学習。なぜか本文が一番精度に効くとのこと。MSNのログと人海戦術で作った大きな評価セットを用いていて、なかなか文句がつけにくい。
READMEと日記の書き方
_ あずま [それはびっくり.変な仕様.]
_ とよだ [やりっぱなしで戻してくれないのがなんとも。]
_ あまがさ [小梅太夫っすか. 僕は彼のネタはあまり面白いと思ったことはないんですが,とよださんがダシに使ってるのは面白かったです..]
_ とよだ [最近ネタ切れぎみですが、私はあの声だけで笑っちゃえるんすよ。]