2005-09-01
_ [開発] イラク戦死者のプロットから何が分かるか
現在のイラクでのUS,UKの戦死者数を見てみたところ、全然減っていないことに驚いた。合計では既に2000人以上になっている。それでもその間の日本での交通事故死者数よりは全然少ないのは置いておくとして、イラク戦死者統計は以下のページで見ることができる。
各Periodをクリックすると、戦死者の名前、戦死した場所などの詳細を見ることができる。イラクの都市名はいったいどこなのかさっぱり分からないので、イラクの主要都市経度緯度情報を探してみたら以下のページが見つかった。
・Latitude and Longitude of Important Cities of Iraq
これらのデータを組み合わせてGoogle MapsやGoogle Earthにプロットすれば、主要な戦地などが時系列で分かるようになるのだが、今出張の準備で忙しくてやっている暇がない。というわけで誰か興味があったらやってみてください。とネタ提供だけしてみます。こういうのはちょっと不謹慎なのかもしれないけど、かなり興味深く、考えさせるものになるはずです。
ちなみに、戦死者の出身地をGoogle Mapsにプロットするのはもうある。
これはアメリカの人にとっては重いけど、イラクを考える材料にはならないのが残念。
2005-09-05
_ [学会] ザルツブルグ着
成田に着いたのが出発2時間前の7:30、ルフトハンザのチェックインカウンターには大行列ができていて1時間も並ぶ。さらにセキュリティーチェックと出国審査に30分かかり、ゲートに着いたときにはすでに出発30分前。買い物も両替もできんではないか。機中では概ね睡眠。ただ貧乏性なのか、食事になると目が覚める。乗り継ぎのフランクフルトでようやく両替。ユーロ146円は高いなあ。ザルツまでの飛行機はかわいい小型のジェット機で、1時間弱のフライト。バス停で同じ会議に出るイタリア系アメリカ人?の人と知り合ったので、一緒に会場へ。その後、また一緒に水など買いに行き、適当に見つけたイタリアンレストランでムール貝とイカのパスタを食す。まあまあ。さすがに疲れたので、帰るなりバタンキュー。
_ あずま [どこさいくだ。]
_ さとし@NICT [おきをつけて 美味しい店などありましたら紹介してくださいませ. 後追いで,17日からそちらへうかがいますので・・・]
_ さね [お疲れ様です。 ご無事でなによりです。]
_ (わ) [↓ みたいです。 Masashi Toyoda, Masaru Kitsuregawa: A System for ..]
_ とよだ [みなさん、どうもです。無事でございます。 (わ)さんは、ザルツブルグに豊田が行くという情報だけで探したんでしょうか。..]
_ みな [リンツはレストラン探しに苦労しました〜 ザルツブルグはリンツよりも大きいから大丈夫と思いますが。]
_ (わ) [わたしの諜報網のヨーロッパ支局から至急電が入りました。]
_ いあいあはすたー! [とよだ、監視されているぞっ!身の回りの怪しい奴を始末するんだっ。ほら、あいつだよあいつ、今朝君の]
2005-09-06
_ [学会] Hypertext 2005 workshop day
朝からワークショップに参加。なんだか発表に抜けがあったらしく、自己紹介のときに本会議で発表があるといったら、空いた時間にそれをちょっと紹介してくれないかと頼まれた。さすがに全部見せるわけには行かないので、かなり端折ってデモって見せた。反応も良かった様でホッとする。べしゃりの修正点も見えたし良かったかも。ワークショップ自体は「むむむ」という感じ。
ワークショップが終わった後、一人でミラベル広場、ザルツブルグの旧市街を散策。2時間くらいイヤというほど歩く。ヨーロッパにしては埃っぽくなく、小奇麗で、良い印象の街である。残念なことに、モーツアルトの像とか、生家とかは修復中らしくカバーがかけられて見られなくなっていた。いつの間にか8時を回っていたので、旧市街で適当に見つけたSARAN ESSBARというオーストリア・インド料理屋で、グラーシュを食す。なんとなくインド風のスパイスの効いたグラーシュで、こんなのもありかなという感じ。さすがに疲れたので、バスでホテルに帰る。
2005-09-07
2005-09-08
_ [学会] Hypertext 2005 発表終了
なんとか無事に終了。質問も積極的に来ていたし、反応も良かった。中小路先生がセッションチェアだったのだが、発表後のパネルで答え易い質問を振ってくれたので助かった。思いついたことをべらべらしゃべってなんとかしのぐことができた、と思う。
2005-09-10
_ あやつか [ビッケ、懐かしいですね。 ってなんでザルツブルグで? ^^;]
_ とよだ [やや、早速年齢チェックに引っかかりましたね。写真をのっけときました。なんでザルツブルグでやってるのか謎です。テレビで..]
_ ソノヤマ [うわ!ビッケだビッケ! でもこれ、どう見ても日本のアニメキャラですよね(笑) あ、しまった私もひっかかった(自爆)]
_ とよだ [ソノヤマさんもご存知でしたか。今年博士を取ったばかりの学生さん(6つ下)は知りませんでした。どのくらいの幅なんですか..]
_ みな [知ってます!小さなバイキングですね。内容は全然覚えてませんけど(見てなかったので)。]
_ とよだ [知ってるけど見てないということは、アニメの対象年齢外?たしかにたわいの無い話だったとおぼろげながら記憶しています。]
_ あやつか [細かい部分までは覚えていませんですが、 とんちものですね。小学校低学年以下くらいが対象かな。]
_ とよだ [ああ、そうだったかも。鼻をこするととんちがでたりしてたような。]
_ キャップ美原 [すいません,ボクは見たこともありません.]
_ とよだ [さもありなん。年代が違いすぎます。]
2005-09-12
_ [論文] Einat Amitay, Adam Darlow, David Konopnicki, Uri Weiss. Queries as Anchors: Selection by Association. Hypertext 2005
Hypertext 2005では発表の後半しか聞けなかったのだが、気になっていたので論文を読んでみた。Adam Darlowの発表。(IBMは著者をfamily nameのアルファベット順に並べるという習慣があるため、論文から発表者が分からないのがややこしい。Microsoftもそうだったはず。)
クエリをいろいろと変えながら検索することは多いが、そのログを使って検索の手助けをしたいという良くあるネタ。でも、ちょっとコロンブスの卵的。この論文では、不特定多数の検索ログ(入れたキーワード、得られた結果などの列)を用い、検索セッションの最後に答えを得られたと仮定して、セッション最後に出てきた検索結果文書に、それまでのクエリに含まれるキーワードをすべて足しこんで拡張し、検索インデックスを改善する。つまり、この結果得られるインデックスを用いると、最初のほうの迷っているキーワードでもセッション最後の結果を得られるようになるという訳。実際のログでは本当に答えを得られたかどうか分からないわけだけど、実験してみたところ何も考えずに全部のログでインデックスを変更しても、検索回数については44%の減少、検索時間については42%の短縮を実現できたとしている。また正解を得られる回数も増加したとのこと。検索精度については良くなったり悪くなったりで、トータルではちょっと良くなっている程度。実験の詳細については論文を参照して欲しいが、ちょっと限定的な実験環境になっているような気もする。
議論では、主にエンタープライズサーチなど、コミュニティ内検索に使えそうだと述べており、ウェブ全体でやるには、拡張キーワードが多くなりすぎるのでなんらかのリミットが必要で、FIFO的に古いキーワードを捨てていくなどの工夫がいるだろうとのこと。
2005-09-14
_ [業界] John Battelle's Searchblog: Google To Launch Blog Search
いよいよGoogleがblog検索サービスを始めたようです。Technoratiなどは戦々恐々?ちょっと使ってみましたが、あんまりカバレッジは良くないような...。
2005-09-19
_ [開発] SharpDevelop
ちょっと思いついたソフトをC#で作るためにSharpDevelop 1.1をインストール。なんとなく感じはつかめた、かも。で、必要なクラスや関数についてはウェブを検索して一通りリストアップできたので後は実装するだけ、というところで力尽きた。次にレジュームするのはいつになることか...。
2005-09-21
_ [呟き] 上原中学校
生産研の近くの上原中学校(渋谷区立上原中学校ホームページ)は現在改築中なのだがこれが半端じゃない(ここで完成予想図が見られる)。地下に体育館とプールを作るそうで、めちゃくちゃ深くまで掘って基礎工事をしている。工事現場を見るととても中学校とは思えない。まるでシェルターの様である。というか、まじめに有事の際の用途も考えてるような気がする。確かにこのへんは超高級住宅街だけど、こんな大規模な改築ができるほど区に予算があるのかな。そういえば、いつだったかのタモリ倶楽部で都内の別な学校の工事現場を見学していたが、それも地下に体育館を作っていた。他にもあるのだろうか。実は、東京要塞都市化計画が密かに進行していたりして。
2005-09-22
_ いあいあはすた〜 [ご愁傷様です。でも原因が分かっているエラーはまだ救いがあるような…そういやおいら、ブルースクリーンってまだ一度も体験..]
_ やまざき [僕も同じ原因でXPが落ちましたよ. 会社のDellマシンだったのですが, 修理依頼したらメモリだけじゃなくマザーボー..]
_ (わ) [というか、故障原因の調査を後まわしにして、対応のスピードアップをはかっているのでは?修理がおわったマザーボードは、次..]
_ とよだ [いあいあさん、画面の様子についてはまさにその通りです。 ノートの場合ほとんど全部マザーボードなのでなにかあると大抵交..]
_ いあいあはすたー! [契約にも依るのですが。効くと思います。というか、おいらのmixi日記にも書きましたが、原因が分からないけどマザーボー..]
2005-09-23
_ [開発] lucene 1.4.3 + sen 1.2.1
ちょっと試しにluceneを使ってみようかなと思い、うっかり手を出したのが運の尽き。インストールとデモを試すぐらいは簡単なのだが、使ってみようと思うと嵌りどころが色々。アーカイブのファイルを適当に突っ込んでみようと思ったが、Javaの入出力をほとんど使ったことないのでアーカイブからページを突っ込むインタフェースを書くのに四苦八苦。Javaの入出力APIはなんでこんなにごちゃごちゃしているのか。それができたらできたで、今度はデモとして付いてきているHTMLParserがLexical Errorを出しまくる。日本語部分で落ちているのだが通す文字と通さない文字があって、それがバラエティに富んでいるので原因が特定できない。しかもパーサーはJavaCCで書いてある。めんどくせー。しようがないので、HTMLのパースは事前にやってテキストのみにしてからluceneに喰わそうと心に決めてギブアップ。
2005-09-24
_ [開発] Perl 5.8.2とHTML::Parser 3.45の組み合わせでメモリリーク?
普段HTMLパーサーはPerlのHTML::Parserを使っている。比較的速くメモリも食わないので大規模なアーカイブのパースに重宝していたのだが、今日久々に使ってみたら派手にメモリリークするので参った。みるみるうちに使用メモリが1GB超えてしまうので使い物にならない。HTML::Parserを最新版の3.45に変えてみても駄目。前回パースをしたときの違いはPerlが5.8.0だったことだけなので、試しに5.8.0で走らせたらリークしない。他のユーティリティとの兼ね合いもあるし、これは困ったなあ。
2005-09-25
_ [開発] luceneインデックス作成速度
色々あったがインデックス作成にこぎつけたので、テキストにして1GB程度のデータでインデックス作成速度を測って見た。
- 文書集合:1999年のアーカイブから取り出した約430,000文書から抜き出したテキスト
- サイズ:タグ等を除いてテキストのみにした後で約1GB (2.3 KB/doc)
- IndexWriterパラメタ:
maxFieldLength=1000000 minMergeDoc=1000 mergeFactor=50
- PC: 2CPU (Xeon 3.06GHz), 2GB Memory
- インデックス作成時間:9863 sec. (43 doc/sec, 101 KB/sec)
- インデックスサイズ:412 MB (文書量の42%)
ちなみに、minMergeDocを1000から10000に変えても、9579 secでそれほど時間短縮にはならなかった。やはりsenによる形態素解析に時間の大部分を喰われているのか、ちょっと遅めな感じ。bigramのCJKアナライザにすればもっと速くなりそうだが、日本語でbigramはごみを拾いすぎできついし、インデックスもでかくなるからなあ。まあでも、パラレルにインデックスを作って後でマージもできるようなので、クラスタを使えばそこそこリーズナブルな時間で大規模なインデックスもできそうだ。
READMEと日記の書き方
_ wakita [ご存知かもしれないけど、Text Mining とか Text Extraction の分野は、大量の新聞記事の中か..]
_ とよだ [Miningもextractionも、条件を書いたり、加工したりというところはユーザがある程度しないといけないので、..]