2007-08-11
_ [大学] 東大学部生40人に聞きました - ネット利用に関するアンケート (その2)
もう一月以上前になってしまいましたが、続きです。
東大学部生40人に聞きました - ネット利用に関するアンケート
Q6: ブログを読んでいるか
A6: いる: 24, いない: 16
Q7: ブログを書いているか
A7: いる: 3, いない: 37
Q8: RSSリーダーを使っているか
A8: いる: 5, いない: 32, 知らない: 3
過半数が読んでいるが、ほとんど書いてはいないようです。若い人はあまり書かないのでしょうか。読んでいる人は多いのに、RSSリーダーは全然使われていません。
Q9: 掲示板を利用しているか。
A9: 読むだけ: 18, 書き込みもする: 12, 利用していない: 10
掲示板だと書き込みをする人もそれなりにいます。
Q10: メールはどちらですることが多いか。
A10: PC: 2, 携帯: 38
Q11: 携帯でウェブを見ているか。
A11: 見る: 21, 見ない: 19
恐ろしいほど、携帯にシフトしています。メールはもはや携帯でするのが普通で、半数は携帯でウェブを見ているとのこと。うーん。すごい。
2007-08-13
_ [大学] 大学院講義「ウェブ工学」のネタ選び
10月開講の「ウェブ工学」で何をネタにするかそろそろ考えなくてはいけない。ウェブ工学ってなんだってのはひとまず置いておいて、ウェブ関係のネタで研究ができるようになることを目標とし、それに必要な基礎知識はなにか、というあたりから考えていくことにしよう。とりあえず思いついたものから挙げてみる。
The Anatomy of a Search Engine
まずは、これを読めるような基礎知識を教えないといけないだろう。これの後に、この手のサーチエンジンアーキテクチャ論文ってあるのかな?あ、Anna Pattersonの記事とかあったなあ。
Tech Report: SRC-RR-175: The Link Database: Fast
リンクデータベースの作り方。PageRankやHITSなどを実際にウェブのスケールで計算しようとするとこのあたりの知識が必要。この後、圧縮率を高める構成法の論文が数本出ているがそこまで授業でやる必要はないだろう。
Syntactic Clustering of the Web
Shinglingを用いたNear mirror pagesの検出方法。これも基本技術として押さえておきたい。最近、Googleからもnear mirror検出のより詳細な論文が出ているが、これが基本。
言わずと知れたPageRank論文。Anatomyでも触れられているので、より詳細にやる必要があるかどうか...。
Authoritative Sources in a Hyperlinked Environment
Authorityとhubの概念を用いたリンク解析手法。バリエーション論文もたくさんあるが、簡単に触れておけばよいだろう。Trawling を扱うかどうか?
大規模なウェブグラフの構造を明らかにした論文。まあ何に役立つという話ではないが、知識として知っておいてよい。
これで4、5回分にはなるかな?ちょっとリンク系に偏っているので、全文検索もネタとしては入れたい。検索の基礎は何をネタ元にするとよいかなあ。転置索引、ブーリアン検索、ベクター空間モデル、TF/IDFなど?クローラ関係も入れたいところ。セマンティックウェブ関係ってなにかやったほうがよいのかなあ?ご意見・アドバイスありましたらどしどしお寄せいただけますと幸いです。
READMEと日記の書き方
Before...
_ とよだ [統計的な現象の紹介だとちょっと足りないかもしれません。Webグラフの成長モデルにはAlmadenのコピーモデルなんて..]
_ とよだ [はてブで、講義名が「ある種危険」だと言われてしまった...。]
_ bun [良さそうな話だ。10月開講か。単位数は幾つか?]
_ とよだ [単位は普通の講義と同じではなかろうか。たぶん。]
_ bun [すみません。すぐに調べられた。2単位ですな。ユーザからのフィードバックを採取して活かす理論とか? それってどうしても..]
_ とよだ [Relevance feedbackのことかな?最近さっぱり聞かなくなってしまったが。。。]
_ うどん [ご存知と思いますが、これはほんと良くできてます。http://www.stanford.edu/class/cs27..]
_ とよだ [ありがとうございます。ちょうどうどんさんにRaghavanの講義のことを聞こうと思ってたところでした。IRの基礎を中..]
_ kazama [昨日「確率モデルによるWebデータ解析法」("Modeling the Internet and the Web"の..]
_ とよだ [kazamaさん、その本もちょっと気になってたんですよ。後で見てみます。]