トップ «前の日記(2006-07-19) 最新 次の日記(2006-07-21)» 編集

豊田正史のSLとは関係ございません


2006-07-20

_ [開発] LuceneでTermVectorをインデックスに格納すると

Luceneでは、各文書のTermVectorをインデックスに格納できる。Termのfrequencyだけでなく、position(term単位での各termの位置)、offset(バイト単位の位置)も格納できるのだが、当然インデックスサイズは大きくなる。文書の平均サイズなど条件にも依るのだが、現在の私のアプリケーションだと、全部入りでインデックスサイズ2倍。Offset情報を除くと1.6倍くらい。結構きついが、やろうとしていることには必要なので背に腹は変えられん。


README日記の書き方