2006-07-20
_ [開発] LuceneでTermVectorをインデックスに格納すると
Luceneでは、各文書のTermVectorをインデックスに格納できる。Termのfrequencyだけでなく、position(term単位での各termの位置)、offset(バイト単位の位置)も格納できるのだが、当然インデックスサイズは大きくなる。文書の平均サイズなど条件にも依るのだが、現在の私のアプリケーションだと、全部入りでインデックスサイズ2倍。Offset情報を除くと1.6倍くらい。結構きついが、やろうとしていることには必要なので背に腹は変えられん。
READMEと日記の書き方