2005-09-23
_ [開発] lucene 1.4.3 + sen 1.2.1
ちょっと試しにluceneを使ってみようかなと思い、うっかり手を出したのが運の尽き。インストールとデモを試すぐらいは簡単なのだが、使ってみようと思うと嵌りどころが色々。アーカイブのファイルを適当に突っ込んでみようと思ったが、Javaの入出力をほとんど使ったことないのでアーカイブからページを突っ込むインタフェースを書くのに四苦八苦。Javaの入出力APIはなんでこんなにごちゃごちゃしているのか。それができたらできたで、今度はデモとして付いてきているHTMLParserがLexical Errorを出しまくる。日本語部分で落ちているのだが通す文字と通さない文字があって、それがバラエティに富んでいるので原因が特定できない。しかもパーサーはJavaCCで書いてある。めんどくせー。しようがないので、HTMLのパースは事前にやってテキストのみにしてからluceneに喰わそうと心に決めてギブアップ。
READMEと日記の書き方