やっとこ検索

全文検索として、Fess を作っているけど、やっとこ指定時刻にクロールしてインデックスできる感じになってきた。まぁ、まだ、Solr の細かいところまで分かってない気もするけど、schema.xml を nutch のを参考にして、作り直してみたりした。今のところは、S2Robot で Web 巡回しかできていないので、ファイルシステムの巡回も何とかしたいな(ファイルシステムの巡回もS2Robotにもたせるのはありかも)。そんでもって、より nutch と差別化していくためにもモバイルにも対応させようかと考え中(ここはMobyletの出番か!?)。S2Chronos も使っているけど、ちらちらコードを見ていると気になるところがあるのだよな…(*_ja.properties だけで、デフォルトのやつはいらんのかとか、ソース上でc:\tmpみたいのも見に行くとこもあったような)。あとは、ぼちぼち S2Robot に robots.txt やサイトマップを読む機能をつけないとな(行儀をよくしないと)。Javaのrobots.txtとか読みにいくようなライブラリもちらっと探してみたけど、標準的なものがないっぽいから自前で作る必要があるな。そんな感じで、まだ、いろいろとあるけど地道に進行中。

全文検索のJavaアプリ

少し前にSF.jpでプロジェクトを作っておいたのだけど、S2Robot+Solrっていう構成で全文検索のJavaアプリサーバを作り始めた。まぁ、まだぜんぜんできてないけど、コードがなくならないようにコミット。配布物的には、TomcatにFessのwarとSolrのwarをのせて手軽に使えるようにしたいなっと(起動して、画面上で対象パスを指定すればOKくらいな感じ)。という感じで、地道につくっていこ。

http://sourceforge.jp/projects/fess/