S2Robotのテスト

S2Robot も 0.1.0 のリリースに必要なところは直し、現在、Fess に入れてテスト中。今のところ、問題がないと思うので近日中にリリースすると思う。Fessについてもいろいろと改良を加えた。S2Robotはマルチスレッドで動くけど、Fess 内ではS2Robotを複数のインスタンス立ち上げてクロールさせたりしている(という感じで、すんごいマルチスレッドな感じになっている気がしている)。対応フォーマットについてもTika を導入したので、柔軟にいろんなファイルが処理できるようになった。Fess についても、まだ加えたい機能はあるけど、今でも十分に使えると思うので、ベータリリースをしておこうかと思う今日この頃。

修正とか

近頃、某所で火消チームに加えられ、先週とか忙しかった…。まぁ、今週はいつものようなペースで働くことにしようかと。そんなわけで、S2Robot と Fess の作業を進める。まず、Fess はローカルファイルに対して数十万ドキュメントでインデックスをひたすら繰り返す感じのランニングテストを始めた。そこで発見したS2Robotの問題を修正(PDFの読み込みでPDDocumentをcloseしてなかった)。そんでもって、前々からやろうと思いつつ、手が回っていなかったFessの携帯対応を始めた。もちろん、Mobyletを使っておく。0.8.0からcharsetのjarをJVMに突っ込む必要がなくなったので、Fessへの投入は楽になった。でも、いくつか問題に遭遇したりして、Mobyletにチケットを上げたりしたけど、さっくり修正してもらったので、修正版を投入しないとね。そんな感じで、地道に更新中。

やっとこ検索

全文検索として、Fess を作っているけど、やっとこ指定時刻にクロールしてインデックスできる感じになってきた。まぁ、まだ、Solr の細かいところまで分かってない気もするけど、schema.xml を nutch のを参考にして、作り直してみたりした。今のところは、S2Robot で Web 巡回しかできていないので、ファイルシステムの巡回も何とかしたいな(ファイルシステムの巡回もS2Robotにもたせるのはありかも)。そんでもって、より nutch と差別化していくためにもモバイルにも対応させようかと考え中(ここはMobyletの出番か!?)。S2Chronos も使っているけど、ちらちらコードを見ていると気になるところがあるのだよな…(*_ja.properties だけで、デフォルトのやつはいらんのかとか、ソース上でc:\tmpみたいのも見に行くとこもあったような)。あとは、ぼちぼち S2Robot に robots.txt やサイトマップを読む機能をつけないとな(行儀をよくしないと)。Javaのrobots.txtとか読みにいくようなライブラリもちらっと探してみたけど、標準的なものがないっぽいから自前で作る必要があるな。そんな感じで、まだ、いろいろとあるけど地道に進行中。

全文検索のJavaアプリ

少し前にSF.jpでプロジェクトを作っておいたのだけど、S2Robot+Solrっていう構成で全文検索のJavaアプリサーバを作り始めた。まぁ、まだぜんぜんできてないけど、コードがなくならないようにコミット。配布物的には、TomcatにFessのwarとSolrのwarをのせて手軽に使えるようにしたいなっと(起動して、画面上で対象パスを指定すればOKくらいな感じ)。という感じで、地道につくっていこ。

http://sourceforge.jp/projects/fess/