やっとこ検索

全文検索として、Fess を作っているけど、やっとこ指定時刻にクロールしてインデックスできる感じになってきた。まぁ、まだ、Solr の細かいところまで分かってない気もするけど、schema.xml を nutch のを参考にして、作り直してみたりした。今のところは、S2Robot で Web 巡回しかできていないので、ファイルシステムの巡回も何とかしたいな(ファイルシステムの巡回もS2Robotにもたせるのはありかも)。そんでもって、より nutch と差別化していくためにもモバイルにも対応させようかと考え中(ここはMobyletの出番か!?)。S2Chronos も使っているけど、ちらちらコードを見ていると気になるところがあるのだよな…(*_ja.properties だけで、デフォルトのやつはいらんのかとか、ソース上でc:\tmpみたいのも見に行くとこもあったような)。あとは、ぼちぼち S2Robot に robots.txt やサイトマップを読む機能をつけないとな(行儀をよくしないと)。Javaのrobots.txtとか読みにいくようなライブラリもちらっと探してみたけど、標準的なものがないっぽいから自前で作る必要があるな。そんな感じで、まだ、いろいろとあるけど地道に進行中。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です