クロール可能なドキュメント数

近頃はクロールさせっぱなしにしたりと、負荷テストみたいなのが多い感じ。ここ数日試していたのが、クロール用データを格納するのに H2 を利用しているのだけど、組み込み H2 で何件くらいクロールできるのかを確認してみた。スペック的には Pentium Dual-Core E2140 1.6G でメモリが 1G くらい(Dell Vostro です)。試した感じでは 15 万件あたりでクロールがほとんど進まなくなった。そんなわけで、標準の Fess (クロールにH2を使った場合) では 1 台あたり 10 万件以下をインデックスするのが良いでしょう。それじゃ、10万件を越える場合はどうするかというと、Solr サーバーを 1 台立てて (配布物からwebapps/fess*を削除したもの)、複数台のクロール用 Fess (配布物からwebapps/solrとか削除したもの) を構築すれば良いでしょう。そんな感じでやれば、Solr の限界値までインデックス化はできると思います。

という感じではありますが H2 でなく、MySQL とかをクロール用データベースに使う場合はどうなのかが気になるので、S2Robot を MySQL でも動くようにしてみました。というわけで、これでクロールを再度し続け中・・・。

検索結果のソート

今までは「title:検索語」とすればタイトルに対して検索することが可能だったのだけど(QueryHelperでカスタマイズ可能)、検索結果をソートしたいというご意見をいただき、sort:~を導入してみた。たとえば、「sort:contentLength」とかすると、検索結果がサイズ順にソートされる。そのほかにはlastModifiedとtstamp(取得した時間順)を利用可能。

機能的には1.2でやりたいことはほぼ実装したので、バグ修正モードに入ろうかと(結構、いろいろと入れたな…)。1.2のスナップショットリリースは日々利用可能になっていますので、何かありましたらお知らせください~。