クロール可能なドキュメント数

近頃はクロールさせっぱなしにしたりと、負荷テストみたいなのが多い感じ。ここ数日試していたのが、クロール用データを格納するのに H2 を利用しているのだけど、組み込み H2 で何件くらいクロールできるのかを確認してみた。スペック的には Pentium Dual-Core E2140 1.6G でメモリが 1G くらい(Dell Vostro です)。試した感じでは 15 万件あたりでクロールがほとんど進まなくなった。そんなわけで、標準の Fess (クロールにH2を使った場合) では 1 台あたり 10 万件以下をインデックスするのが良いでしょう。それじゃ、10万件を越える場合はどうするかというと、Solr サーバーを 1 台立てて (配布物からwebapps/fess*を削除したもの)、複数台のクロール用 Fess (配布物からwebapps/solrとか削除したもの) を構築すれば良いでしょう。そんな感じでやれば、Solr の限界値までインデックス化はできると思います。

という感じではありますが H2 でなく、MySQL とかをクロール用データベースに使う場合はどうなのかが気になるので、S2Robot を MySQL でも動くようにしてみました。というわけで、これでクロールを再度し続け中・・・。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です