差分クロール

Fess 3.0 のやりたいことリストで書き忘れてたけど、差分クロールを実装してみた。今までは Last Modifed を気にせず、GET しにいっていたけど、前回クロールで取得していたら、HEAD で Last Modified を取得・比較して、更新されていたら GET しにいって、インデックスを更新する。差分クロールをするかどうかは管理画面から変更可能な感じ。差分クロールすると外部へのコンテンツ取得の負荷は下がるけど、前回データが Solr の中にあるので(つまりSolrに聞きにいくことになる)、Solrへの負荷が上がる感じ。というわけで、それを踏まえて利用するかどうかを決めるのが良いかと。

次は、外部から接続可能なAPIを作ることかな…。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です