Fessのジョブ管理機能

クロールの実行開始などの設定まわりを一新しました。今まで、管理画面上からは1つのクロールしか実行できませんでしたが、Fess 9からクロール設定ごとに細かい実行設定が可能です。というか、Groovyで実行するジョブを組めるので、クロール以外にもFessで利用しているコンポーネントの呼び出しなども可能です。これに合わせて、ログのパージ系の処理もジョブに移しました。という感じですが、さくっと修正しようかと思っていたら、結構な修正量になったような気もします…。とはいえ、以前よりもいろいろとできるようになったかと思うので、引き続きよろしくお願いしますー。

Fess 8.2のリリース

リリースしました。ここからダウンロードできます。Solr 4.4に更新したり、細かい修正をいろいろとしたりな感じです。Fessもいつの間にやら、8になり、かなり成長してきています。ですが、次は 9 にして、クロールジョブ管理機能の一新とサジェストのリファクタリングという感じで、大玉を考えています。という感じで、次もお楽しみに〜。あとついでにFessの案件も増えていて、N2SMではFess関連の作業をするエンジニアも募集中です。こっちも興味があれば気軽にお問い合わせください。
P.S. Fessについての質問等は、Fessのメーリングリストまたはフォーラムをご利用ください。そこに上げていただければベストエフォートで対応します。直接の問い合わせもいただくこともあるのですが、商用サポート以外の直対応はできないと思います…。ごめんなさい。

Solrでドメイン名をインデックスする

Solrでドメイン名のようなものを対象にするとき、どんなAnalyzerの設定が良いか考えてみると、PathHierarchyTokenizerFactoryを使って以下のような感じが良いのかなっと。

<fieldType name="domain_name" class="solr.TextField">
    <analyzer type="index">
        <tokenizer class="solr.PathHierarchyTokenizerFactory" delimiter="." reverse="true"/>
    </analyzer>
    <analyzer type="query">
        <tokenizer class="solr.KeywordTokenizerFactory" />
    </analyzer>
</fieldType>

Fessではサンプルで定義されていたurlフィールド型をsiteに使っていたのだけど、どうもこれだといまいちな感じなので上記の設定に変更しようと思う。これにすると、www.codelibs.orgをインデックスると

www.codelibs.org
codelibs.org
org

が登録される。検索クエリの時はそのまま行くのでうまくマッチすればサブドメインとか含めてヒットするだろう。