Fess 13.10.2のリリース

Fess 13.10.2をリリースしました。細々とした修正をしたリリースになります。

まず、#2507の話で、Tomcat 9.0.41に上げました。13.10.0のリリースのときに上げておきたかったのですが、依存関係のエラーになったので見送っていたのですが、見直したところ、今までがtomcat-jasperを使っていたのが良くなかったようで、組み込みTomcatなので、tomcat-embed-jasperに置き換えたら解決しました…。という感じで、正しい依存関係になった感じです。

次に、#2508では、FessでGCログを出すようにしていますが、ローテーションして保存しているファイルが結構、多すぎる感じがするので、減らしました。過去分は5ファイルくらい残っていれば十分かなと…。今まで多すぎた感があった。

#2510はMicrosoft系のシステムだと、大文字小文字の区別がゆるいシステムがあったりするので、それに対応するためにAzureから得られる権限情報を小文字にする設定を追加しました。デフォルトは無効になっているので、今までとデフォルトの動作は変わらないです。

#2511はラベルのログメッセージが適用されたかがわかりにくかったので、修正しました。

#2512は、前回のリリースあたりで、検索クエリーにファジーを加えましたが、prefix_lengthやtranspositionsとかのパラメータを指定できなかったので、一通り設定できるようにしました。ついでに、min.lengthを-1にすれば、ファジークエリーを無効にすることもできるようにしました。

あとは、#2513では、検索結果に緑色の文字列としているサイト情報部分の文字列の取得の仕方を改善しました。siteフィールドから値を取っているつもりだったのですが、検索結果の表示時にURLから生成する状態になっていたので、siteフィールドに値がある場合はそれを表示して、なければ、URLから生成にしました。

これら以外には、fess-crawlerもバージョンを上げたので、jcifs-ngから取り込んだ修正が入ったくらいです。いつもはelasticsearchがリリースされてからリリースするのですが、商用案件がいくつかあって、このリリースを使いたいというのもあり、elasticsearchのリリースを待たずにリリースしました。

今回は、修正内容について、コメントしてみました。時間があれば、次回もコメントしたいところではありますが、忙しければしないかも…。そんな感じではありますが、何かあれば、フォーラムをご利用ください。

Fess 13.10.1のリリース

Fess 13.10.1をリリースしました。今回のリリースでは、設定のテンプレート機能とクエリーの重み付けの調整をしてます。

クロール設定を作るときに、同じような設定で作ると結構面倒なので、__TEMPLATE__という名前でクロール設定を作っておくと、それをテンプレートとして利用して、クロール設定を作ることができます。

クエリーの重みの見直しはdocsearch.codelibs.orgで使っているものと同じにして、タイトルを強めに見るようにしました。その他には、英語圏だと日本語よりtypoの頻度が高い感じしていて、実際にもtypoに当たらないとも言われるのもあり、fuzzyクエリーも追加して、英数字の単語にはtypoにもできるだけ当たるようにしました。これの重みは低いので、これらが上位に来ることはないとは思いますが。

その他としては、PythonJobというの入れて、pythonコマンドをスケジュールから実行できるようにしました。今後の実験的な機能なので、すぐに使えるようなものではないかもしれませんが…。

という感じで、何かあればフォーラムをご利用ください。

ブースト値の見直し

docsearch.codelibs.orgをChromeのデフォルト検索として使っていると、あれこれと細かい検索品質調整がしたくなる今日この頃。まずは、docsearch.codelibs.orgで適用していたtitle, content, title_xx, content_xxのブースト値をFessにも反映しました。今後、タイトルに含まれる単語が優先されると思いますが、検索結果としてはこれくらいのほうが自然かなと思っています。環境によると思うので、この辺はfess_config.propertiesのquery.boost.*のあたりの値を調整してください。

そして、important_contentというフィールドも昔からあるのですが、昔はlangfieldプラグインで調整した感じだと思いますが、langfieldプラグインをやめて以降、使われない感じになっていました。本来はここに重要な単語を入れて検索結果をブーストする目的なのですが、今回は利用するように変更しました。でも、デフォルト値は-1.0にして、使われないようにしてあるので、使う場合には再インデックスしてから0以上の値を入れて調整してください。

さらに、docsearch.codelibs.orgで検索していると、英語系だとtypoしたときにヒットしないので、Fuzzyクエリーの検索結果も含めるようにしました。低いブーストなので、これでヒットした値は、検索結果の上位には出てこないとは思いますが、ヒット件数が少ないときとかはtypoもヒットしてくるようになると思います。日本語はbi-gramになっているので、この対象にならないと思いますが…。

という感じの検索品質改善を行いましたが、検索品質は対象のドキュメントにもよるので、この辺のブーストは、query.boost.*あたりで環境に合わせて調整する必要があるので、この辺の調整をしないで、Fessの検索品質が悪いとか言わないようにしてくださいね 🙂