FessでOllamaの使い方を考える

Fessのクロール時にOllamaを呼んで、何かできないかなと考えてみる。

  • クロールで取得したファイルをLLMに渡す
  • ファイルから抽出したテキストをLLMに渡す

などが考えられるかな…。前者はExtractorを作る感じで、後者はIngesterあたりで処理する感じになるかな。とりあえず、前者から考えてみると、画像を渡して、そこからテキストにするとかかな。

という感じで、叩き台的な感じで、fess-crawler-ollamaを作ってみた。system.propertiesに設定を書くような感じにして、設定されているプロンプトでExtractorでファイルを処理する的な。テキストファイルも対象にするような感じで考えてみたものの、テキストファイルを丸ごと渡して、処理したいような場合もないような気も…。テキストを処理したいような場合は、Ingesterの方ですることを考えた方が良いかな。

これはこれでもうすこし整理したら、fess-ingest-ollamaみたいなものを作るかもしれない。

Fess 15に向けて

Lucene 10がリリースされ、OpenSearchも2.18のロードマップがなくなり、3.0に向かっている感じがするので、Fessも14から15に向けて、進んでいこうと思います。

何か変わるのか?というのは、たぶん、見た目は大して変えないと思います。しかし、内部実装的なところでは、サーブレットのバージョンを上げていく必要がり、それに伴うjavaxからjakartaパッケージに変える、という対応をしていきます。なので、依存ライブラリたちがいろいろと上がっていく感じになります。

とはいえ、この作業自体は、今年の初めに準備済みなので、それがようやく出番が来たみたいな感じです。そんな感じで、準備はしていたので、細々と更なる更新をするだけかなと思います。

ということで、githubのfessのmasterブランチは、15系に変わりました。

引き続きよろしくお願いしますー。

Fess 14.17のリリース

Fess 14.17をリリースしました。いつものように細々とした修正をしている感じではありますが、このリリースから、1つのOpenSearchのクラスターに対して、複数のFessのインスタンスを起動することができます。OpenSearch上のインデックスは、それぞれおのインスタンスとして、利用することができるようになります。今までも、設定としてはあったのですが、それぞれのFessのインスタンスから制御できなくなっていたので、設定周りを整理しました。

それ以外では、canonical URLのチェックで大文字小文字は無視するようにしたり、ファイルアップロード周りの処理を見直したりした感じです。

あとは、ソースコードの修正とは関係ないところで、リリースノートの文面はChatGPTで生成するようにしていましたが、フォーラムでのリリースのお知らせもChatGPTで生成するようにしたので(今までただのリンクしか置いてなかった…)、それっぽくなったような気もします。毎回、文面を考えるのも結構めんどくさいので…。

何かあれば、フォーラムへ投げてください。