fess-ingest-ndjsonを作る

fess-ingest-ndjsonを作ってみました。これは、elasticsearchに送っている内容を指定されたファイルに保存していく感じです。なので、クロールしている内容を別途保存しておきたいときとかに利用できるかなと。保存しておくことで、Pythonで読み込んで別の処理に使うとかもできるかと。

インストールしたあとはsystem.propertiesファイルに出力先とかを記述する必要があります。たとえば、

ingest.ndjson.path=/tmp
ingest.ndjson.max.lines=10000
ingest.ndjson.prefix=fess-

みたいに書いておけば、fess-*.ndjsonファイルができて、10000件ずつ保存されていきます。1クロール処理で切り替わるので、10000件に満たなければ、次には新しいファイルになります。あとは、titleとcontentだけを保存するのであれば、

ingest.ndjson.filter.keys=title,content

とすれば、それだけが出力されます。

という感じで、別な何かをしたいときとかに利用するものを生成するとかに使えるかなと思います。(というか、Pythonで読み込んで使おうかなと自分で思っていたから作った感じですけど・・・)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です