pdfのエンコーディングにもいくつかあるけど、ネットから拾い集めてテキストが抽出できるか試してみた。
- Identity-H → OK
- 90ms-RKSJ-H → OK
- 90pv-RKSJ-H → OK
- 83pv-RKSJ-H → NG
というわけで、pdfboxで83pv-RKSJ-Hのpdfからテキスト文字列を抽出すると文字化けする。はて、Fessではどうしようかな・・・。
Challange IT For Future
pdfのエンコーディングにもいくつかあるけど、ネットから拾い集めてテキストが抽出できるか試してみた。
というわけで、pdfboxで83pv-RKSJ-Hのpdfからテキスト文字列を抽出すると文字化けする。はて、Fessではどうしようかな・・・。
ちょこちょことドキュメントやバグ的なのはいじったりしていますが,4月あたりにはバージョン4.1を目指したいところです.今のところ,追加しようとしているのはファセット検索関連です.まだ,インターフェース的なところをどうするかを考え中ですが,たぶん,REST API 的なところでのサポートが対象かなっと思っています.という感じで,地道に進めていきます.
Fess 4.0.0をリリースしました。3.1の後、特にやることは余りないかな~、とか思っていたのだけど、何だかいろいろとやったような気もする…。チケットから振り返ってみると、大きなところでは
とかな感じでしょうか。上記以外にも様々な修正が入っています。そんな感じで、パワーアップした 4.0 なのでどうぞご利用くださいませ。
そんで、次のリリースは 4.1 あたりを考えています。今のところ、特に大きなことはない気もしていますが、ファセット対応をやろうかと思っています。ファセットもFessとしてどう提供するのがいいかを考えることをしなければいけませんが…。
という感じで、引き続き進んでいきますのでよろしくお願いしますー。