pdfbox 1.5 で扱えるpdfのエンコーディング

pdfのエンコーディングにもいくつかあるけど、ネットから拾い集めてテキストが抽出できるか試してみた。

  • Identity-H → OK
  • 90ms-RKSJ-H → OK
  • 90pv-RKSJ-H → OK
  • 83pv-RKSJ-H → NG

というわけで、pdfboxで83pv-RKSJ-Hのpdfからテキスト文字列を抽出すると文字化けする。はて、Fessではどうしようかな・・・。

ロードマップ

ちょこちょことドキュメントやバグ的なのはいじったりしていますが,4月あたりにはバージョン4.1を目指したいところです.今のところ,追加しようとしているのはファセット検索関連です.まだ,インターフェース的なところをどうするかを考え中ですが,たぶん,REST API 的なところでのサポートが対象かなっと思っています.という感じで,地道に進めていきます.

Fess 4.0.0 リリース

Fess 4.0.0をリリースしました。3.1の後、特にやることは余りないかな~、とか思っていたのだけど、何だかいろいろとやったような気もする…。チケットから振り返ってみると、大きなところでは

  • ローカルデスクトップ検索
  • JSONP対応
  • 注目キーワード機能
  • 検索統計
  • 検索ログ、クリックログ
  • NTLM認証対応
  • 一時ファイルの完全削除
  • 管理用検索一覧
  • HttpClient 4 への移行

とかな感じでしょうか。上記以外にも様々な修正が入っています。そんな感じで、パワーアップした 4.0 なのでどうぞご利用くださいませ。

そんで、次のリリースは 4.1 あたりを考えています。今のところ、特に大きなことはない気もしていますが、ファセット対応をやろうかと思っています。ファセットもFessとしてどう提供するのがいいかを考えることをしなければいけませんが…。

という感じで、引き続き進んでいきますのでよろしくお願いしますー。