pdfbox 1.5 で扱えるpdfのエンコーディング

pdfのエンコーディングにもいくつかあるけど、ネットから拾い集めてテキストが抽出できるか試してみた。

  • Identity-H → OK
  • 90ms-RKSJ-H → OK
  • 90pv-RKSJ-H → OK
  • 83pv-RKSJ-H → NG

というわけで、pdfboxで83pv-RKSJ-Hのpdfからテキスト文字列を抽出すると文字化けする。はて、Fessではどうしようかな・・・。

カテゴリー: Apache, Fess パーマリンク

コメントを残す

メールアドレスが公開されることはありません。

Time limit is exhausted. Please reload the CAPTCHA.