pdfbox 1.5 で扱えるpdfのエンコーディング

pdfのエンコーディングにもいくつかあるけど、ネットから拾い集めてテキストが抽出できるか試してみた。

  • Identity-H → OK
  • 90ms-RKSJ-H → OK
  • 90pv-RKSJ-H → OK
  • 83pv-RKSJ-H → NG

というわけで、pdfboxで83pv-RKSJ-Hのpdfからテキスト文字列を抽出すると文字化けする。はて、Fessではどうしようかな・・・。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です