pdfのエンコーディングにもいくつかあるけど、ネットから拾い集めてテキストが抽出できるか試してみた。
- Identity-H → OK
- 90ms-RKSJ-H → OK
- 90pv-RKSJ-H → OK
- 83pv-RKSJ-H → NG
というわけで、pdfboxで83pv-RKSJ-Hのpdfからテキスト文字列を抽出すると文字化けする。はて、Fessではどうしようかな・・・。
Challange IT For Future
pdfのエンコーディングにもいくつかあるけど、ネットから拾い集めてテキストが抽出できるか試してみた。
というわけで、pdfboxで83pv-RKSJ-Hのpdfからテキスト文字列を抽出すると文字化けする。はて、Fessではどうしようかな・・・。