PDFから文字列取得

PDFBox を使うと、PDF から簡単に文字列を取得することができる。

PDDocument document = PDDocument.load(in);
ByteArrayOutputStream baos = new ByteArrayOutputStream();
Writer output = new OutputStreamWriter(baos, encoding);
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(document, output);
return baos.toString(encoding);

Maven2 でこれしたいなら、以下を pom.xml に書く。

<dependency>
<groupId>pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>0.7.3</version>
</dependency>

一応、文字化けもしないみたい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です