POI を使うと、Wordからとか、簡単に文字列を取得することができる。
InputStream in = ...; String content; content = new org.apache.poi.hwpf.extractor.WordExtractor(in).getText(); content = new org.apache.poi.hssf.extractor.ExcelExtractor(new HSSFWorkbook(in)).getText(); content = new org.apache.poi.hslf.extractor.PowerPointExtractor(in).getText();
Maven2 でこれしたいなら、以下を pom.xml に書く。
<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>3.5-beta6</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-scratchpad</artifactId> <version>3.5-beta6</version> </dependency>
一応、文字化けもしないみたい。