携帯用フレームワークの mobylet ですが、サイトが商用製品のような勢いでリニューアルされている。サイトのデザインももちろんのことだが、mobylet の説明についても情報が増えている。今まで、知る人ぞ知る部分だった mobylet.xml についても説明がある。これで、ますます利用しやすくなりますねー。
カテゴリー: Seasar
PDFからのテキスト抽出
S2Robot の Extractor に PDF からのテキスト抽出をするコードがあるのだけど、内部的には Apache の PDFBox を利用していて、S2Robot のテストケースにあるテスト用の PDF からは普通に抽出できるのだが、そこいらの PDF から日本語を抽出すると文字化けする。Apache の JIRA には PDFBOX-420 ていうのがあがっていて、一度は修正されたみたいだけど、テストケースが通らんから revert されているみたい…。これないと、そもそも使いものにならんのだけど、PDFBox 以外の方法として何かないかと iText の PdfTextExtractor とか試してみたりしたけど、これはこれで日本語がとれない…。そんで、また、PDFBox に戻り、revert された PDFont クラスを元に戻すと動くので、それを使うことにするかな。
S2Robotに細かい修正を入れる
来週か再来週あたりに Fess をリリースしたいと考えていて、それに併せて、細かい修正を S2Robot にポツリポツリと入れている。という感じなので、Fess のリリース前には、S2Robot 0.1.1 をリリースする予定でいます。0.1.1 の後には、拡張的な機能も追加したい感じです。