ExtractorやMimeTypeHelperとか

今まで、pdf とか word からのテキスト抽出とか自前で実装してきたのだけど、Apache の Tika を見たら、Extractor と同じことをやるみたいで調査をしてみた。Tika に対抗して、自前で作るかと思ったのだけど、TIka をざっくりと見てみると、結構、いろいろとやっている…。オーディオファイルも対象にしたりといろんなフォーマットを読み込めるようだ。MimeTypeの判定もファイル名の拡張子だけでなくて、ファイルの中身までも見ているよ…。というわけで、Tika をラップして DI できるようにした方が賢いと思い始める今日この頃。ZipExtractor とかいろいろと作ったのだけどね…。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です