今まで、pdf とか word からのテキスト抽出とか自前で実装してきたのだけど、Apache の Tika を見たら、Extractor と同じことをやるみたいで調査をしてみた。Tika に対抗して、自前で作るかと思ったのだけど、TIka をざっくりと見てみると、結構、いろいろとやっている…。オーディオファイルも対象にしたりといろんなフォーマットを読み込めるようだ。MimeTypeの判定もファイル名の拡張子だけでなくて、ファイルの中身までも見ているよ…。というわけで、Tika をラップして DI できるようにした方が賢いと思い始める今日この頃。ZipExtractor とかいろいろと作ったのだけどね…。
Gmailで件名からラベル削除
Gmailを利用しているのだけど、件名にラベルがついて、3つくらいラベルが付くと件名が見えないので、困っていたのだけど、「件名からラベルを削除」がLabsで選べるようになったのね。早速適用したら、すっきり!よかった、よかった。
東京マラソン
申し込みが始まったみたいだね。今月末までか…。もうちょっと寝かしておこう。去年もしばらくしてから申し込んだ気がするから、どうせ、抽選だし、来週末くらいにのんびりやっておこ。