一時ファイル…

S2Robot では、結構、一時ファイルを作って消してみたいな処理をやっているのだけど、消し忘れみたいなとこがあった…。現在、ローカルファイルのクロールで数万件のクロールとかして(Webクロールだけだと、数万件のクロールテストは環境面で準備とかが大変なので、ローカルファイル対応は正解だったね)、ファイルデスクリプタが限界値超えして IOException で気がついた。何か面倒な問題だな、とも思ったけど、

lsof -p [プロセスID]

して、コードを見直したら、さっくり解決した。はまらずに解決できて良かった…。

Extractor機能

ひとまず、word, excel, powerpoint, visio, publisher, pdf からテキストを取得する機能を追加してみた。ms office 系は POI に投げている感じだけど。これはこれで、読めるものを増やしていきたいところ。そんな感じで、MIMEタイプの判定のところもそうだけど、Extractor のところもクロール機能とは関係なく、それだけで利用できるようにdiconを分けてみたりしておいた。