JAFでMIMEタイプ取得

JavaBeans Activation Framework を使えば、以下みたいな感じで MIME タイプを取得できる。

String filename = "hoge.txt";
String mimeType = new MimetypesFileTypeMap().getContentType(filename);

これをするためには、Maven2 を使っているなら、pom.xml に

:
<repositories>
<repository>
<id>java.net</id>
<url>http://download.java.net/maven/1</url>
<layout>legacy</layout>
</repository>
</repositories>
:
<dependency>
<groupId>javax.activation</groupId>
<artifactId>activation</artifactId>
<version>1.1.1</version>
</dependency>
:

を書けば良い。jaf もデフォルトで処理できる拡張子が少ないので、META-INF/mime.typesを作って

application/msword              doc dot wiz rtf
application/msexcel             xls
application/mspowerpoint        ppt
application/x-pdf               pdf

という感じで書いていけば拡張可能。という感じで、S2Robot 内で使ってみた。

やっとこ検索

全文検索として、Fess を作っているけど、やっとこ指定時刻にクロールしてインデックスできる感じになってきた。まぁ、まだ、Solr の細かいところまで分かってない気もするけど、schema.xml を nutch のを参考にして、作り直してみたりした。今のところは、S2Robot で Web 巡回しかできていないので、ファイルシステムの巡回も何とかしたいな(ファイルシステムの巡回もS2Robotにもたせるのはありかも)。そんでもって、より nutch と差別化していくためにもモバイルにも対応させようかと考え中(ここはMobyletの出番か!?)。S2Chronos も使っているけど、ちらちらコードを見ていると気になるところがあるのだよな…(*_ja.properties だけで、デフォルトのやつはいらんのかとか、ソース上でc:\tmpみたいのも見に行くとこもあったような)。あとは、ぼちぼち S2Robot に robots.txt やサイトマップを読む機能をつけないとな(行儀をよくしないと)。Javaのrobots.txtとか読みにいくようなライブラリもちらっと探してみたけど、標準的なものがないっぽいから自前で作る必要があるな。そんな感じで、まだ、いろいろとあるけど地道に進行中。

Random

java.util.RandomでRandom()としたときのシードって、固定かと思っていたら違うのね。Java 1.4 まではSystem.currentTimeMillis() をしていたけど、Java 5 以降では seedUniquifier の値とSystem.nanoTime()の和でよりかぶらない値にしたのね。確認した感じだと、1.1 あたりから現在時間をシードにしてたみたいだな(1.0.2 とかのJavaDocが見つからないからそれは不明)。てっきり固定かと思ってた…。