保存データをバイナリに変更

今までクロール結果をStringで保持していたのだけど、バイナリデータを扱うのがいろいろと不便なので、保存をバイト配列に変更(将来的にはInputStreamにしたいところ)。今まで通り文字列で得たい場合は、getDataAsString() メソッドで得られるようにしてみました。という感じで、リファクタリングしました。こっちの方が自然な感じだな。

ドキュメントを書く

処理ルールの指定方法とTransformerについての文を追加してみた。XpathTransformerを使えば、Solrに突っ込む XML ファイルに近いかと。地道に強化していこ。今のところ、s2robot-example しか、サンプルがないから、これはこれで増やしたいところ…。

http://s2robot.sandbox.seasar.org/ja/

s2robot-dbを切り出す

DB に依存する部分を s2robot-db として、切り出してみた。なので、s2robot だけで使えば、メモリ上だけに保存する感じで、手軽に利用できる。まぁ、クロールできる量がメモリ量に依存するので、試しに使ってみるとか、クロールする量が多くないとか、永続的に保存する必要がないとか、というようなときに使うことになるかと(メモリ上での保持の仕方はまだまだ改善の余地ありかも)。さて、ぼちぼちドキュメントを書いていかないと。