Seasar Conference でしゃべります

ここのところ力を入れてきた、S2Robot と Fess について話します。

http://event.seasarfoundation.org/sc2009autumn/Session#S3044

2本立てな感じだけど、S2Robot はクローラフレームワークです。ウェブやファイルシステムなど自由に巡回して、指定した内容を取得することができます。HTML をクロールできるのはもちろんだけど、MS Office 系ファイル、画像、音声、圧縮ファイルなど文字列を取得できるファイルは情報取得が可能です(画像や音声はメタ情報を取ることになりますが)。たぶん、使っていただければわかると思いますが、S2Robot はなかなか高機能なクローラな感じです。

Fess については、Java フレンドリーな全文検索システムです。クローラの部分は S2Robot を利用しているので、ウェブやローカルファイルシステムをクロールしてインデックスが可能です。インデックス対象も S2Robot が処理できるものになるので、さまざまな形式のファイルを検索対象にできます。そして、検索エンジン部分には、Apache Solr を持ってきています。Wikipedia によると、Solr は約 2 億ドキュメントもインデックスしているサイトもあるようで、実際に Fess で使っていますが快適です(どこかのアプライアンスのような数万、数十万ドキュメントまでなどのようなちっちゃなことは言いません)。Fess では、Solr サーバをグルーブ化設定できたりと、インデックスできる最大ドキュメント数は構成次第です。あとは、Java フレンドリーというキャッチコピーで書いていますが、システム自体は SAStruts です。なので、Fess のアプリ自体は war ファイルで完結してます。デザイン等は jsp をいじればよいですし、Tomcat のようなサーブレットコンテナがあれば使えます。そうそう、重要なことを一つ忘れてた。Fess はモバイル対応をしています(たぶん、これはほかになかなかないような気が)。これは Mobylet の機能のおかげなのですが、各携帯用にも検索結果を最適に表示できたりします。ちなみに Fess は グッジョブ で稼働させたりしています(様子を見ながらな感じですけど)。

という感じで、並びのコマも Blogopolis、DBFlute、T2 と強力な感じなので、集客活動を頑張らないといかんな~と思っています。S2RobotとFessではネームバリューもないので、竹内さん のところで触れてもらったりと(^^; ぜひ、皆様、Seasar Conference にお越しください~。

もう少しでベータ

現在、新規に機能追加はしないでバグ修正&テストに専念している(テストといってもインデックスの自動実行を放置しているだけだけど)。Mobyletのリリース待ちにもなっている感じだけど、問題が無ければ 1.0 beta1 としてリリースする予定。beta1 とか付けるけど、普通に使えるかと。そもそも、5月末くらいにリリースしようと思いつつ、あれこれ加えていたら、今になってしまった(もともとローカルファイルまでインデックスしたり、モバイル対応する予定はなかったし)。Google Mini に対抗できるようなもになると良いのだけどね。Google Mini は一日に50万ドキュメントいけるらしい。Fess は丸一日とかインデックスするものがなくて、一日は試せていないけど、チューニングとかなしで観測している感じでは7時間で12万ドキュメントはいける感じだな。まぁ、Google Mini のように上限もないし、分散したりもできるし、ドキュメントのインデックス性能は Solr の構成次第になるからね(Solrも1億ドキュメントをインデックスしているような話もあるし)。そんなわけで、越えることはできるしょー(楽観的だけど)。ひとまず、リリースしていかないと始まらないから、利用可能な状態に早くしたいと思います。Seasar Conference では、Fess も紹介するつもりです~。ということで、Javaフレンドリーな全文検索システム Fess をよろしくですー。