Elasticsearch River Web

ElasticsearchでfluentdとKibanaと組み合わせてログ集計するパターンはありがちかと思うけど、ウェブのコンテンツを定期的に収集するプラグイン(River)がほしいなっと思い、Elasticsearch River Webを作り始めました。まぁ、簡単にElasticsearch River Webを説明すると、Webクローラーです。内部的にはS2Robotを利用しているので、Fessと同じ感じでクロールすることができます。とはいえ、Fessは全文検索システムを目指していますが、このRiver Webはコンテンツ収集に焦点を当ててた感じになっています。クロールはFessもRiver Webも同じですが、River WebはWebスクレイピングをして、Elasticsearch内にドキュメントを生成していきます。つまり、CSSクエリーで特定のHTMLの場所を指定して、その得られた値をドキュメントのプロパティ(Solrでいうと、1つのフィールド)に格納していきます。なので、集めたいコンテンツの情報だけをインデックス化することができ、Kibanaとかで結果を分析用にいい感じで表示するとかができます。という感じで、River Webはウェブコンテンツの収集・解析などの用途で利用していければな、と考えています。

Maven Archetype for Elasticsearch Plugin

Elasticsearchのプラグインを作るときにMavenのArchetypeが見つからなかったので、作ってみました。ここにあります。使い方もMavenのarchetype:generateゴールを実行するだけでプロジェクトができます。デフォルトでは、サービス、River、Restの3つの機能が含まれています。この辺もプロパティで出し分けたほうが良いような気もしますが、とりあえず、全部入りで生成されるのでいらないものを削除してください。CodeLibsのMavenリポジトリを使っていますが、そろそろセントラルに置くことも考えた方が良いのかなっとも思い始めています。という感じですが、Elasticsearchのプラグインを作る際にはご利用くださいませ。

elasticsearch-mocksolrpluginの更新

ここで書いたようにelasticsearch-mocksolrpluginをforkしていたのだけど、先週末にいろいろとリファクタリングをしてここのdevelopブランチに置いてあります。もう少ししたら、mocksolrpluginっていう名前もどうかなという気もするので、普通にelasticsearch-solrみたいな名前にしてリリース物を作っておこうかと考え中。mocksolrpluginのままだと、元のやつよりだいぶ進化しているのもあって名前が紛らわしくなってしまうし。という感じで、もう少し地道にブラッシュアップしていこうかなっと。

Fessでelasticsearchを利用する

elasticsearchはSolrのようなluceneベースの検索サーバですが、Solrよりもデータ解析系に向かっているものかと思います。
elasticsearchはいろいろな機能をプラグインとして提供していますが、Solrっぽい動きをしてくれるmocksolrpluginというのがあるので、それを使って、FessでSolrの代わりにelasticsearchを使ってみます。
まず、ここからelasticsearchをダウンロードします。
そして、それを展開します。

$ unzip elasticsearch-0.90.0.zip
$ cd elasticsearch-0.90.0/

次に、elasticsearch-mocksolrpluginをインストールします。
ですが、オリジナルのmocksolrpluginはelasticsearch 0.90.0で動かないので(そもそもあんまり動かない気が…)、修正したものをcodelibsから提供したのでそれを利用します。
オリジナルのmocksolrpluginが今後運用されるかどうかよくわからないので、フォークして独自路線を進むかどうかは今後考えるとして、とりあえずはそこにある最新のzipを利用してもらえればOKかと。
(ちなみに修正したソースコードはここのdevelopブランチにあります)

$ ./bin/plugin -install elasticsearch-mocksolrplugin -url http://maven.codelibs.org/org/codelibs/elasticsearch-mocksolrplugin/1.1.5-SNAPSHOT/elasticsearch-mocksolrplugin-1.1.5-20130507.051401-2.zip

上記でプラグインがインストールされます。
もし、プラグインのインストールに失敗したような場合は、一度、プラグインをアンインストールして再度インストールしてください。
プラグインのアンインストールは以下のコマンド。

$ ./bin/plugin -remove elasticsearch-mocksolrplugin

そして、elasticsearchを起動します。

$ ./bin/elasticsearch

次にelasticsearch上にインデックスを生成しておく。

$ curl -XPUT 'http://127.0.0.1:9200/solr/'

URL上のsolrの部分はインデックス名なので、別にsolrという名前でなくてもOKです。
次に事前にフィールドの型を登録しておきます。
elasticsearchは何もしないと自動で型判定をして、インデックスを生成するので、必要に応じて事前にマッピングという形で型登録をしておきます。
まぁ、elasticsearchはスキーマフリーという感じだけど、日付型とかあると事前に指定しておかないとうまくいかない場合もある気がするし、型とかが事前にわかっているなら、マッピングで指定しておいた方が良い気がします。
FessのSolrスキーマをベースに作ると以下の感じ。

$ curl -XPUT 'http://127.0.0.1:9200/solr/core1/_mapping' -d '
{
"core1" : {
"index_analyzer" : "standard",
"search_analyzer" : "standard",
"date_detection" : false,
"numeric_detection" : true,
"properties" : {
"id" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"parentId" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"segment" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"digest" : {"type" : "string", "store" : "yes"},
"boost" : {"type" : "float", "store" : "yes", "null_value" : 1.0},
"host" : {"type" : "string", "store" : "yes"},
"site" : {"type" : "string", "store" : "yes"},
"url" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"content" : {"type" : "string", "store" : "yes"},
"title" : {"type" : "string", "store" : "yes"},
"cache" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"tstamp" : {"type" : "solr_date", "store" : "yes"},
"anchor" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"contentLength" : {"type" : "long", "store" : "yes"},
"lastModified" : {"type" : "solr_date", "store" : "yes"},
"lang" : {"type" : "string", "store" : "yes"},
"mimetype" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"type" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"label" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"role" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"}
}
}
}
'

次に、ここからFessをダウンロードして、インストールします。

$ cd ..
$ unzip fess-servver-8.0.0.zip
$ cd fess-server-8.0.0
$ chmod +x bin/*.sh

今回、Solrはいらないので削除しておきます。

$ rm -rf webapps/solr/

Fessの設定をSolrからelasticsearchに変更する。

$ vi webapps/fess/WEB-INF/classes/solrlib.dicon
...以下にSolrのパスを変更...
"http://127.0.0.1:9200/solr/core1/_solr"

そして、Fessを起動する。

$ ./bin/startup.sh

起動したら、管理者でログインします。
この辺は普通のFessと同様です。
http://127.0.0.1:8080/fess/admin/system/index にアクセスすると、solrServer1の状態がunknownと表示されるが気にしない。
現状、Function Queryがうまく処理できないので、http://127.0.0.1:8080/fess/admin/crawl/index で差分クロールのチェックを外して設定を保存する。
あとは、通常通りにクロール設定を作成してクロールを実行する。
クロールが完了したら、いつもどおりに http://127.0.0.1:8080/fess/ で検索してみてください。
検索結果に表示されればOKです。
今回、mappingでTokenizerとか設定していないので、必要に応じてその辺も設定すると良いかも。
オリジナルのものをいろいろと修正して、インデックスの登録と検索はできるようになったけど、Function Queryとか、まだ課題はある気がします。
一応、現状のものをオリジナルのところにpullリクエストはしてみたものの、特に反応はない感じです。
ということもあり、独自に作りなおしたほうが良いかな、とも思っています…。