Fessの中のSolr

はじめに

これは Solr Advent Calendar 2014 – Qiita 、10日目の記事です。
Fessの中で使われているSolrについて、ご紹介します。
Tomcat上でウェブアプリとか作っておいて、そこにSolrを相乗りとかさせるときに参考になるかもしれません。

Fessの中のSolr

ざっくりではありますが、Solrを同梱しているFessの配布物についてまとめます。

  • FessはTomcatで配布している
  • solr.warをTomcatに配備している(Fessのfess.warと相乗り)
  • SolrにBASIC認証を設定している
  • Fess内ではSolrJでアクセスしている

今回は、FessでSolrJを使って、どのように呼び出しているかの細かい話は省略しますが、SolrLibというものを作って、SolrJをラップして利用しています。
続いて、実際の中身を見ていきたいと思います。

ダウンロード

まずは、Fessをダウンロードします。
現在、ここから fess-server-9.3.1.zipをダウンロードできます。
今回は、特に実行とかが目的ではないので、これ以外は特に必要はありません。

展開

fess-server-9.3.1.zipを展開します。

$ unzip fess-server-9.3.1.zip
$ cd cd fess-server-9.3.1

展開すると、Tomcatをご存じの方はすぐわかるかと思いますが、ほぼTomcatな感じです。
FessでSolrをTomcat上で動かすために変更している部分は以下になります。

  • solrディレクトリ
  • webapps/solrディレクトリ
  • bin/setenv.*ファイル
  • conf/tomcat-users.xmlファイル

Fessの配布物を生成するビルドスクリプトの中で、Tomcatをダウンロードして、Solrをダウンロードして、fess.warをビルドして、必要なファイルを置き換えてTomcatに固め直す、ということを行っています。
それを行っているのがfess-serverというプロジェクトになります。
ですので、そのプロジェクトのbuild.xmlを見ると、solr.warをTomcatにどのように配備しているのかが分かるかと思います。
簡単にですが、置き換えている概要的な説明をしておきます。

solrディレクトリ

Solrの配布物に含まれるexampleをベースにcollection1などを持ってきて、必要なファイルを置き換えています。
schema.xml、solrconfig.xml、solr.xml、core.propertiesはFess独自で用意しています。
あとは、Fessは通常の全文検索のインデックスをcore1として、サジェスト用インデックスにはcore1-suggestという感じで2つのコアを利用しています。

webapps/solrディレクトリ

Solrの配布物に含まれるsolr.warを展開して、webapps以下に置いています。
BASIC認証を適用しているので、web.xmlにその設定を加えています。

bin/setenv.*ファイル

Solr用にはsolr.solr.homeを設定しています。

conf/tomcat-users.xmlファイル

BASIC認証用のユーザーを追加しています。
以上のような形でSolrをFessに組み込んでいます。
という感じで、Solrの配布物を持ってきて、上記のファイルを持ってきて編集すれば、ご利用の環境にSolrを配備して利用することができるようになるかと思います。機会があれば、試してみるのも良いかと。

Fessでelasticsearchを利用する

elasticsearchはSolrのようなluceneベースの検索サーバですが、Solrよりもデータ解析系に向かっているものかと思います。
elasticsearchはいろいろな機能をプラグインとして提供していますが、Solrっぽい動きをしてくれるmocksolrpluginというのがあるので、それを使って、FessでSolrの代わりにelasticsearchを使ってみます。
まず、ここからelasticsearchをダウンロードします。
そして、それを展開します。

$ unzip elasticsearch-0.90.0.zip
$ cd elasticsearch-0.90.0/

次に、elasticsearch-mocksolrpluginをインストールします。
ですが、オリジナルのmocksolrpluginはelasticsearch 0.90.0で動かないので(そもそもあんまり動かない気が…)、修正したものをcodelibsから提供したのでそれを利用します。
オリジナルのmocksolrpluginが今後運用されるかどうかよくわからないので、フォークして独自路線を進むかどうかは今後考えるとして、とりあえずはそこにある最新のzipを利用してもらえればOKかと。
(ちなみに修正したソースコードはここのdevelopブランチにあります)

$ ./bin/plugin -install elasticsearch-mocksolrplugin -url http://maven.codelibs.org/org/codelibs/elasticsearch-mocksolrplugin/1.1.5-SNAPSHOT/elasticsearch-mocksolrplugin-1.1.5-20130507.051401-2.zip

上記でプラグインがインストールされます。
もし、プラグインのインストールに失敗したような場合は、一度、プラグインをアンインストールして再度インストールしてください。
プラグインのアンインストールは以下のコマンド。

$ ./bin/plugin -remove elasticsearch-mocksolrplugin

そして、elasticsearchを起動します。

$ ./bin/elasticsearch

次にelasticsearch上にインデックスを生成しておく。

$ curl -XPUT 'http://127.0.0.1:9200/solr/'

URL上のsolrの部分はインデックス名なので、別にsolrという名前でなくてもOKです。
次に事前にフィールドの型を登録しておきます。
elasticsearchは何もしないと自動で型判定をして、インデックスを生成するので、必要に応じて事前にマッピングという形で型登録をしておきます。
まぁ、elasticsearchはスキーマフリーという感じだけど、日付型とかあると事前に指定しておかないとうまくいかない場合もある気がするし、型とかが事前にわかっているなら、マッピングで指定しておいた方が良い気がします。
FessのSolrスキーマをベースに作ると以下の感じ。

$ curl -XPUT 'http://127.0.0.1:9200/solr/core1/_mapping' -d '
{
"core1" : {
"index_analyzer" : "standard",
"search_analyzer" : "standard",
"date_detection" : false,
"numeric_detection" : true,
"properties" : {
"id" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"parentId" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"segment" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"digest" : {"type" : "string", "store" : "yes"},
"boost" : {"type" : "float", "store" : "yes", "null_value" : 1.0},
"host" : {"type" : "string", "store" : "yes"},
"site" : {"type" : "string", "store" : "yes"},
"url" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"content" : {"type" : "string", "store" : "yes"},
"title" : {"type" : "string", "store" : "yes"},
"cache" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"tstamp" : {"type" : "solr_date", "store" : "yes"},
"anchor" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"contentLength" : {"type" : "long", "store" : "yes"},
"lastModified" : {"type" : "solr_date", "store" : "yes"},
"lang" : {"type" : "string", "store" : "yes"},
"mimetype" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"type" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"label" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"role" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"}
}
}
}
'

次に、ここからFessをダウンロードして、インストールします。

$ cd ..
$ unzip fess-servver-8.0.0.zip
$ cd fess-server-8.0.0
$ chmod +x bin/*.sh

今回、Solrはいらないので削除しておきます。

$ rm -rf webapps/solr/

Fessの設定をSolrからelasticsearchに変更する。

$ vi webapps/fess/WEB-INF/classes/solrlib.dicon
...以下にSolrのパスを変更...
"http://127.0.0.1:9200/solr/core1/_solr"

そして、Fessを起動する。

$ ./bin/startup.sh

起動したら、管理者でログインします。
この辺は普通のFessと同様です。
http://127.0.0.1:8080/fess/admin/system/index にアクセスすると、solrServer1の状態がunknownと表示されるが気にしない。
現状、Function Queryがうまく処理できないので、http://127.0.0.1:8080/fess/admin/crawl/index で差分クロールのチェックを外して設定を保存する。
あとは、通常通りにクロール設定を作成してクロールを実行する。
クロールが完了したら、いつもどおりに http://127.0.0.1:8080/fess/ で検索してみてください。
検索結果に表示されればOKです。
今回、mappingでTokenizerとか設定していないので、必要に応じてその辺も設定すると良いかも。
オリジナルのものをいろいろと修正して、インデックスの登録と検索はできるようになったけど、Function Queryとか、まだ課題はある気がします。
一応、現状のものをオリジナルのところにpullリクエストはしてみたものの、特に反応はない感じです。
ということもあり、独自に作りなおしたほうが良いかな、とも思っています…。

SolrJ 4.2の変更点

Solr 4.2になって、SolrJのSolrQuery#addSortFieldがDeprecatedになった。つまり、

query.addSortField("hoge", ORDER.desc);

というのを

query.addSort("hoge", ORDER.desc);



query.addSort(new SortClause("hoge", ORDER.desc));

という感じに変更するみたい。この変更は順番の関係かしら…。