elasticsearchはSolrのようなluceneベースの検索サーバですが、Solrよりもデータ解析系に向かっているものかと思います。
elasticsearchはいろいろな機能をプラグインとして提供していますが、Solrっぽい動きをしてくれるmocksolrpluginというのがあるので、それを使って、FessでSolrの代わりにelasticsearchを使ってみます。
まず、ここからelasticsearchをダウンロードします。
そして、それを展開します。
$ unzip elasticsearch-0.90.0.zip
$ cd elasticsearch-0.90.0/
次に、elasticsearch-mocksolrpluginをインストールします。
ですが、オリジナルのmocksolrpluginはelasticsearch 0.90.0で動かないので(そもそもあんまり動かない気が…)、修正したものをcodelibsから提供したのでそれを利用します。
オリジナルのmocksolrpluginが今後運用されるかどうかよくわからないので、フォークして独自路線を進むかどうかは今後考えるとして、とりあえずはそこにある最新のzipを利用してもらえればOKかと。
(ちなみに修正したソースコードはここのdevelopブランチにあります)
$ ./bin/plugin -install elasticsearch-mocksolrplugin -url http://maven.codelibs.org/org/codelibs/elasticsearch-mocksolrplugin/1.1.5-SNAPSHOT/elasticsearch-mocksolrplugin-1.1.5-20130507.051401-2.zip
上記でプラグインがインストールされます。
もし、プラグインのインストールに失敗したような場合は、一度、プラグインをアンインストールして再度インストールしてください。
プラグインのアンインストールは以下のコマンド。
$ ./bin/plugin -remove elasticsearch-mocksolrplugin
そして、elasticsearchを起動します。
$ ./bin/elasticsearch
次にelasticsearch上にインデックスを生成しておく。
$ curl -XPUT 'http://127.0.0.1:9200/solr/'
URL上のsolrの部分はインデックス名なので、別にsolrという名前でなくてもOKです。
次に事前にフィールドの型を登録しておきます。
elasticsearchは何もしないと自動で型判定をして、インデックスを生成するので、必要に応じて事前にマッピングという形で型登録をしておきます。
まぁ、elasticsearchはスキーマフリーという感じだけど、日付型とかあると事前に指定しておかないとうまくいかない場合もある気がするし、型とかが事前にわかっているなら、マッピングで指定しておいた方が良い気がします。
FessのSolrスキーマをベースに作ると以下の感じ。
$ curl -XPUT 'http://127.0.0.1:9200/solr/core1/_mapping' -d '
{
"core1" : {
"index_analyzer" : "standard",
"search_analyzer" : "standard",
"date_detection" : false,
"numeric_detection" : true,
"properties" : {
"id" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"parentId" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"segment" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"digest" : {"type" : "string", "store" : "yes"},
"boost" : {"type" : "float", "store" : "yes", "null_value" : 1.0},
"host" : {"type" : "string", "store" : "yes"},
"site" : {"type" : "string", "store" : "yes"},
"url" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"content" : {"type" : "string", "store" : "yes"},
"title" : {"type" : "string", "store" : "yes"},
"cache" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"tstamp" : {"type" : "solr_date", "store" : "yes"},
"anchor" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"contentLength" : {"type" : "long", "store" : "yes"},
"lastModified" : {"type" : "solr_date", "store" : "yes"},
"lang" : {"type" : "string", "store" : "yes"},
"mimetype" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"type" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"label" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"},
"role" : {"type" : "string", "store" : "yes", "index" : "not_analyzed"}
}
}
}
'
次に、ここからFessをダウンロードして、インストールします。
$ cd ..
$ unzip fess-servver-8.0.0.zip
$ cd fess-server-8.0.0
$ chmod +x bin/*.sh
今回、Solrはいらないので削除しておきます。
$ rm -rf webapps/solr/
Fessの設定をSolrからelasticsearchに変更する。
$ vi webapps/fess/WEB-INF/classes/solrlib.dicon
...以下にSolrのパスを変更...
"http://127.0.0.1:9200/solr/core1/_solr"
そして、Fessを起動する。
$ ./bin/startup.sh
起動したら、管理者でログインします。
この辺は普通のFessと同様です。
http://127.0.0.1:8080/fess/admin/system/index にアクセスすると、solrServer1の状態がunknownと表示されるが気にしない。
現状、Function Queryがうまく処理できないので、http://127.0.0.1:8080/fess/admin/crawl/index で差分クロールのチェックを外して設定を保存する。
あとは、通常通りにクロール設定を作成してクロールを実行する。
クロールが完了したら、いつもどおりに http://127.0.0.1:8080/fess/ で検索してみてください。
検索結果に表示されればOKです。
今回、mappingでTokenizerとか設定していないので、必要に応じてその辺も設定すると良いかも。
オリジナルのものをいろいろと修正して、インデックスの登録と検索はできるようになったけど、Function Queryとか、まだ課題はある気がします。
一応、現状のものをオリジナルのところにpullリクエストはしてみたものの、特に反応はない感じです。
ということもあり、独自に作りなおしたほうが良いかな、とも思っています…。
投稿者: shinsuke
本を自炊する
最近はできるだけ電子書籍を買うようにしているけど、昔買った本などは捨てるに捨てられず、場所をとるのでそのうち、自炊で電子化しようと思っていた。というわけで、次のものを購入してようやく電子化する準備ができた。
- FUJITSU ScanSnap iX500 FI-IX500 (37,981円)
- カール事務器 丸刃40枚裁断(2往復) DC-210N (9,480円)
そもそもどうやって自炊するか、よくわかっていなかったのだけど、裁断機も昔、学校で見たような一発でバサッとやるやつを買わなければならないのかと思っていたけど、それはそれで場所を取るので、調べてみるとディスクカッター的なもので十分なことがわかった。なので、DC-210Nを買うことにした。まぁ、実際の使い方はYouTubeで説明してくれる人もいるので、それをみると使い方がよりイメージがしやすい(私はそれ見て買った)。
早速、それらを使ってやってみると、本の裁断は表紙とか手で切り離して、あとは適当に50枚くらいずつ切り離してディスクカッターで端を切っていく。ぎりぎりを切るとうまく行かない時があるので、5mmくらい余裕をもって切ると良いっぽい。裁断したら、iX500にセットして、Scanボタンをポチっと押せば入れた分だけがPDF化される。一冊をまるごとiX500にセットできないので、小分けにPDF化されていくのだけど、Acrobatも付属しているので、インストールしておけば、エクスプローラで複数のPDFを選択して右クリックするとマージするメニューが表示されるのでそれでマージができる。あとは、ScanSnap OrganizerでPDFをテキスト読み取りしてくれるので、最後にテキスト読み取りを実行すれば作業完了。そんな感じで、だいぶ辞書のような技術書を処分することができました。
Scala用のMavenのarchetype
archetype:generateを実行しても大量に一覧表示されてわかりにくいけど、
mvn archetype:generate \
-DarchetypeGroupId=org.scala-tools.archetypes \
-DarchetypeArtifactId=scala-archetype-simple
とすれば、scala-archetype-simpleでScalaプロジェクトを生成できる。