fess-ingest-*の追加

クロールしている内容をインデクスする前にファイルに保存したり、書き換えたりとかしたくなったので、Fess Ingest機能を追加しました(名前はElasticsearchのIngest Nodeっぽくしたけど、機能的には関連性はありません…)。

とりあえず、サンプル的にログに内容を出力するシンプルなfess-ingest-loggerを作りました。必要なものはsrc/main以下にあるファイルくらいなので、説明するまでもない量ですね。クロールについては、Web/ファイルシステムとデータストアは仕組みが異なるため、それぞれのprocessメッソドを実装する必要があります。

あとは、mvn packageとかすれば、target以下にjarファイルができるので、それをFessのプラグイン画面からアップロードすると、fess-ingestとして認識されて、あとはクロール時に読み込まれて使われます。

という感じで、次のリリースにこれが入ります。

Fione 13.7.0のリリース

Fione 13.7.0をリリースしました。他にもまだ実装したかったものもあるのですが、h2o-3が次のバージョンがリリースされてしまっていたり、定期リリースは必要かなと思ったり、とかでリリースした感じです。今回のリリースではPythonモジュールがいろいろと追加したので、画面上からデータフレームの操作がいろいろとできるようになりました。あとはテキストをトークナイズすることもできるようになり、Word2Vecも実行することができるようになっています。任意のPythonを追加できるようになったので、helloworld.templateを参考に.pyファイルを作成して、システムからモジュールのアップロード実行することで追加されます(Fione>AutoMLでメニューに表示されるようになる)。

という感じで、今回はPythonモジュールを増やしましたが、もっと増やしていきたいとは考えています。まだドキュメントがないけど、興味がある方は作ってみてもらえると嬉しいです。次のリリースでは、実行したモジュール群を繋げてパイプライン実行できるようなバッチをダウンロードできるような機能を提供したいと考えています。これがあれば、Fioneでポチポチと画面で実行した内容をバッチ処理化できるようになるので、別なシステムに組み込んだりがしやすくなるかと考えています。

h2o-3で日本語のトークナイズ

h2o.aiのH2OFrameにtokenizeがあるけど、これは正規表現で区切って、単語分割を実現してくれる。がしかし、日本語だと全く持って役に立たない…。でも、日本語を何とかしたい、でググってもPythonの世界にデータを持ってきて処理したりするのはあるがイマイチ期待する解決策でもない…。

ということで、どうしたものかと思い、Fione環境であればElasticsearchもあるので、ElasticsearchのAnalyze APIを用いて、単語分割を実現することにした。Fione環境だと、さらにFessの設定も使えるので、japanese_analyzerとかもあるので、これを呼べるようにすれば解決なわけである。

H2OFrameに新たなメソッドを生やすのも面倒なので、既存のtokenizeにtokenize:elasticsearch:urlみたいな文字列を渡されたら、ElasticsearchのAnalyze APIを呼んで、単語分割することにした。ということをやってくれるElasticsearchTokeinzerパッチがこれ

という感じで、これで、Python側にデータを持ってこないで、h2oのMRTaskの世界で処理ができるようになったので、ひとまず、解決。これで、Fioneで日本語をWord2Vecできるようになったはず。(素のh2oで使う場合は別途elasticsearchを用意するか、tokenizerをそんな感じで作るかかな…)

Workplace Searchの検索を試す

前回、インストールしたものの、クロール対象を用意しないとクロールできなかったので、今回はクロール対象の中で、簡単に準備できそうなDropboxをクロール対象にして試してみた。

DropboxのOAuthの設定が必要だが、手順自体はここにあるので、そこでApp KeyとApp Secretが生成できるので、それをWorkplace SearchのDropboxの接続情報に入れてConnectするとこんな感じで、取得したドキュメント件数が表示される。

今回は、Fessで使っているテスト用ファイルがfess-testdataにあるので、そこのファイルたちをDropboxに置いておいた。

とりあえず、今回は63ファイルがインデックスされたようなので、検索してみる。Go to Search Applicationで検索画面が表示される。

テスト用のファイルには「Lorem ipsum. (ロレム・イプサム) 吾輩は猫である。」という文字列があるので、試しに猫で検索してみると、こんな感じになる。

テキスト、HTML、MS Office、PDFあたりが検索できるようだ。ただ、Fessのテストデータにはいろんな種類のファイルが含まれているのですが、XMLファイルやzipに含まれるファイルなどはヒットしていなかった。あとは、仕方がない感はあるけど、Docuworks、AutoCAD,一太郎はヒットしていない。

検索結果をクリックすると、右側に情報が出てきた。それをさらにクリックすると対象のファイルに飛んでいく感じ。今回であれば、Dropboxのサイトに移動する。

絞り込みやソートについては、時間で絞り込み、関連度順と日付順のソートがある感じだった。

という感じで、今どきのUIだなという感じの印象でした。最近、Fessも今どきのUIが必要だなとは考えていたので、考えないとなと…。

Workplace Searchを試してみる

Fessを作っていると、当然ながら、他の全文検索システムも気になります 🙂

というわけで、elastic社が作っているエンタープライズサーチのWorkplace Searchも試せるようなので試してみることにします。

インストール手順はここにあるようなので、その手順に沿って、試してみます。Docker見たいのはないようなので、Ubuntuにzipのやつをコマンド叩きながら入れてみます。(コピペしていけば起動までいけるような感じでまとめるので、細かいことはドキュメントを見るのが良いです…)

まずは、適当なディレクトリでelasticsearchをダウンロードして起動。

$ wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.7.0-linux-x86_64.tar.gz
$ tar zxvf elasticsearch-7.7.0-linux-x86_64.tar.gz
$ cd elasticsearch-7.7.0/
$ echo "xpack.security.enabled: true" >> config/elasticsearch.yml
$ ./bin/elasticsearch

という感じで、elasticsearchが起動します。elasticsearchにユーザーとか作る必要があるので、別のターミナルを開いて、elasticsearchのディレクトリに行き、

$ ./bin/elasticsearch-setup-passwords auto
Initiating the setup of passwords for reserved users elastic,apm_system,kibana,logstash_system,beats_system,remote_monitoring_user.
The passwords will be randomly generated and printed to the console.
Please confirm that you would like to continue [y/N]y

Changed password for user apm_system
PASSWORD apm_system = ...略...

Changed password for user kibana
PASSWORD kibana = ...略...

Changed password for user logstash_system
PASSWORD logstash_system = ...略...

Changed password for user beats_system
PASSWORD beats_system = ...略...

Changed password for user remote_monitoring_user
PASSWORD remote_monitoring_user = ...略...

Changed password for user elastic
PASSWORD elastic = ...今回使うのはこれ...

という感じで、elasticユーザーとパスワードができます。次はWorkplace Searchをダウンロードして、設定して、起動します。

$ cd ..
$ wget https://artifacts.elastic.co/downloads/enterprise-search/enterprise-search-7.7.0.tar.gz
$ tar zxvf enterprise-search-7.7.0.tar.gz
$ cd enterprise-search-7.7.0/
$ echo "ent_search.auth.source: standard" >> config/enterprise-search.yml
$ echo "elasticsearch.username: elastic" >> config/enterprise-search.yml
$ echo "elasticsearch.password: さっきのパスワード" >> config/enterprise-search.yml
$ echo "allow_es_settings_modification: true" >> config/enterprise-search.yml
$ echo "secret_management.encryption_keys: ["`openssl rand -hex 32`", "`openssl rand -hex 32`"]" >> config/enterprise-search.yml
$ ENT_SEARCH_DEFAULT_PASSWORD=passwordexample bin/enterprise-search

とすると、しばらくすると起動が完了します。あとは、http://localhost:3002/にアクセスします。

Welcomeページが表示されます。Continue to Loginをクリックすると、ログイン画面が表示されます。

enterprise_searchユーザーで、起動時に指定したpasswordexampleをパスワードとしてログインできます。

という感じで表示されるので、Start a Free Trialを選ぶと、管理ページが表示されます。今どきのきれいなデザインですね。

検索対象に関しては、ソースを選んで登録するっぽいです。

その他にはグループやユーザー管理があります。

その他には設定関係とか。

あとは、今回、クロールする対象の準備ができなかったので、確認できてないですが、ソースの設定はこんな感じ。

という感じでした。

今回、クロールする対象が限られているので、準備して望まないと検索結果のところまで確認できなかったので、次回試すときには何かのソースを用意して検索までいきたいと思います。

で、話を戻して、Fessと比べると、Fessはもっと大きなところを対象にしていますが、エンタープライズサーチ観点ではかぶる領域もあるかと思います。クロール対象もFessでいうと、fess-ds-*のデータストアクロールとの比較になりますが、同じようなソースが存在している感じですね。ただ、Workplace Searchの方が設定画面がシンプルなので、この点は見習うべきところかもしれません…(まぁ、UI全般かもしれないけど)。

ということで、次回は検索側を確認したいと思います。