Fione 13.7.0のリリース

Fione 13.7.0をリリースしました。他にもまだ実装したかったものもあるのですが、h2o-3が次のバージョンがリリースされてしまっていたり、定期リリースは必要かなと思ったり、とかでリリースした感じです。今回のリリースではPythonモジュールがいろいろと追加したので、画面上からデータフレームの操作がいろいろとできるようになりました。あとはテキストをトークナイズすることもできるようになり、Word2Vecも実行することができるようになっています。任意のPythonを追加できるようになったので、helloworld.templateを参考に.pyファイルを作成して、システムからモジュールのアップロード実行することで追加されます(Fione>AutoMLでメニューに表示されるようになる)。

という感じで、今回はPythonモジュールを増やしましたが、もっと増やしていきたいとは考えています。まだドキュメントがないけど、興味がある方は作ってみてもらえると嬉しいです。次のリリースでは、実行したモジュール群を繋げてパイプライン実行できるようなバッチをダウンロードできるような機能を提供したいと考えています。これがあれば、Fioneでポチポチと画面で実行した内容をバッチ処理化できるようになるので、別なシステムに組み込んだりがしやすくなるかと考えています。

h2o-3で日本語のトークナイズ

h2o.aiのH2OFrameにtokenizeがあるけど、これは正規表現で区切って、単語分割を実現してくれる。がしかし、日本語だと全く持って役に立たない…。でも、日本語を何とかしたい、でググってもPythonの世界にデータを持ってきて処理したりするのはあるがイマイチ期待する解決策でもない…。

ということで、どうしたものかと思い、Fione環境であればElasticsearchもあるので、ElasticsearchのAnalyze APIを用いて、単語分割を実現することにした。Fione環境だと、さらにFessの設定も使えるので、japanese_analyzerとかもあるので、これを呼べるようにすれば解決なわけである。

H2OFrameに新たなメソッドを生やすのも面倒なので、既存のtokenizeにtokenize:elasticsearch:urlみたいな文字列を渡されたら、ElasticsearchのAnalyze APIを呼んで、単語分割することにした。ということをやってくれるElasticsearchTokeinzerパッチがこれ

という感じで、これで、Python側にデータを持ってこないで、h2oのMRTaskの世界で処理ができるようになったので、ひとまず、解決。これで、Fioneで日本語をWord2Vecできるようになったはず。(素のh2oで使う場合は別途elasticsearchを用意するか、tokenizerをそんな感じで作るかかな…)

Workplace Searchの検索を試す

前回、インストールしたものの、クロール対象を用意しないとクロールできなかったので、今回はクロール対象の中で、簡単に準備できそうなDropboxをクロール対象にして試してみた。

DropboxのOAuthの設定が必要だが、手順自体はここにあるので、そこでApp KeyとApp Secretが生成できるので、それをWorkplace SearchのDropboxの接続情報に入れてConnectするとこんな感じで、取得したドキュメント件数が表示される。

今回は、Fessで使っているテスト用ファイルがfess-testdataにあるので、そこのファイルたちをDropboxに置いておいた。

とりあえず、今回は63ファイルがインデックスされたようなので、検索してみる。Go to Search Applicationで検索画面が表示される。

テスト用のファイルには「Lorem ipsum. (ロレム・イプサム) 吾輩は猫である。」という文字列があるので、試しに猫で検索してみると、こんな感じになる。

テキスト、HTML、MS Office、PDFあたりが検索できるようだ。ただ、Fessのテストデータにはいろんな種類のファイルが含まれているのですが、XMLファイルやzipに含まれるファイルなどはヒットしていなかった。あとは、仕方がない感はあるけど、Docuworks、AutoCAD,一太郎はヒットしていない。

検索結果をクリックすると、右側に情報が出てきた。それをさらにクリックすると対象のファイルに飛んでいく感じ。今回であれば、Dropboxのサイトに移動する。

絞り込みやソートについては、時間で絞り込み、関連度順と日付順のソートがある感じだった。

という感じで、今どきのUIだなという感じの印象でした。最近、Fessも今どきのUIが必要だなとは考えていたので、考えないとなと…。