Fioneではじめる機械学習〜導入

QiitaにFioneではじめる機械学習〜導入を書きました。

Fioneの基本的な使い方をまとめました。Fioneを利用すれば、ブラウザ上でポチポチと、データをアップロードすれば、機械学習で予測モデルが作成できて、それをDockerで予測API化までできてしまう、というのがわかると思います。Fioneはオープンソース機械学習プラットフォームH2Oを利用しているので、AI関連の専門知識がなくても、精度が高い予測モデルが作成できると思います。

世の中にはAutoML関連で様々なプロダクトがあると思いますが、Fioneの目指すところは専門知識がなくても機械学習をできてしまう、というところ狙っています。なので、データをとりあえずアップロードすれば予測モデルが生成され、それが利用しても良いレベルの予測モデルなのかを教えてくれて、使えるなら予測APIとして利用したいシステムに組み込んで利用できる感じで、専門知識がなくても使えるような感じです。

Fioneは日々改善しているので、何かフィードバックなどあれば、フォーラムに気軽に投稿してください。

同義語処理の変更

Fessはstandard_analyzerで同義語を展開して検索できるようにしていますが、次のリリースで処理をちょっと見直そうしています。

現在は、A, Bを同義語として登録した場合、インデックスにはAとBが登録されます。これをAだけにする予定です。つまり、同義語展開してインデックスをしないようにします。これにより、インデックスサイズを減らす想定です。(まぁ、微々たるものなので、ほとんど減らないと思いますが…)

あとは、現状だと、同義語に内包されている単語がヒットできないのですが、同義語処理前の元の単語に内包される単語にヒットできるようにする予定です。なので、長い単語を登録したときとかにヒットしない問題を解決します。

そんなわけで、fessインデックスの設定が変わるのと、elasticsearch-analysis-extensionプラグインの更新で対応する予定です。

Fione 13.6.0 betaのリリース

docker-composeとして提供しているので、zipとかのリリース物はないのですが、v13.6.0というタグを打ちました。というわけで、Fioneを13.6.0 betaとしてリリースすることができました。タグにはベータとは書きませんが、まだまだ使いながら進化していくと思われるので、しばらくはbetaを名乗っておこうとは考えています。

現状では、クイックスタートにもあるように、AutoMLでポチポチやっていけば学習モデルができます。それをDockerにしてAPIにするのでも良いし、テストファイルをアップロードしてKaggleにサブミットできるファイルを生成するのでも良いし、画面でポチポチとやればいろいろとできると思います。

ひとまず、リリースしましたが、今後やっていきたいこととしては、

  • 過去のKaggleコンペのデータを適用する流れをQiitaに書いてみる
  • セッションのクリアなどの処理が怪しいので、そこら辺を整備
  • アップロードしたデータの可視化
  • 学習結果の保存
  • テキストデータを処理できるようにする

あたりの課題を認識しています。他にもいろいろとある気もしますが、いろいろと使ってもらって、フィードバックとかをもらいながら改善できると良いかなと考えています。何かあれば、フォーラムに投げていただければと。

あとは、基本的にはFione自体はオープンソースなので、自由に使ってもらえればよいかと思いますが、Fessのように商用サポートも提供しているので、Fioneを使ったりして、AIや機械学習の仕事があれば、株式会社コードリブズにお知らせいただければと思います!