Fessを形態素解析サーバーとして利用する

まぁ、Fessというか、Solrの機能ですが、Solrはインデックスを作るときに文書を単語に分割します。その単語分割はインデックスを作成する以外でも呼び出すことはできるので、その紹介です。利用用途としては何かしらの文書を単語に分割すれば、名詞だけピックアップしてその文書にタグとしてつけたりとか、考えれば何かいろいろと出てくるでしょう(たぶん…)。そんな感じで、形態素解析をAPIで手っ取り早く利用したい場合には、Fessを利用すればあっという間に利用できます。
利用方法はFessをインストールします。手順は簡単なのでJavaがインストールされていれば、5分もかからないでしょう。そして、Fessを起動したら、たとえば、curlコマンドとかで
$ curl --basic --user solradmin:solradmin "http://localhost:8080/solr/core1/analysis/field?analysis.fieldtype=text_ja&analysis.fieldvalue=今日の天気は晴れです。"
とすれば、XMLでレスポンスが返ってきます。まぁ、確認するのにブラウザでそれにアクセスしても良いです(デフォルトでユーザー名solradmin、パスワードsolradmin)。普通の用途なら、JapaneseTokenizer要素以下を利用すれば良いかと思う。
analysis.fieldtypeを変えればいろいろな分割ができます。利用可能なフィールド型はここのfieldTypeタグのnameを利用してください。text_ja以外の日本語の形態素解析だと、text_gosenが利用可能かと。
という感じで、analysis.fieldvalueに分割したい文書を渡してあげれば良い。XML以外のフォーマットも返せるのでリクエストパラメータにwt=jsonとかすればjsonで返ってきます。

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル