Fessを形態素解析サーバーとして利用する

まぁ、Fessというか、Solrの機能ですが、Solrはインデックスを作るときに文書を単語に分割します。その単語分割はインデックスを作成する以外でも呼び出すことはできるので、その紹介です。利用用途としては何かしらの文書を単語に分割すれば、名詞だけピックアップしてその文書にタグとしてつけたりとか、考えれば何かいろいろと出てくるでしょう(たぶん…)。そんな感じで、形態素解析をAPIで手っ取り早く利用したい場合には、Fessを利用すればあっという間に利用できます。
利用方法はFessをインストールします。手順は簡単なのでJavaがインストールされていれば、5分もかからないでしょう。そして、Fessを起動したら、たとえば、curlコマンドとかで

$ curl --basic --user solradmin:solradmin "http://localhost:8080/solr/core1/analysis/field?analysis.fieldtype=text_ja&analysis.fieldvalue=今日の天気は晴れです。"

とすれば、XMLでレスポンスが返ってきます。まぁ、確認するのにブラウザでそれにアクセスしても良いです(デフォルトでユーザー名solradmin、パスワードsolradmin)。普通の用途なら、JapaneseTokenizer要素以下を利用すれば良いかと思う。
analysis.fieldtypeを変えればいろいろな分割ができます。利用可能なフィールド型はここのfieldTypeタグのnameを利用してください。text_ja以外の日本語の形態素解析だと、text_gosenが利用可能かと。
という感じで、analysis.fieldvalueに分割したい文書を渡してあげれば良い。XML以外のフォーマットも返せるのでリクエストパラメータにwt=jsonとかすればjsonで返ってきます。

Tomcat 7.0.30

もう30になったのか、っていう感じもするけど、リリースされたみたい。特徴は

  • Servlet 3.0 のアノテーションとServletContainerInitializerの処理中のときのウェブアプリ起動時のメモリ使用量を減らした
  • Servlet 3.0 のアノテーションとServletContainerInitializerのスキャン中でのJava7固有のバイトコードを使用するクラスのスキャンのサポート追加
  • DIGEST と FORM 認証の改善

という感じらしい(2番目のやつがよくわからん…)。まぁ、個人的にはServlet3.0用のものを書いていないので影響がないと思うからいいや。

Gravatar

今までスルーしてきたけど、Gravatarに画像とメールアドレスを登録しておくと、対応するサービスはメールアドレスをキーとして登録されている画像をGravatarに引きにいって表示することができるようになるのね。メインで利用するようなメールアドレスを登録しておけば、対応サービスでは勝手に出るようになるのか。Wordpressにも表示されるようになっていた。とりあえず、使ってみることにしよう。