PythonとElasticsearchで形態素解析

Elasticsearchから取り出してsklearnでテキストデータをゴニョゴニョするときにPython側ではIgoを使って形態素解析とかしていたけど、Elasticsearchでやっている形態素解析と一致しないのもなんだし、Igoを直読みするよりパフォーマンスは落ちると思うけど、辞書管理等々考えるとElasticsearchのanalyze APIを使って形態素解析しちゃった方がシンプルかなっと思い、まとめておく。
まず、PythonでElasticsearchのAnalyze APIが呼べることを以下で確認する。ここでは、Python 2.7を利用している。elasticsearch-pyもインストール済みな想定で、Elasticsearchも起動しておく必要がある。

$ python
Python 2.7.6 (default, Mar 22 2014, 22:59:56)
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding("utf-8")
>>> from elasticsearch import Elasticsearch
>>> es = Elasticsearch(hosts="localhost:9200")
>>> text=u"今日の天気は晴れです。"
>>> es.indices.analyze(index=u"sample",body=text,params={u"field":u"message"})
{u'tokens': [{u'end_offset': 2, u'token':...

Python2の問題だけど、setdefaultencodingでセットしないとエラーになる。
エンコーディングさえ問題なければ、上記ではsampleインデックスのmessageフィールドのAnalyzerでtextをトークナイズできる。
まぁ、Ubuntuとかであれば、/etc/python2.7/sitecustomize.py の先頭に

import sys
sys.setdefaultencoding("utf-8")

を追加してdefaultencodingをutf-8にしてしまっても良いのかも。(最適な対応方法はわからない…) ほかの環境であれば、/usr/lib/python*/site-packages/sitecustomize.pyあたりに記述すればよい。
ここまで、できてしまえば、sklearnとかで使いたいなら、

class Analyzer:
    """Analyzer"""
    def __init__(self, es, index, field):
        self.es = es
        self.index = index
        self.field = field
    def __call__(self, text):
        if not text:
            return []
        data = self.es.indices.analyze(index=self.index,
                                       body=text, params={"field":self.field})
        tokens = []
        for token in data.get("tokens"):
            tokens.append(token.get("token"))
        return tokens

というような感じで、Analyzerクラスを作っておいて

es = Elasticsearch(hosts="localhost:9200")
analyzer = Analyzer(es, "sample", "message")
vectorizer = TfidfVectorizer(analyzer=analyzer)

みたいな感じで呼べば、いろいろなVectorizerで利用できると思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です