Python アーカイブ - 6ページ目 (9ページ中)

日本語版WikipediaでLDA

「英語版WikipediaでLDA」に続いて、日本語版で試してみる。
日本語の場合は形態素が必要になる。そうすると、ぐぐってみると、jawikicorpus.pyというのを用意して、コーパスを利用することになる。
でも、ぐぐってみると、古かったり、動くのかよくわからないものがいろいろと転がっている感が…。あとは、形態素解析もmecabだったりとか…。
今回、この話の流れの一番始めにElasticsearchに突っ込んでいたりとかで、Elasticsearchの形態素機能を利用できるのでそれを利用することにしたい。でも、ElasticsearchのAnalyzeAPIは名詞などの品詞情報を取得することができない。というわけで、elasticsearch-extended-analyzeをElasticsearchに入れる必要がある。

$ cd $ES_HOME
$ bin/plugin -i info.johtani/elasticsearch-extended-analyze/1.4.1

上記のプラグインを入れたら、Elasticsearchを再起動する。あと、WikipediaをElasticsearchに取り込むにあるようにja_analyzerが設定されたインデックスを用意しておく必要がある。
そして、今回利用するjawikicorpus.pyはここに置いておくので、取得して適当に変えてください。変える必要があるのはElasticsearch Infoのコメントを置いたあたりかも。このファイルでは名詞だけに絞っているので、そこを編集したりとかもありかも。
という感じで、ここまで準備ができれば、英語版と同様に実行すればよい。まずは、wikipediaの日本語ファイルをダウンロードする。

$ wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

次にコーパスを作る。

$ python jawikicorpus.py jawiki-latest-pages-articles.xml.bz2 wiki_ja_output

トピックモデルを作成する。

$ python wiki_lda.py --wordids wiki_ja_output_wordids.txt.bz2 --tfidf wiki_ja_output_tfidf.mm --output wiki_lda_ja.pkl

という感じでできあがり。
model.print_topics(100)とかすると、形態素解析を実行する前にwikipedia記法を取り除いて文書にした方がコーパス的には良いかなというような気も…。

英語版WikipediaでLDA

「Wikipediaのデータをスクロールスキャンする」を行ったけど、まずは、Wikipediaのデータに対してLDAを適用してみることにする。日本語への適用は次回にするとして、まずは英語のWikipediaに適用してみる。
まずは、wikipediaをダウンロードする。

$ wget http://dumps.wikimedia.your.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

結構でかいので時間がかかるだろう…。
ダウンロードできたら、今回、利用するLDAの実装はgensimを利用するので、インストールしておく。

$ pip install gensim

sklearnには、LDAの実装は存在しないので、gensimを利用しておく。
まずはコーパスを作成する。

$ python -m gensim.scripts.make_wiki enwiki-latest-pages-articles.xml.bz2 wiki_en_output

実行する環境にもよると思うけど、１日とかかかるかも。完了すると、wiki_en_output〜のファイルが複数生成される。
あとはトピックの生成をする。コマンドラインで実行してもいいけど、今回は以下のようなwiki_lda.pyを作って実行する。

# coding: utf-8
import logging, gensim
from optparse import OptionParser
import sys
def main(argv=sys.argv):
    parser = OptionParser(prog="wiki_lda.py")
    parser.add_option("--wordids", dest="wordids",
                  help="WordIDs", metavar="WORDIDS")
    parser.add_option("--tfidf", dest="tfidf",
                  help="TFIDF", metavar="TFIDF")
    parser.add_option("--output", dest="output",
                  help="Output", metavar="OUTPUT",
                  default='wiki_lda.pkl')
    (options, args) = parser.parse_args()
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    id2word = gensim.corpora.Dictionary.load_from_text(options.wordids)
    mm = gensim.corpora.MmCorpus(options.tfidf)
    model = gensim.models.ldamodel.LdaModel(corpus=mm,
                                            id2word=id2word,
                                            num_topics=100,
                                            update_every=1,
                                            chunksize=10000,
                                            passes=1)
    model.save(options.output)
    return 0
if __name__ == "__main__":
    sys.exit(main())

まぁ、大したものではないけど…。num_topicsを100にしているので、適当に変えても良いだろう。
あとは、

$ python wiki_lda.py --wordids wiki_en_output_wordids.txt.bz2 --tfidf wiki_en_output_tfidf.mm --output wiki_lda_en.pkl

とすれば、トピックモデルが完成する。こっちは数時間で完了すると思う。
保存したモデルは、

$ python
>>> import gensim
>>> model = gensim.models.ldamodel.LdaModel.load("wiki_lda.pkl")
>>> for data in model.print_topics(100):
...     print data

とかすれば、利用して確認することができる。

PythonでNo module named bz2

以下のようにbz2がないと言われるケースがある。

$ python -m gensim.scripts.make_wiki enwiki-latest-pages-articles.xml.bz2 wiki_en_output
/home/taro/.pyenv/versions/2.7.9/bin/python: No module named bz2

Ubuntuでpyenvを利用していれば、

$ sudo apt-get install libbz2-dev
$ pyenv install --force 2.7.9

というようにlibbz2-devをインストールして、Pythonを再度インストールすれば解決する。