Machine Learning アーカイブ - 4ページ目 (5ページ中)

日本語版WikipediaでLDA

「英語版WikipediaでLDA」に続いて、日本語版で試してみる。
日本語の場合は形態素が必要になる。そうすると、ぐぐってみると、jawikicorpus.pyというのを用意して、コーパスを利用することになる。
でも、ぐぐってみると、古かったり、動くのかよくわからないものがいろいろと転がっている感が…。あとは、形態素解析もmecabだったりとか…。
今回、この話の流れの一番始めにElasticsearchに突っ込んでいたりとかで、Elasticsearchの形態素機能を利用できるのでそれを利用することにしたい。でも、ElasticsearchのAnalyzeAPIは名詞などの品詞情報を取得することができない。というわけで、elasticsearch-extended-analyzeをElasticsearchに入れる必要がある。

$ cd $ES_HOME
$ bin/plugin -i info.johtani/elasticsearch-extended-analyze/1.4.1

上記のプラグインを入れたら、Elasticsearchを再起動する。あと、WikipediaをElasticsearchに取り込むにあるようにja_analyzerが設定されたインデックスを用意しておく必要がある。
そして、今回利用するjawikicorpus.pyはここに置いておくので、取得して適当に変えてください。変える必要があるのはElasticsearch Infoのコメントを置いたあたりかも。このファイルでは名詞だけに絞っているので、そこを編集したりとかもありかも。
という感じで、ここまで準備ができれば、英語版と同様に実行すればよい。まずは、wikipediaの日本語ファイルをダウンロードする。

$ wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

次にコーパスを作る。

$ python jawikicorpus.py jawiki-latest-pages-articles.xml.bz2 wiki_ja_output

トピックモデルを作成する。

$ python wiki_lda.py --wordids wiki_ja_output_wordids.txt.bz2 --tfidf wiki_ja_output_tfidf.mm --output wiki_lda_ja.pkl

という感じでできあがり。
model.print_topics(100)とかすると、形態素解析を実行する前にwikipedia記法を取り除いて文書にした方がコーパス的には良いかなというような気も…。

英語版WikipediaでLDA

「Wikipediaのデータをスクロールスキャンする」を行ったけど、まずは、Wikipediaのデータに対してLDAを適用してみることにする。日本語への適用は次回にするとして、まずは英語のWikipediaに適用してみる。
まずは、wikipediaをダウンロードする。

$ wget http://dumps.wikimedia.your.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

結構でかいので時間がかかるだろう…。
ダウンロードできたら、今回、利用するLDAの実装はgensimを利用するので、インストールしておく。

$ pip install gensim

sklearnには、LDAの実装は存在しないので、gensimを利用しておく。
まずはコーパスを作成する。

$ python -m gensim.scripts.make_wiki enwiki-latest-pages-articles.xml.bz2 wiki_en_output

実行する環境にもよると思うけど、１日とかかかるかも。完了すると、wiki_en_output〜のファイルが複数生成される。
あとはトピックの生成をする。コマンドラインで実行してもいいけど、今回は以下のようなwiki_lda.pyを作って実行する。

# coding: utf-8
import logging, gensim
from optparse import OptionParser
import sys
def main(argv=sys.argv):
    parser = OptionParser(prog="wiki_lda.py")
    parser.add_option("--wordids", dest="wordids",
                  help="WordIDs", metavar="WORDIDS")
    parser.add_option("--tfidf", dest="tfidf",
                  help="TFIDF", metavar="TFIDF")
    parser.add_option("--output", dest="output",
                  help="Output", metavar="OUTPUT",
                  default='wiki_lda.pkl')
    (options, args) = parser.parse_args()
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    id2word = gensim.corpora.Dictionary.load_from_text(options.wordids)
    mm = gensim.corpora.MmCorpus(options.tfidf)
    model = gensim.models.ldamodel.LdaModel(corpus=mm,
                                            id2word=id2word,
                                            num_topics=100,
                                            update_every=1,
                                            chunksize=10000,
                                            passes=1)
    model.save(options.output)
    return 0
if __name__ == "__main__":
    sys.exit(main())

まぁ、大したものではないけど…。num_topicsを100にしているので、適当に変えても良いだろう。
あとは、

$ python wiki_lda.py --wordids wiki_en_output_wordids.txt.bz2 --tfidf wiki_en_output_tfidf.mm --output wiki_lda_en.pkl

とすれば、トピックモデルが完成する。こっちは数時間で完了すると思う。
保存したモデルは、

$ python
>>> import gensim
>>> model = gensim.models.ldamodel.LdaModel.load("wiki_lda.pkl")
>>> for data in model.print_topics(100):
...     print data

とかすれば、利用して確認することができる。

適合率と再現率

機械学習とかで結果の評価として普通に出てくる感じの適合率や再現率だけど、どっちがどっちだか忘れることがあるのでまとめてみる。wikipediaにはドキュメント検索を例に上げているけど、ここでは○×問題を解答した結果の評価的な感じで考えてみる。まとめると、以下な感じだろう。

正答率(accuracy)：すべての問題で○×を正しく当てる割合。(正答率)=(正解数)/(問題数)
適合率(precision)：○と解答した問題で正しく当てる割合。(適合率)=(○と解答した問題の正解数)/(○と解答した問題数)。逆に×についての適合率も考えることができる。
再現率(recall)：○の問題だけについて、正しく当てる割合。(再現率)=(○の問題だけの正解数)/(○の問題数)。逆に×についての再現率も考えることができる。