Random Forestsを試す

ここに書いてあるけど、Random Forestsを試してみる。Hadoop環境が構築済みで、Mahoutをチェックアウトしてビルド(mvn install -DskipTestsをやっておく)してあることが前提で進めると、まず、テストデータを取得してHDFSに入れる。

$ wget http://archive.ics.uci.edu/ml/machine-learning-databases/glass/glass.data
$ hadoop fs -mkdir mahout
$ hadoop fs -mkdir mahout/glass
$ hadoop fs -put glass.data mahout/glass

そんで、説明ファイルを作る。

$ hadoop jar $MAHOUT_HOME/core/target/mahout-core-0.5-SNAPSHOT-job.jar org.apache.mahout.df.tools.Describe -p mahout/glass/glass.data -f mahout/glass/glass.info -d I 9 N L

以下のようにやれば中身を確認できる。

$ hadoop fs -cat mahout/glass/glass.info

Iが無視、Nが数値、Cがカテゴリ文字列、Lがラベル(目的変数)な感じ。N N N N みたいに書くのは面倒だから、4 N みたいな省略も可能。そんで、実行。

$ hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-0.5-SNAPSHOT-job.jar org.apache.mahout.df.BreimanExample -d mahout/glass/glass.data -ds mahout/glass/glass.info -i 10 -t 100
...
11/04/09 07:29:09 INFO df.BreimanExample: ********************************************
11/04/09 07:29:09 INFO df.BreimanExample: Selection error : 0.2857142857142857
11/04/09 07:29:09 INFO df.BreimanExample: Single Input error : 0.3
11/04/09 07:29:09 INFO df.BreimanExample: One Tree error : 0.41356654135338333
11/04/09 07:29:09 INFO df.BreimanExample: Mean Random Input Time : 0h 0m 0s 280
11/04/09 07:29:09 INFO df.BreimanExample: Mean Single Input Time : 0h 0m 0s 95
11/04/09 07:29:09 INFO df.BreimanExample: Mean Random Input Num Nodes : 6722
11/04/09 07:29:09 INFO df.BreimanExample: Mean Single Input Num Nodes : 11326

という感じで実行結果が表示される。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です