最近,このブログの更新も放置気味ですが,今月から九州大学大学院システム情報科学研究院情報学専攻の社会人博士課程に入学しました.そんなわけで,10年ぶりくらいに学生です(学割が使えるのかしら…).大学に戻って何がしたいかというと,機械学習やデータマイニングを再度勉強しようかと思っています.そんでもって,その知識を使って利益を上げていく仕組みを作るっていうあたりが目指すところかと(なので,何か仕事があればください).福岡にもこの前,初めて行ったくらいな感じで,近頃の大学事情とかもよくわかっていなかったりするので,学生の方々にはいろいろと教えてもらえると嬉しいなとか思っています.そんな感じで,がんばっていきたいと思いますのでよろしくおねがいしますー.
Random Forests(Partial Implementation)を試す
ここの話を試す.まず,テストデータをダウンロードする.
$ wget http://nsl.cs.unb.ca/NSL-KDD/KDDTrain+.arff $ wget http://nsl.cs.unb.ca/NSL-KDD/KDDTest+.arff
ダウンロードしたら,それらのファイルで@で始まる行を削除する.そしたら,それらのファイルをhdfsに上げる.
$ hadoop fs -mkdir mahout $ hadoop fs -mkdir mahout/nslkdd $ hadoop fs -put KDDTrain+.arff mahout/nslkdd $ hadoop fs -put KDDTest+.arff mahout/nslkdd
次に説明ファイルを作る.
$ hadoop jar $MAHOUT_HOME/core/target/mahout-core-0.5-SNAPSHOT-job.jar org.apache.mahout.df.tools.Describe -p mahout/nslkdd/KDDTrain+.arff -f mahout/nslkdd/KDDTrain+.info -d N 3 C 2 N C 4 N C 8 N 2 C 19 N L
できたら,モデルを作るために以下を実行.
$ hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-0.5-SNAPSHOT-job.jar org.apache.mahout.df.mapreduce.BuildForest -Dmapred.max.split.size=1874231 -oob -d mahout/nslkdd/KDDTrain+.arff -ds mahout/nslkdd/KDDTrain+.info -sl 5 -p -t 100 -o nsl-forest
モデルができたら,テスト例でテストを流す.
$ hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-0.5-SNAPSHOT-job.jar org.apache.mahout.df.mapreduce.TestForest -i mahout/nslkdd/KDDTest+.arff -ds mahout/nslkdd/KDDTrain+.info -m nsl-forest -a -mr -o predictions
という感じで,一通り完了.
がしかし,今日時点のtrunkはバグっていました….数日待てば修正されそうな気もするけど,とりあえず,試したかったので,以下の修正で回避しました.
Index: core/src/main/java/org/apache/mahout/df/mapreduce/Classifier.java
===================================================================
--- core/src/main/java/org/apache/mahout/df/mapreduce/Classifier.java (リビジョン 1090534)
+++ core/src/main/java/org/apache/mahout/df/mapreduce/Classifier.java (作業コピー)
@@ -158,6 +158,8 @@
// read all the output
for (Path path : outfiles) {
+log.info("path = {}", path.toString());
+if(path.getName().startsWith("part-m-")){
FSDataOutputStream ofile = null;
try {
for (Pair<LongWritable,Text> record : new SequenceFileIterable<LongWritable,Text>(path, true, conf)) {
@@ -179,7 +181,7 @@
}
} finally {
ofile.close();
- }
+ }}
}
}
Index: core/src/main/java/org/apache/mahout/df/mapreduce/partial/PartialBuilder.java
===================================================================
--- core/src/main/java/org/apache/mahout/df/mapreduce/partial/PartialBuilder.java (リビジョン 1090534)
+++ core/src/main/java/org/apache/mahout/df/mapreduce/partial/PartialBuilder.java (作業コピー)
@@ -170,6 +170,7 @@
// read all the outputs
int index = 0;
for (Path path : outfiles) {
+if(path.getName().startsWith("part-m-")){
for (Pair<TreeID,MapredOutput> record : new SequenceFileIterable<TreeID, MapredOutput>(path, conf)) {
TreeID key = record.getFirst();
MapredOutput value = record.getSecond();
@@ -181,7 +182,7 @@
}
processOutput(firstIds, key, value, callback);
index++;
- }
+ }}
}
// make sure we got all the keys/values
Index: core/src/main/java/org/apache/mahout/df/mapreduce/partial/Step0Job.java
===================================================================
--- core/src/main/java/org/apache/mahout/df/mapreduce/partial/Step0Job.java (リビジョン 1090534)
+++ core/src/main/java/org/apache/mahout/df/mapreduce/partial/Step0Job.java (作業コピー)
@@ -139,10 +139,12 @@
// read all the outputs
for (Path path : outfiles) {
+log.info("path = {}", path.toString());
+if(path.getName().startsWith("part-m-")){
for (Pair<IntWritable,Step0Output> record : new SequenceFileIterable<IntWritable,Step0Output>(path, conf)) {
keys.add(record.getFirst().get());
values.add(record.getSecond());
- }
+ }}
}
return processOutput(keys, values);
という感じで,Random Forestsを試してみたものの,今やりたいことがこのままでは適用できない感じだから,このRandom Forestsを手直しするか,自前でCARTを実装するか,迷い中….どうしようかな.
Random Forestsを試す
ここに書いてあるけど、Random Forestsを試してみる。Hadoop環境が構築済みで、Mahoutをチェックアウトしてビルド(mvn install -DskipTestsをやっておく)してあることが前提で進めると、まず、テストデータを取得してHDFSに入れる。
$ wget http://archive.ics.uci.edu/ml/machine-learning-databases/glass/glass.data $ hadoop fs -mkdir mahout $ hadoop fs -mkdir mahout/glass $ hadoop fs -put glass.data mahout/glass
そんで、説明ファイルを作る。
$ hadoop jar $MAHOUT_HOME/core/target/mahout-core-0.5-SNAPSHOT-job.jar org.apache.mahout.df.tools.Describe -p mahout/glass/glass.data -f mahout/glass/glass.info -d I 9 N L
以下のようにやれば中身を確認できる。
$ hadoop fs -cat mahout/glass/glass.info
Iが無視、Nが数値、Cがカテゴリ文字列、Lがラベル(目的変数)な感じ。N N N N みたいに書くのは面倒だから、4 N みたいな省略も可能。そんで、実行。
$ hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-0.5-SNAPSHOT-job.jar org.apache.mahout.df.BreimanExample -d mahout/glass/glass.data -ds mahout/glass/glass.info -i 10 -t 100 ... 11/04/09 07:29:09 INFO df.BreimanExample: ******************************************** 11/04/09 07:29:09 INFO df.BreimanExample: Selection error : 0.2857142857142857 11/04/09 07:29:09 INFO df.BreimanExample: Single Input error : 0.3 11/04/09 07:29:09 INFO df.BreimanExample: One Tree error : 0.41356654135338333 11/04/09 07:29:09 INFO df.BreimanExample: Mean Random Input Time : 0h 0m 0s 280 11/04/09 07:29:09 INFO df.BreimanExample: Mean Single Input Time : 0h 0m 0s 95 11/04/09 07:29:09 INFO df.BreimanExample: Mean Random Input Num Nodes : 6722 11/04/09 07:29:09 INFO df.BreimanExample: Mean Single Input Num Nodes : 11326
という感じで実行結果が表示される。