人工データを作る

Mahoutというか,その中にはそれっぽいライブラリが見つからなかったのだけど,科学技術計算の実験系で人工データを作りたいときに困ったので作ってみた.

import java.io.Serializable;
import java.util.Random;
import org.apache.mahout.math.DenseVector;
import org.apache.mahout.math.Vector;
public class SyntheticDataGenerator implements Serializable {
private static final long serialVersionUID = 1L;
private Random[] randoms;
private double[] means;
private double[] stdevs;
public SyntheticDataGenerator(long seed) {
means = new double[1];
means[0] = 0;
stdevs = new double[1];
stdevs[0] = 1;
init(seed, 1, means, stdevs);
}
public SyntheticDataGenerator(long seed, int cardinality, double[] means,
double[] stdevs) {
init(seed, cardinality, means, stdevs);
}
private void init(long seed, int cardinality, double[] means,
double[] stdevs) {
if (cardinality != means.length || cardinality != stdevs.length) {
throw new IllegalArgumentException("Invalid cardinality.");
}
randoms = new Random[cardinality];
for (int i = 0; i < cardinality; i++) {
randoms[i] = new Random(seed + i);
}
this.means = means;
this.stdevs = stdevs;
}
public double nextDouble() {
return nextDouble(0);
}
protected double nextDouble(int i) {
return randoms[i].nextGaussian() * stdevs[i] + means[i];
}
public double[] nextDoubles() {
double[] values = new double[randoms.length];
for (int i = 0; i < randoms.length; i++) {
values[i] = nextDouble(i);
}
return values;
}
public Vector nextVector() {
return new DenseVector(nextDoubles());
}
}

1次元の正規分布に基づく人工データを作りたいときには以下な感じ.

double[] means = new double[1];
double[] stdevs = new double[1];
means[0] = 10; // 平均 10
stdevs[0] = 5; // 標準偏差 5
SyntheticDataGenerator generator = new SyntheticDataGenerator(0, 1, means, stdevs);

あとは,generator.nextDouble() で値を取得していくと指定した分布の乱数が取得できる.そんで,多次元のデータが欲しい場合は,各次元ごとのmeansとstdevsを配列に格納して,generator.nextDoubles() としてやれば配列がとれるし,nextVector()でMahoutのVectorとして取得できる.

Vectorは良いのか?

気になるので,Vectorを使う場合とプリミティブな配列で処理したときのパフォーマンス影響を確認してみる.たぶん,Vectorで利用される実装はDenseVectorとRandomAccessSparseVectorあたりな気がするので,これらと比較する.DenseVectorは内部的にはプリミティブ配列と同様に全次元数分の容量を確保する(内部的にはdouble配列だし).RandomAccessSparseVectorは必要な要素だけを確保する(簡単に言うと内部的にはMapみみたいなイメージだと思う).単純に以下のコードで比較してみた.

public void test_performance() {
int count = 100;
int dim = .../*次元数*/;
int testNum = .../*利用した要素数*/;
testDenseVector(count, dim, testNum);
sleep(5000);
testSparseVector(count, dim, testNum);
sleep(5000);
testArrayVector(count, dim, testNum);
sleep(5000);
testDenseVector(count, dim, testNum);
sleep(5000);
testSparseVector(count, dim, testNum);
sleep(5000);
testArrayVector(count, dim, testNum);
}
private void testArrayVector(int count, int dim, int testNum) {
long time = System.currentTimeMillis();
long oldHeapSize = getHeapSize();
double[][] data = new double[count][];
for (int i = 0; i < count; i++) {
data[i] = new double[dim];
for (int j = 0; j < testNum; j++) {
data[i][j] = j;
}
}
long heapSize = getHeapSize();
System.out.println("array vector: "
+ (System.currentTimeMillis() - time) + "ms, " + heapSize
+ "MB(" + (heapSize - oldHeapSize) + "MB)");
for (int i = 0; i < count; i++) {
for (int j = 0; j < testNum; j++) {
data[i][j] = j;
}
}
}
private void testDenseVector(int count, int dim, int testNum) {
long time = System.currentTimeMillis();
long oldHeapSize = getHeapSize();
DenseVector[] vectors = new DenseVector[count];
for (int i = 0; i < count; i++) {
vectors[i] = new DenseVector(dim);
for (int j = 0; j < testNum; j++) {
vectors[i].setQuick(j, j);
}
}
long heapSize = getHeapSize();
System.out.println("dense vector: "
+ (System.currentTimeMillis() - time) + "ms, " + heapSize
+ "MB(" + (heapSize - oldHeapSize) + "MB)");
for (int i = 0; i < count; i++) {
for (int j = 0; j < testNum; j++) {
vectors[i].setQuick(j, j);
}
}
}
private void testSparseVector(int count, int dim, int testNum) {
long time = System.currentTimeMillis();
long oldHeapSize = getHeapSize();
RandomAccessSparseVector[] vectors = new RandomAccessSparseVector[count];
for (int i = 0; i < count; i++) {
vectors[i] = new RandomAccessSparseVector(dim);
for (int j = 0; j < testNum; j++) {
vectors[i].setQuick(j, j);
}
}
long heapSize = getHeapSize();
System.out.println("sparse vector: "
+ (System.currentTimeMillis() - time) + "ms, " + heapSize
+ "MB(" + (heapSize - oldHeapSize) + "MB)");
for (int i = 0; i < count; i++) {
for (int j = 0; j < testNum; j++) {
vectors[i].setQuick(j, j);
}
}
}
private long getHeapSize() {
final Runtime runtime = Runtime.getRuntime();
return (runtime.totalMemory() - runtime.freeMemory()) / 1000000;
}
private void sleep(long time) {
System.gc();
try {
Thread.sleep(time);
} catch (InterruptedException e) {
}
}

GCとかの都合とかもあってスリープとかもろもろ入れておく.

まず,100,000次元で10,000要素を使った場合は

dense vector: 103ms, 80MB(80MB)
sparse vector: 133ms, 37MB(37MB)
array vector: 92ms, 80MB(80MB)

次に,100,000次元で20,000要素を使った場合は

dense vector: 113ms, 80MB(80MB)
sparse vector: 237ms, 67MB(67MB)
array vector: 99ms, 80MB(80MB)

さらに,要素数を25,000にすると

dense vector: 114ms, 80MB(80MB)
sparse vector: 388ms, 110MB(110MB)
array vector: 108ms, 80MB(80MB)

で最後に100,000要素を利用すると

dense vector: 130ms, 80MB(80MB)
sparse vector: 1469ms, 376MB(376MB)
array vector: 110ms, 80MB(80MB)

という感じだった.

というわけで,メモリ的には,次元数の20%以下の利用で済むのであれば,RandomAccessSparseVectorで,それ以上ならDenseVectorが良いかな(時間的なことを考えると,10%くらいでもよいのかも).プリミティブ配列とDenseVectorに大きな差はないけど,若干早いような感じかね.プリミティブ配列で処理するかは,10%の速度向上をとるか,利便性をとるかのどちらが必要かを考えて判断するべきかね.

Tasteについて思うこと

ここ数カ月くらい、研究の実験でMahoutのTasteを結構使ってみました。個人的な感想ですが、フレームワークとしては使えるけど、富豪(?)でない人が利用するのは厳しい気がしました。ここでいう富豪とは最新のPCを数十や数百台とか使って問題解決できる人のことを指してます。最新のPCを数台とかで計算するようなときにはTasteの中身の実装は非効率と感じています(富豪でもコストパフォーマンスを気にする人は微妙かもな)。機械学習みたいな、科学技術計算的な問題を解こうとすると、基本は激しいループ処理なのでその中でnew ~とかでインスタンスを作ったり、インスタンスの配列やListやMapなどで何かしだすと終わりません…。MahoutのVectorもベクトルの計算するには便利なのですけど、富豪でないとちょっと厳しい気がしてきています。Javaだと、インスタンスの破棄をGCに期待することになり、メモリは消費されるし、GCスレッドも負荷が高くなるし、とかなりやられました(パラレルGC、CMS、G1とかも試したけど、CMSが一番良かった気がする)。そんなわけで、始めはTasteに乗っかって作っていましたが、最終的にはインターフェースは同じ感じだけど、中身の実装は作りこんでいった感じ(Mahoutが実装したKDDCupDataModelだと10G以上のメモリが必要っぽいけど,実装しなおすと6Gくらいでさくっと扱えるようになったりします)。改善して行った点は、インスタンスの生成やListとかMapの利用とかもできる限りやめて、基本はプリミティブな値やその配列とかでやる感じにしました(Javaっぽくないけど)。そんな感じの改善をしていくことで、数十~数百倍くらいのパフォーマンスが改善できた気がしてます。というわけで、富豪でない私みたいな人用に、プリミティブな配列とかでベクトルや行列の計算ができるようなものを作る必要があるのかな、と考え始めてます…。

Random Forests(Partial Implementation)を試す

ここの話を試す.まず,テストデータをダウンロードする.

$ wget http://nsl.cs.unb.ca/NSL-KDD/KDDTrain+.arff
$ wget http://nsl.cs.unb.ca/NSL-KDD/KDDTest+.arff

ダウンロードしたら,それらのファイルで@で始まる行を削除する.そしたら,それらのファイルをhdfsに上げる.

$ hadoop fs -mkdir mahout
$ hadoop fs -mkdir mahout/nslkdd
$ hadoop fs -put KDDTrain+.arff mahout/nslkdd
$ hadoop fs -put KDDTest+.arff mahout/nslkdd

次に説明ファイルを作る.

$ hadoop jar $MAHOUT_HOME/core/target/mahout-core-0.5-SNAPSHOT-job.jar org.apache.mahout.df.tools.Describe -p mahout/nslkdd/KDDTrain+.arff -f mahout/nslkdd/KDDTrain+.info -d N 3 C 2 N C 4 N C 8 N 2 C 19 N L

できたら,モデルを作るために以下を実行.

$ hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-0.5-SNAPSHOT-job.jar org.apache.mahout.df.mapreduce.BuildForest -Dmapred.max.split.size=1874231 -oob -d mahout/nslkdd/KDDTrain+.arff -ds mahout/nslkdd/KDDTrain+.info -sl 5 -p -t 100 -o nsl-forest

モデルができたら,テスト例でテストを流す.

$ hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-0.5-SNAPSHOT-job.jar org.apache.mahout.df.mapreduce.TestForest -i mahout/nslkdd/KDDTest+.arff -ds mahout/nslkdd/KDDTrain+.info -m nsl-forest -a -mr -o predictions

という感じで,一通り完了.

がしかし,今日時点のtrunkはバグっていました….数日待てば修正されそうな気もするけど,とりあえず,試したかったので,以下の修正で回避しました.

Index: core/src/main/java/org/apache/mahout/df/mapreduce/Classifier.java
===================================================================
--- core/src/main/java/org/apache/mahout/df/mapreduce/Classifier.java	(リビジョン 1090534)
+++ core/src/main/java/org/apache/mahout/df/mapreduce/Classifier.java	(作業コピー)
@@ -158,6 +158,8 @@
// read all the output
for (Path path : outfiles) {
+log.info("path = {}", path.toString());
+if(path.getName().startsWith("part-m-")){
FSDataOutputStream ofile = null;
try {
for (Pair<LongWritable,Text> record : new SequenceFileIterable<LongWritable,Text>(path, true, conf)) {
@@ -179,7 +181,7 @@
}
} finally {
ofile.close();
-      }
+      }}
}
}
Index: core/src/main/java/org/apache/mahout/df/mapreduce/partial/PartialBuilder.java
===================================================================
--- core/src/main/java/org/apache/mahout/df/mapreduce/partial/PartialBuilder.java	(リビジョン 1090534)
+++ core/src/main/java/org/apache/mahout/df/mapreduce/partial/PartialBuilder.java	(作業コピー)
@@ -170,6 +170,7 @@
// read all the outputs
int index = 0;
for (Path path : outfiles) {
+if(path.getName().startsWith("part-m-")){
for (Pair<TreeID,MapredOutput> record : new SequenceFileIterable<TreeID, MapredOutput>(path, conf)) {
TreeID key = record.getFirst();
MapredOutput value = record.getSecond();
@@ -181,7 +182,7 @@
}
processOutput(firstIds, key, value, callback);
index++;
-      }
+      }}
}
// make sure we got all the keys/values
Index: core/src/main/java/org/apache/mahout/df/mapreduce/partial/Step0Job.java
===================================================================
--- core/src/main/java/org/apache/mahout/df/mapreduce/partial/Step0Job.java	(リビジョン 1090534)
+++ core/src/main/java/org/apache/mahout/df/mapreduce/partial/Step0Job.java	(作業コピー)
@@ -139,10 +139,12 @@
// read all the outputs
for (Path path : outfiles) {
+log.info("path = {}", path.toString());
+if(path.getName().startsWith("part-m-")){
for (Pair<IntWritable,Step0Output> record : new SequenceFileIterable<IntWritable,Step0Output>(path, conf)) {
keys.add(record.getFirst().get());
values.add(record.getSecond());
-      }
+      }}
}
return processOutput(keys, values);

という感じで,Random Forestsを試してみたものの,今やりたいことがこのままでは適用できない感じだから,このRandom Forestsを手直しするか,自前でCARTを実装するか,迷い中….どうしようかな.

Random Forestsを試す

ここに書いてあるけど、Random Forestsを試してみる。Hadoop環境が構築済みで、Mahoutをチェックアウトしてビルド(mvn install -DskipTestsをやっておく)してあることが前提で進めると、まず、テストデータを取得してHDFSに入れる。

$ wget http://archive.ics.uci.edu/ml/machine-learning-databases/glass/glass.data
$ hadoop fs -mkdir mahout
$ hadoop fs -mkdir mahout/glass
$ hadoop fs -put glass.data mahout/glass

そんで、説明ファイルを作る。

$ hadoop jar $MAHOUT_HOME/core/target/mahout-core-0.5-SNAPSHOT-job.jar org.apache.mahout.df.tools.Describe -p mahout/glass/glass.data -f mahout/glass/glass.info -d I 9 N L

以下のようにやれば中身を確認できる。

$ hadoop fs -cat mahout/glass/glass.info

Iが無視、Nが数値、Cがカテゴリ文字列、Lがラベル(目的変数)な感じ。N N N N みたいに書くのは面倒だから、4 N みたいな省略も可能。そんで、実行。

$ hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-0.5-SNAPSHOT-job.jar org.apache.mahout.df.BreimanExample -d mahout/glass/glass.data -ds mahout/glass/glass.info -i 10 -t 100
...
11/04/09 07:29:09 INFO df.BreimanExample: ********************************************
11/04/09 07:29:09 INFO df.BreimanExample: Selection error : 0.2857142857142857
11/04/09 07:29:09 INFO df.BreimanExample: Single Input error : 0.3
11/04/09 07:29:09 INFO df.BreimanExample: One Tree error : 0.41356654135338333
11/04/09 07:29:09 INFO df.BreimanExample: Mean Random Input Time : 0h 0m 0s 280
11/04/09 07:29:09 INFO df.BreimanExample: Mean Single Input Time : 0h 0m 0s 95
11/04/09 07:29:09 INFO df.BreimanExample: Mean Random Input Num Nodes : 6722
11/04/09 07:29:09 INFO df.BreimanExample: Mean Single Input Num Nodes : 11326

という感じで実行結果が表示される。