随机森林算法入门(python)

import numpy as np      
import pylab as pl      

x = np.random.uniform(1, 100, 1000)      
y = np.log(x) + np.random.normal(0, .3, 1000)      

pl.scatter(x, y, s=1, label="log(x) with noise")      

pl.plot(np.arange(1, 100), np.log(np.arange(1, 100)), c="b", label="log(x) true function")      
pl.xlabel("x")      
pl.ylabel("f(x) = log(x)")      
pl.legend(loc="best")      
pl.title("A Basic Log Function")      
pl.show()

得到如下结果：

如果我们建立了一个基本的线性模型通过使用x来预测y，我们需要作一条直线，一定成都市算是平分log(x)函数。而如果我们使用随机森林算法，它可以更好的逼近log(x)曲线从而使得它看起来更像实际的函数。

当然，你也可以说随机森林对log(x)函数有点过拟合。不管怎么样，这说明了随机森林并不限于线性问题。

使用方法

3.1 特征选择

随机森林的一个最好用例是特征选择。尝试很多个决策树变量的一个副产品就是，你可以检查变量在每棵树中表现的是最佳还是最糟糕。

当一些树使用一个变量，而其他的不使用这个变量，你就可以对比信息的丢失或增加。实现的比较好的随机森林工具能够为你做这些事情，所以你需要做的仅仅是去查看那个方法或参数。

在下述的例子中，我们尝试弄明白区分红酒或白酒时，哪些变量是最重要的。

3.2 分类

随机森林也很善长分类问题。它可以被用于为多个可能目标类别做预测，它也可以在调整后输出概率。你需要注意的一件事情是过拟合。

随机森林容易产生过拟合，特别是在数据集相对小的时候。当你的模型对于测试集合做出“太好”的预测的时候就应该怀疑一下了。避免过拟合的一个方法是在模型中只使用有相关性的特征，比如使用之前提到的特征选择。

3.3 回归

随机森林也可以用于回归问题。

我发现，不像其他的方法，随机森林非常擅长于分类变量或分类变量与连续变量混合的情况。

一个简单的Python示

from sklearn.datasets import load_iris   
from sklearn.ensemble import RandomForestClassifier   
import pandas as pd   
import numpy as np   

iris = load_iris()   
df = pd.DataFrame(iris.data, columns=iris.feature_names)   
df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75   df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)   
df.head()   

train, test = df[df['is_train']==True], df[df['is_train']==False]   

features = df.columns[:4]   
clf = RandomForestClassifier(n_jobs=2)y, _ = pd.factorize(train['species'])   
clf.fit(train[features], y)   

preds = iris.target_names[clf.predict(test[features])]   

pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds'])

下面就是你应该看到的结果了。由于我们随机选择数据，所以实际结果每次都会不一样。

结语

随机森林相当起来非常容易。不过和其他任何建模方法一样要注意过拟合问题。如果你有兴趣用R语言使用随机森林，可以查看randomForest包。

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

复旦陈果：低质量的独处，不如高质量的社交，有远见的人都关注了这些微信号