查看原文
其他

集成算法 | 随机森林分类模型

云朵君 数据STUDIO 2022-04-28

随机森林是非常具有代表性的Bagging集成算法,它的所有基评估器都是决策树,分类树组成的森林就叫做随机森林分类器,回归树所集成的森林就叫做随机森林回归器。

随机森林采用决策树作为弱分类器,在bagging的样本随机采样基础上,⼜加上了特征的随机选择。

当前结点特征集合( 个特征),随机选择 个特征子集,再选择最优特征进行划分。 控制了随机性的引入程度,推荐值:

算法步骤

  • 从样本集N中有放回随机采样选出个样本。
  • 从所有特征中随机选择k个特征,对选出的样本利用这些特征建立决策树(一般是CART方法)。
  • 重复以上两步次,生成棵决策树,形成随机森林,其中生成的决策树不剪枝。

sklearn中的RandomForestClassifier

from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier(n_estimators=100, *, 
                       criterion='gini'
                       max_depth=None
                       min_samples_split=2
                       min_samples_leaf=1
                       min_weight_fraction_leaf=0.0
                       max_features='auto'
                       max_leaf_nodes=None
                       min_impurity_decrease=0.0
                       min_impurity_split=None
                       bootstrap=True
                       oob_score=False
                       n_jobs=None
                       random_state=None
                       verbose=0
                       warm_start=False
                       class_weight=None
                       ccp_alpha=0.0
                       max_samples=None)

criterion: 不纯度的衡量指标,有基尼系数和信息熵两种选择

max_depth: 树的最大深度,超过最大深度的树枝都会被剪掉

min_samples_leaf: 一个节点在分枝后的每个子节点都必须包含至少个训练样 本,否则分枝就不会发生

min_samples_leaf: 一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分 枝,否则分枝就不会发生

max_features: 限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃, 默认值为总特征个数开平方取整

min_impurity_decrease: 限制信息增益的大小,信息增益小于设定数值的分枝不会发生

以上参数可以参见机器学习 | 决策树模型 ,单个决策树的准确率越⾼,随机森林的准确率也会越⾼,因为装袋法是依赖于平均值或者少数服从多数原则来决定集成的结果的。


重要参数

1、n_estimators

基评估器的数量。此参数对随机森林模型的精确性影响是单调的,n_estimators越大,模型的效果往往越好。但任何模型都有决策边界,n_estimators达到一定的程度之后,随机森林的精确性往往不在上升或开始波动,并且n_estimators越大,需要的计算量和内存也越大,训练的时间也会越来越长。因此渴望在训练难度和模型效果之间取得平衡。

导包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score

数据集准备

wine = load_wine()
X = wine.data
y= wine.target
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size =0.3,random_state = 666)

模型建立

>>> clf = DecisionTreeClassifier()
>>> clf.fit(X_train,y_train)
DecisionTreeClassifier(ccp_alpha=0.0
                       class_weight=None, criterion='gini',
                       max_depth=None, max_features=None
                       max_leaf_nodes=None,
                       min_impurity_decrease=0.0
                       min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0
                       presort='deprecated',
                       random_state=None, splitter='best')

>>> clf.score(X_test,y_test)
0.9259259259259259

随机森林和决策树在交叉验证下的效果对比

DF_cv = []
RF_cv = []
for i in range(10):
    clf=DecisionTreeClassifier()
    rfc = RandomForestClassifier(n_estimators=20)
    DF_cv.append(cross_val_score(clf,X,y,cv=10).mean())
    RF_cv.append(cross_val_score(rfc,X,y,cv=10).mean())

plt.plot(range(1,11),DF_cv,label='DecisionTreeClassifier')
plt.plot(range(1,11),RF_cv,label='RandomForestClassifier')
plt.legend(loc=7)
plt.show();

n_estimators学习曲线

#【TIME WARNING: 2mins 30 seconds】
score= []
for i in range(150):
    rfc = RandomForestClassifier(n_estimators= i+1)
    cv_score = cross_val_score(rfc,X,y,cv=10).mean()
    score.append(cv_score)
plt.figure(figsize=(15,7),dpi=80)
plt.plot(score);



2、random_state

随机森林的本质是一种装袋集成算法(bagging),装袋集成算法是对基评估器的预测结果进行平均或用多数表决原则来决定集成评估器的结果。在刚才的红酒例子中,我们建立了25棵树,对任何一个样本而言,平均或多数表决原则下,当且仅当有13棵以上的树判断错误的时候,随机森林才会判断错误。单独一棵决策树对红酒数据集的分类 准确率在0.85上下浮动,假设一棵树判断错误的可能性为0.2(ε),那20棵树以上都判断错误的可能性是:

import numpy as np
from scipy.special import comb
np.array([comb(20,i)*(0.2**i)*((1-0.2)**(20-i)) for i in range(11,21)]).sum()

sklearn中的分类树DecisionTreeClassifier自带随机性,决策树从最重要的特征中随机选择出一个特征来进行分枝,因此每次生成的决策树都不一样,这个功能由参数random_state控制。

随机森林中random_state控制生成森林的模式,而非让一个森林中只有一棵树。

>>> rfc = RandomForestClassifier(n_estimators=20,random_state=2)
>>> rfc = rfc.fit(X_train, y_train)
# 随机森林的重要属性之一:estimators,
# 查看森林中树的状况 rfc.estimators_[0].random_state
>>> for i in range(len(rfc.estimators_)):
...     print(rfc.estimators_[i].random_state)
1872583848
794921487
111352301
1853453896
213298710
1922988331
1869695442
2081981515
1805465960
1376693511
1418777250
663257521
878959199
854108747
512264917
515183663
1287007039
2083814687
1146014426
570104212

观察到,当random_state固定时,随机森林中生成是一组固定的树,但每棵树依然是不一致的,这是 用”随机挑选特征进行分枝“的方法得到的随机性。


3、bootstrap & oob_score

bootstrap参数默认True,代表采用这种有放回的随机抽样技术。

要让基分类器尽量都不一样,一种方法是使用不同的训练集来进行训练,而袋装法正是通过有放回的随机抽样技术来形成不同的训练数据,bootstrap就是用来控制抽样技术的参数。

在一个含有个样本的原始训练集中进行随机采样,每次采样一个样本,并在抽取下一个样本之前将该样本放回原始训练集,也就是说下次采样时这个样本依然可能被采集到,这样采集次,最终得到一个和原始训练集一样大的,个样本组成的自助集。由于是随机采样,这样每次的自助集和原始数据集不同,和其他的采样集也是不同的。这样就可以自由创造取之不尽用之不竭且互不相同的自助集,用这些自助集来训练基分类器自然也就各不相同了。

基于自助采样法,有放回随机采样,一些样本可能在同一个自助集中出现多次,而其他一些却可能被忽略,一般来说,自助集大约平均会包含的原始数据。一个样本未被采用的概率:

这些数据被称为袋外数据(out of bag data,简写为oob)。除了我们最开始就划分好的测试集之外,这些数据也可以被用来作为集成算法的测试集。在使用随机森林时,我们可以不划分测试集和训练集,只需要用袋外数据来测试我们的模型即可。

在实例化时设置参数oob_score=True,即可使用袋外数据来测试。训练完毕之后,用随机森林属性oob_score_来查看在袋外数据上测试的结果。

随机森林分类模型一些总结

采用有交叠的采样子集的目的

  1. 为集成中的个体学习器应尽可能相互独立,尽可能具有较大差异,以得到泛化能力强的集成。对训练样本进行采样,得到不同的数据集。
  2. 如果采样出的每个子集都完全不同,每个学习器只用到一小部分训练数据,甚至不足以进行有效学习。

feature_importance_计算方法

1、袋外数据错误率评估

RF的数据是boostrap的有放回采样,形成了袋外数据。因此可以采用袋外数据(OOB)错误率进行特征重要性的评估。

袋外数据错误率定义为: 袋外数据自变量值发生轻微扰动后的分类正确率与扰动前分类正确率的平均减少量。

2、利用Gini系数计算特征的重要性

单棵树上特征的重要性定义为:特征在所有非叶节在分裂时加权不纯度的减少,减少的越多说明特征越重要。


随机森林得到的feature_importance的原理

在随机森林中某个特征X的重要性的计算方法如下:

  1. 对于随机森林中的每一颗决策树,  使用相应的OOB(袋外数据)数据来计算它的袋外数据误差  ,记为.

  2. 随机地对袋外数据OOB所有样本的特征X加入噪声干扰  (就可以随机的改变样本在特征X处的值),  再次计算它的袋外数据误差  ,记为.

  3. 假设随机森林中有 棵树,那么对于特征X的重要性,之所以可以用这个表达式来作为相应特征的重要性的度量值是因为: 若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。


随机森林的优缺点

优点

  • 决策树选择部分样本及部分特征,一定程度上避免过拟合。
  • 决策树随机选择样本并随机选择特征,模型具有很好的抗噪能力,性能稳定。
  • 能够处理高维度数据,并且不用做特征选择,能够展现出哪些变量比较重要。
  • 对缺失值不敏感,如果有很大一部分的特征遗失,仍可以维持准确度。
  • 训练时树与树之间是相互独立的,训练速度快,容易做成并行化方法。
  • 随机森林有袋外数据obb,不需要单独划分交叉验证集。

缺点

  • 可能有很多相似决策树,掩盖真实结果。
  • 对小数据或低维数据可能不能产生很好分类。
  • 产生众多决策树,算法较慢。

例子

>>> from sklearn.model_selection import cross_val_score
>>> from sklearn.datasets import make_blobs
>>> from sklearn.ensemble import RandomForestClassifier
>>> from sklearn.ensemble import ExtraTreesClassifier
>>> from sklearn.tree import DecisionTreeClassifier

>>> X, y = make_blobs(n_samples=10000, n_features=10, centers=100,
...     random_state=0)

>>> clf = DecisionTreeClassifier(max_depth=None, min_samples_split=2,
...     random_state=0)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores.mean()
0.98...

>>> clf = RandomForestClassifier(n_estimators=10, max_depth=None,
...     min_samples_split=2, random_state=0)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores.mean()
0.999...

>>> clf = ExtraTreesClassifier(n_estimators=10, max_depth=None,
...     min_samples_split=2, random_state=0)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores.mean() > 0.999
True



推荐阅读

-- 数据STUDIO -- 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存