第8.9节 集成学习算法
各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。
本期推送内容目录如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!
8.9 集成学习算法 8.9.1 集成学习思想 8.9.2 集成学习种类 8.9.3 Bagging集成学习 8.9.4 Boosting集成学习 8.9.5 Stacking集成学习 8.9.6 小结 引用
8.9 集成学习算法
通过前面几章的学习,我们已经了解了机器学习中的多种分类和回归模型。现在有一个问题,这么多模型究竟哪一个最好呢?以分类任务为例,当得到一个实际的数据集时,如果是你,你会选择哪种模型进行建模呢?最笨的方法就是挨个都试一下,这样做有没有道理呢?还别说,在实际的情况中真的可能会都去试一下。
8.9.1 集成学习思想
假如现在选择A、B、C这3个模型进行建模,最后得到结果是: A的分类准确率为0.93,B的分类准确率为0.95,C的分类准确率为0.88。那最终应该选择哪一个模型呢?是模型B吗?
假设现在一共有100个样本,其标签为二分类(正、负两类),3个模型的部分分类结果如表8-10所示。
在表8-10中的5个样本,模型A和模型C均能分类正确,而模型B不能分类正确,但如果此时将这3个模型一起用于分类任务的预测,并且对于每个样本的最终输出结果采用基于投票的规则在3个模型的输出结果中进行选择。例如表86中的第1个样本,模型A和模型C均判定为“负类”只有模型B判定为“正类”,则最后的输出便为“负类”。那么此时,我们就可以得到一个分类准确率为1的“混合”模型。
注意: 在其余的95个样本中,假设根据投票规则均能分类正确。
8.9.2 集成学习种类
在机器学习中,基于这种组合思想来提高模型精度的方法被称为集成学习(Ensemble Learning)。俗话说“3个臭皮匠,赛过诸葛亮”,这句话就完美阐述了集成学习的潜在思想——通过将多个模型结合在一起来提高整体的泛化能力[1]。
常见的集成模型主要包括以下3种:
1. Bagging集成学习
Bagging的核心思想为并行地训练一系列各自独立的同类模型,然后将各个模型的输出结果按照某种策略进行组合,并输出最终结果。例如在分类中可采用投票策略,而在回归中可采用平均策略。通常来讲,模型越容易过拟合,则越适用于Bagging集成学习方法。
为你认可的知识付费,欢迎订阅本专栏阅读更多优质内容!
2. Boosting集成学习
Boosting的核心思想为先串行地训练一系列前后依赖的同类模型,即后一个模型用来对前一个模型的输出结果进行修正,最后通过某种策略将所有的模型组合起来,并输出最终的结果。通常来讲,模型越容易欠拟合,则越适用于Boosting集成学习方法。