查看原文
其他

第8.9节 集成学习算法

空字符 月来客栈 2024-01-21

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。

本期推送内容目录如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!

  • 8.9 集成学习算法
    • 8.9.1 集成学习思想
    • 8.9.2 集成学习种类
    • 8.9.3 Bagging集成学习
    • 8.9.4 Boosting集成学习
    • 8.9.5 Stacking集成学习
    • 8.9.6 小结
  • 引用

8.9 集成学习算法

通过前面几章的学习,我们已经了解了机器学习中的多种分类和回归模型。现在有一个问题,这么多模型究竟哪一个最好呢?以分类任务为例,当得到一个实际的数据集时,如果是你,你会选择哪种模型进行建模呢?最笨的方法就是挨个都试一下,这样做有没有道理呢?还别说,在实际的情况中真的可能会都去试一下。

8.9.1 集成学习思想

假如现在选择A、B、C这3个模型进行建模,最后得到结果是: A的分类准确率为0.93,B的分类准确率为0.95,C的分类准确率为0.88。那最终应该选择哪一个模型呢?是模型B吗?

假设现在一共有100个样本,其标签为二分类(正、负两类),3个模型的部分分类结果如表8-10所示。

表 8-10 不同模型分类结果对比表

在表8-10中的5个样本,模型A和模型C均能分类正确,而模型B不能分类正确,但如果此时将这3个模型一起用于分类任务的预测,并且对于每个样本的最终输出结果采用基于投票的规则在3个模型的输出结果中进行选择。例如表86中的第1个样本,模型A和模型C均判定为“负类”只有模型B判定为“正类”,则最后的输出便为“负类”。那么此时,我们就可以得到一个分类准确率为1的“混合”模型。

注意: 在其余的95个样本中,假设根据投票规则均能分类正确。

8.9.2 集成学习种类

在机器学习中,基于这种组合思想来提高模型精度的方法被称为集成学习(Ensemble Learning)。俗话说“3个臭皮匠,赛过诸葛亮”,这句话就完美阐述了集成学习的潜在思想——通过将多个模型结合在一起来提高整体的泛化能力[1]。

常见的集成模型主要包括以下3种:

1. Bagging集成学习

Bagging的核心思想为并行地训练一系列各自独立的同类模型,然后将各个模型的输出结果按照某种策略进行组合,并输出最终结果。例如在分类中可采用投票策略,而在回归中可采用平均策略。通常来讲,模型越容易过拟合,则越适用于Bagging集成学习方法。

为你认可的知识付费,欢迎订阅本专栏阅读更多优质内容!

2. Boosting集成学习

Boosting的核心思想为先串行地训练一系列前后依赖的同类模型,即后一个模型用来对前一个模型的输出结果进行修正,最后通过某种策略将所有的模型组合起来,并输出最终的结果。通常来讲,模型越容易欠拟合,则越适用于Boosting集成学习方法。

继续滑动看下一个

第8.9节 集成学习算法

空字符 月来客栈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存