Scikit-learn之决策树

查看原文

其他

Scikit-learn之决策树

From 章华燕机器学习算法工程师 2019-04-07

作者：章华燕
编辑：黄俊嘉

决策树在学习应用中非常有用，接下来给大家分享一下自己有关于决策树的一些想法！

决策树概述

决策树是一个非参数的监督式学习方法，主要用于分类和回归。算法的目标是通过推断数据特征，学习决策规则从而创建一个预测目标变量的模型。如下图所示，决策树通过一系列if-then-else 决策规则近似估计一个正弦曲线。

决策树的优势

①简单易懂，原理清晰，决策树可以实现可视化；

②数据准备简单。其他的方法需要实现数据归一化，创建虚拟变量，删除空白变量；

③使用决策树的代价是数据点的对数级别；

④能够处理数值和分类数据；

⑤能够处理多路输出问题；

⑥使用白盒子模型(内部结构可以直接观测的模型)。一个给定的情况是可以观测的，那么就可以用布尔逻辑解释这个结果。相反，如果在一个黑盒模型(ANN)，结果可能很难解释；

⑦可以通过统计学检验验证模型。这也使得模型的可靠性计算变得可能；

决策树的劣势

①可能会建立过于复杂的规则，即过拟合。为避免这个问题，剪枝、设置叶节点的最小样本数量、设置决策树的最大深度有时候是必要的；

②决策树有时候是不稳定的，因为数据微小的变动，可能生成完全不同的决策树。可以通过总体平均(ensemble)减缓这个问题。应该指的是多次实验；

③学习最优决策树是一个NP完全问题。所以，实际决策树学习算法是基于试探性算法，例如在每个节点实现局部最优值的贪心算法。这样的算法是无法保证返回一个全局最优的决策树。可以通过随机选择特征和样本训练多个决策树来缓解这个问题；

④有些问题学习起来非常难，因为决策树很难表达。如：异或问题、奇偶校验或多路复用器问题；

⑤如果有些因素占据支配地位，决策树是有偏的。因此建议在拟合决策树之前先平衡数据的影响因子。

决策树分类

DecisionTreeClassifier 能够实现多类别的分类。输入两个向量：向量X，大小为[n_samples,n_features]，用于记录训练样本；向量Y，大小为[n_samples]，用于存储训练样本的类标签。

能够实现二进制分类和多分类。使用Isis数据集：

安装Graphviz将其添加到环境变量，使用dot创建一个PDF文件。dot -Tpdf iris.dot -o iris.pdf

如果安装了pydotplus，也可以在Python中直接生成：

可以根据不同的类别输出不同的颜色，也可以指定类别名字:

决策树回归

和分类不同的是向量y可以是浮点数：

本文前面提到的例子：

多输出问题

多输出问题时需要预测多个输出的监督式学习问题。即Y是一个2d的向量，大小为[n_samples, n_outputs]。当输出之间不相关时，一个简单的解决办法是建立n个独立模型。对于每一个输出，使用这些模型独立预测这每个输出。由于输出是和相同的输入相关的，所以一个更好的办法是建立一个能够持续预测所有输出的单一模型。首先，系统需要的训练时间更少了，因为只建立了一个模型。其次准确性也会得到提高。

决策树的策略需要修改以支持多分类问题：

①叶子上存储n个输出变量；

②使用不同的标准计算所有n输出的平均减少。

这一节是关于 DecisionTreeClassifier 和DecisionTreeRegressor的一些知识点。如果一个决策树的输出向量Y大小为[n_samples, n_outputs]，预测量有：

①predict：输出n个预测值

②predict_proba：输出有n个输出的向量组成的列表

添加个人微信，

拉你进机器学习群！

更多志同道合的朋友，

以及更好的学习氛围！

往期精彩文章推荐

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

炸裂大瓜！九比童“厉害”，女网红再嘲童锦程！哲家财团豪刷柚柚CC！

反政府军控制整个阿勒颇，叙利亚人民放烟花庆祝

寒潮前最后一波捡漏！100%纯羊毛大衣只需179元！千元级质感，上身超显贵气~

清华女神，34岁的美女博士县长，辞职了