其他
如何解读决策树和随机森林的内部工作机制?
数学算法俱乐部
日期:2020年10月17日
正文共:2918字14图
预计阅读时间:8分钟
来源:pivotal
随机森林在过去几年里得到了蓬勃的发展。它是一种非线性的基于树的模型,往往可以得到准确的结果。但是,随机森林的工作过程大都处于黑箱状态,往往难以解读和完全理解。近日,Pivotal Engineering Journal 网站发表了一篇文章,对随机森林的基础进行了深度解读。该文从随机森林的构造模块决策树谈起,通过生动的图表对随机森林的工作过程进行了介绍,能够帮助读者对随机森林的工作方式有更加透彻的认识。本文内容基于 Ando Saabas 的一个 GitHub 项目。另外,你也能在 GitHub 上找到用于创建本文中各种图表的代码。>>>>
Ando Saabas 的项目:https://github.com/andosa/treeinterpreter
创建图表的代码:https://github.com/gregtam/interpreting-decision-trees-and-random-forests
(7.587 - 9.958) + (5.701 - 7.587) = -4.257
(4.473 - 5.701) = -1.228
from treeinterpreter import treeinterpreter as ti dt_reg_pred, dt_reg_bias, dt_reg_contrib = ti.predict(dt_reg, X_test)
(0.59 - 0.315) = 0.275
(0.747 - 0.59) = 0.157
最小值等于 5
最大值等于 10
平均值为 8
下四分位数为 7,即第一四分位数(Q1),等于该样本中所有数值由小到大排列后第 25% 的值。
中位数为 8.5,即第二四分位数(Q2),等于该样本中所有数值由小到大排列后第 50% 的值。
上四分位数为 9,即第三四分位数(Q3),等于该样本中所有数值由小到大排列后第 75% 的值。
四分位距为 2(即ΔQ=Q3-Q1)。
上图白点代表中位数
灰色的矩形代表 Q3 和 Q1 之间的四分位距
灰线代表 95% 的置信区间
— THE END —
☞【直观详解】让你永远忘不了的傅里叶变换解析☞最高检:教职工有性侵记录的,不得录用☞机器学习中需要了解的 5 种采样方法☞北大读博手记:怎样完成自己的博士生涯?非常具有指导性!☞她是法国数学界的“花木兰”,高斯的“救命恩人”