其他
一目了然:用excel模拟Adaboost的计算
在二分类的情景中,Adaboost为了实现高精准的分类器,采取了集思广益,博取众长的集成的策略,集中群众智慧,成就英雄之举。实现了1+1大于2的分类效果。今天我们用excel实现Adaboost全链路的计算模拟,在计算的过程中更清晰的了解Adaboot,从未达到知其然亦知其所以然的程度。例如:根据X值判别Y值的二分类数据表:用直角坐标系清楚的表达:用曲线模型H(x)可以轻松的完成精准率100%的分类,我们可想而知这样的模型就像诸葛亮一样难得;但是用了Adaboot算法,能轻易将三个简单的分类模型H1(x),H2(x),H3(x)合成一个超强的模型。第一步:确定一组弱模型,弱模型要求对x样本必须是有拆分的,如上我们在Y值变换的节点中切割了三个弱模型:H1(x),H2(x),H3(x)。第二步,基于初始的样本权重d1(1/N=1/10)来计算出误差最小的模型,记住模型的误差等于误判X样本值的权重值之和。H1(x)误判了6,7,8对应的误差值=0.3;H2(x)误判了0,1,2,9对应的误差值=0.4;H3(x)误判了3,4,5对应的误差值=0.3;确定最有模型为H1(x)。第三步,基于上一步确定的最有模型对应的模型误差e重新分配样本权限,让最有模型误判的权重变高,以凸显处理误判样本能力强的模型。样本权重重新分配的公式:基于当前最优模型H1(x)的误差e=0.3,来重新确定样本权重,错误分类的样本,权重值更新为:d2=
2021年7月3日