突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

突发!北京某院集体罢工!

淄博向东,惠泊向西:在人民与人民币之间,惠泊停车选择了人民币

【少儿禁】马建《亮出你的舌苔或空空荡荡》

10部适合女性看的唯美情色电影

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

问题没那么复杂之朴素的贝叶斯

ZZ数据分析 人人都是数据分析师 2022-07-01
对于分类,怎么可以少了贝叶斯学派的理论。万事万物概率看,且看且成长的人生哲理屡试不爽。试想当有人问你某件事是否会发生的时候,你闪动睿智的炯炯目光,轻扇白羽扇,回答到:有百分之八十的概率发生。这格调是不是比直接回答会发生提升了一大截(强行加戏)。所以,本篇我们一起来学习一下贝叶斯分类器的基础,朴素贝叶斯分类器。故事引入贝叶斯分类器朴素贝叶斯分类器处理问题的步骤处理技巧-平滑化举个例子


模型进化-类别敏感问题小结分类模型综合比较截至现在,我们已经介绍了四种常见的分类模型,包括朴素贝叶斯,逻辑回归,SVM和决策树,下面我们综合比较一下这些算法在实际应用中优缺点及选择顺序。首先对于两种相对容易实现的算法朴素贝叶斯和逻辑回归:朴素贝叶斯是生成模型,依赖属性独立性的假设和合适的先验假设;逻辑回归是线性判别模型,最小二乘法目标驱动。它们共同的优点是直接给出预测结果概率,但是毕竟是线性模型,所以实际中效果往往不是最优的。有文献研究结果表明在小样本上朴素贝叶斯表现更好,随着数据增多,特征维度增大,逻辑回归效果更好。如果两种模型都无法达到精度的要求,我们需要尝试更复杂的模型。前文介绍SVM算法时,曾经给出逻辑回归和SVM一些异同点,SVM方法主要优势是非线性(适合高维数据)、稳健(对异常值不敏感)、自带正则项很少过拟合,但是数据量较大时计算资源消耗较大。对于另外一种非线性的算法决策树,无超参数生成决策树,快捷方便,虽然单棵决策树一般效果不如SVM,还容易过拟合,但是基于树的集成方法大大克服了这些困难,但同时计算复杂度也相应提升,好在一些集成方法较为适合并行或者在线学习。

综上所述,对于小样本数据集,一般先用朴素贝叶斯提供一个基准,如果效果已经达到满足程度即可,不满足建议直接使用SVM,因为它性能超棒,计算资源也允许;随着样本量增加,可使用逻辑回归作为基准,效果不满意时,顺序尝试决策树,SVM和基于树的集成方法;对于大样本,需要执行并行任务或者在线更新模型时,建议以逻辑回归作为基准,然后这时基于树的集成模型(例如随机森林)可发挥更好的效果。


关注我们长按二维码



文章有问题?点此查看未经处理的缓存