查看原文
其他

极大似然估计、极大后验估计和贝叶斯估计

stephenDC 大数据与人工智能 2022-09-09


本文题目中的三个概念,都属于概率统计领域,但机器学习相关的工作者们,也应该很好地理解并掌握。


有些同学也许会反问,我不了解,也没用过这些东西,工作也做的很好啊?



那好,再来看看下面几个问题。


a. 机器学习中的有参建模,会面临参数估计的问题,最后一般都会变成一个目标函数的优化问题(可以带或者不带约束条件),


那么,请问这个目标函数都是怎么来的?


b. 具体点,交叉熵损失函数,大家都听说过吧,怎么来的?


c. 再具体点,逻辑回归总用过吧,它的目标函数是怎么来的呢?



本文不仅会回答以上问题,而且会尝试对这三种估计方法进行梳理、对比和总结,一如既往地欢迎同行挑错或者拍砖。



问题引出





 

频率学派 vs 贝叶斯学派



 




极大似然估计:MLE




极大后验估计:MAP





贝叶斯估计:BE



 


举个栗子




 

总结


下面简单对MLE、MAP和BE三者进行一个对比总结:


各自的缺点:

1)MLE的缺点非常明显,就是在数据量很小的时候,会得出很不可靠的估计。


比如,抛硬币2次全部是正面,MLE会得到正面的概率为1。


还有就是,MLE无法从理论层面说明机器学习目标函数中正则项的来由,而MAP给出了理论解释。


事实上,当初统计学家在回归问题中引入L2正则,只是出于防止矩阵病态造成不可求逆矩阵,后来才发现结果居然更好了。

 

2)MAP的缺点是可能带来计算的困难。


因为MAP优化的是先验和似然的乘积(即后验),两个概率分布的乘积形式通常会变的比较复杂。


正因为如此,贝叶斯学派的学者们提出了很多形式的概率分布,称之为共轭分布。


共轭分布的作用是,让先验乘以似然之后,仍然跟先验属于同一种分布,这样就带来了计算上的方便。


但这一点也正是频率学派所一直诟病的地方,你们贝叶斯学派选择先验没有任何科学依据,只是为了方便计算啊。


3)BE的缺点更明显了,就是计算量过大,因为它要求各个估计的概率加权平均。


在机器学习领域,贝叶斯方法基本等同于“计算量超级大”。不过,有很多近似求解的方法(比如,采样),极大地减小了计算量,拓宽了贝叶斯方法的实际应用范围。


三者之间的联系:


 

最后,我们来回答导读中的三个问题,


1) 机器学习中的目标函数,代表的是一个信息标准(比如,似然、后验、交叉熵、经验损失等)


使用什么样的信息标准作为优化目标,代表了我们不同的追求。


比如,我们希望得到一个光滑的模型,就会对导数加惩罚项;我们希望得到简单的模型,就会对模型复杂度加惩罚项。


2) 交叉熵函数来自于训练数据集上的极大似然估计。


3) 逻辑回归解决的是分类问题,其目标函数就是交叉熵。



以上,欢迎留言讨论交流哦。



还能看点啥?


 

戳戳戳!!!

1.罗素的理发师和奥卡姆剃刀

2.机器学习中的维度灾难

3.集成学习之如何由弱变强


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存