突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

突发!北京某院集体罢工!

淄博向东,惠泊向西:在人民与人民币之间,惠泊停车选择了人民币

【少儿禁】马建《亮出你的舌苔或空空荡荡》

10部适合女性看的唯美情色电影

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

统计学大佬的派系之争,极大似然估计与最大后验概率

The following article is from Coder梁 Author 梁唐

哈喽大家好,我是可乐

今天来聊一个统计学上争论很久的问题,极大似然估计与最大后验概率。从频率学派和贝叶斯学派开始讲起,最后得出这俩概念的区别,你学废了咩~




正 文





作者 | 梁唐

出品 | 公众号:Coder梁(ID:Coder_LT)


我们今天继续来聊聊概率,今天来聊聊两个非常容易混淆的概念——极大似然估计和最大后验概率。

本来这两个概念都不是非常直观,加上这两个概念看起来又非常相似。这就更增加了理解的难度,为了把这两个概念说清楚,我也查阅了非常多的资料,甚至把概率论都翻出来重新看了一遍。希望今天这篇文章能够帮助同样困惑的小伙伴解开迷茫。

两大学派

对于概率这个东西,学界其实是有分歧的,并不是统一的。两方人看待世界的视角不同,导致了对于概率的理解有所区别,因而分成了两个学派。

这两个学派分别是频率学派和贝叶斯学派,我们一个一个来说。

频率学派

频率学派认为世界是确定的,所以我们可以直接为事件本身建模。比如当我们多次重复一个实验的时候,当实验的结果趋于一个稳定的值p,那么就认为p就是该事件发生的概率。

在频率学派看来,事件的参数是一个定值,我们可以通过求解方程组的方式从数据当中求出参数的值。使用的参数估计的方法叫做极大似然估计(MLE)

贝叶斯学派

贝叶斯学派与频率学派相反,他们认为世界本身是不确定的。他们会先对世界有一个假设性的预先的估计,然后通过获取的信息不断调整之前的估计。贝叶斯学派不会直接对于事件本身建模,而是从旁观者的角度来说。因此对于同一个事件,掌握不同先验的人会得到不同的结果。

在贝叶斯学派看来,模型的参数源自某种分布,希望从数据当中推导出该分布。对于数据的观测方式不同或者是假设不同,那么得到的参数也会有所差异。贝叶斯派视角下预估参数的常用方法是最大后验概率估计(MAP)

我估计看到这里,大家应该还是很蒙,完全不知道这俩到底是什么东西,又有什么区别。

没有关系,我们继续往下,我们先来分别看看极大似然估计和最大后验概率是如何计算的。

极大似然估计

我们在之前的文章当中讲过似然的概念,它也表示几率,不过表示的是事件背后参数的几率。

我们来举个例子,假设面前有一个黑盒,里面有若干黑球和若干白球。我们有放回地拿了10次,取出来7个白球3个黑球,请问箱子当中白球的比例p。

根据频率学派的观点,我们进行了10次实验,有7次结果是白球,那么自然说明了白球的比例是70%。这也是我们直观的理解,但仔细想想会发现其实是有一点问题的。

因为只要盒子当中的白球数量不为0,我们都有可能得到这个结果。这并不能说明,箱子当中的白球一定占70%。所以,对此我们还有更严谨的解释。

盒子当中的白球比例是一个参数,我们假设这个比例是,10次实验取出7个白球是事件X,取出来的球非黑即白,满足二项分布。我们可以写出公式:

这个式子就是我们的似然函数,它反映不同的参数下,事件X发生的概率。函数叫做似然函数而不叫概率函数,是因为我们是通过事件反推参数。我们想要知道当在什么值的时候,观测到结果X的可能性最大,也就是要根据这个函数计算出最大时的取值。

这个计算过程就很简单了,我们对求导,然后令导数等于0,然后求出此时对应的的取值。最后的结果当然是时方程有最大值。

我们也可以把的函数图像画出来,直观地感受概率分布。

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(01100)
y = np.power(x, 7) * np.power(1 - x, 3)

plt.plot(x, y)
plt.xlabel('value of theta')
plt.ylabel('value of f(theta)')
plt.show()

这种对似然函数求导取最值的方法,就叫做极大似然估计,写成:

最大后验概率

同样的问题在贝叶斯学派的眼里就有了不一样的味道,针对频率学派的结论,上来就是一个质疑,你怎么知道参数的分布是等可能的呢?万一不是等可能的,这个结论显然就不成立了。

在贝叶斯学派看来,盒中的白球的比例也是满足某一种分布的,我们假设这个分布是。那么根据贝叶斯定理,我们可以写出关于的后验概率公式:

对于每一个已经确定的实验结果来说,都是常量,所以我们可以把去掉,去掉之后就得到是正比于的乘积的。

我们进一步会发现,是关于参数的分布,其实也就是它的先验,而其实就是最大似然估计的式子。写成:

到这个时候我们再回过头看下频率学派和贝叶斯学派的差别,就要好理解很多了。频率学派是直接针对事件本身建模,计算概率,而贝叶斯学派则认为对事件有一个预先的估计,模型的参数源自某个潜在的分布,这个潜在的分布就是先验。

最后多做一点补充,关于频率学派和贝叶斯学派的纷争其实到现在也没有结束,这两个派别都有各自的信仰、内在逻辑、解释力和局限性。总体来说从上世纪中页至今,频率学派稍占上风,主流统计学教材仍然是以频率学派的理论框架为主。

好在对于我们机器学习的学习者和从业者来说,倒是不需要有特别深入的理解。能够熟悉、了解基本的理论,能够在实际问题当中有所理解和使用就可以了。




往期推荐



学数据分析要懂哪些统计学知识?这份思维导图务必收好。

还有人没看过这个?Jupyter Notebook 使用速查表

大厂的SQL面试题都是怎样的(附赠答案)


近期公众号改变了推送规则,不是按照时间顺序来排序。


为了不错过每次推送的好文,请大家设置“星标”,以防走散。


文章有问题?点此查看未经处理的缓存