统计学大佬的派系之争,极大似然估计与最大后验概率
The following article is from Coder梁 Author 梁唐
哈喽大家好,我是可乐
今天来聊一个统计学上争论很久的问题,极大似然估计与最大后验概率。从频率学派和贝叶斯学派开始讲起,最后得出这俩概念的区别,你学废了咩~
正 文
作者 | 梁唐
出品 | 公众号:Coder梁(ID:Coder_LT)
我们今天继续来聊聊概率,今天来聊聊两个非常容易混淆的概念——极大似然估计和最大后验概率。
本来这两个概念都不是非常直观,加上这两个概念看起来又非常相似。这就更增加了理解的难度,为了把这两个概念说清楚,我也查阅了非常多的资料,甚至把概率论都翻出来重新看了一遍。希望今天这篇文章能够帮助同样困惑的小伙伴解开迷茫。
两大学派
对于概率这个东西,学界其实是有分歧的,并不是统一的。两方人看待世界的视角不同,导致了对于概率的理解有所区别,因而分成了两个学派。
这两个学派分别是频率学派和贝叶斯学派,我们一个一个来说。
频率学派
频率学派认为世界是确定的,所以我们可以直接为事件本身建模。比如当我们多次重复一个实验的时候,当实验的结果趋于一个稳定的值p,那么就认为p就是该事件发生的概率。
在频率学派看来,事件的参数是一个定值,我们可以通过求解方程组的方式从数据当中求出参数的值。使用的参数估计的方法叫做极大似然估计(MLE)。
贝叶斯学派
贝叶斯学派与频率学派相反,他们认为世界本身是不确定的。他们会先对世界有一个假设性的预先的估计,然后通过获取的信息不断调整之前的估计。贝叶斯学派不会直接对于事件本身建模,而是从旁观者的角度来说。因此对于同一个事件,掌握不同先验的人会得到不同的结果。
在贝叶斯学派看来,模型的参数源自某种分布,希望从数据当中推导出该分布。对于数据的观测方式不同或者是假设不同,那么得到的参数也会有所差异。贝叶斯派视角下预估参数的常用方法是最大后验概率估计(MAP)。
我估计看到这里,大家应该还是很蒙,完全不知道这俩到底是什么东西,又有什么区别。
没有关系,我们继续往下,我们先来分别看看极大似然估计和最大后验概率是如何计算的。
极大似然估计
我们在之前的文章当中讲过似然的概念,它也表示几率,不过表示的是事件背后参数的几率。
我们来举个例子,假设面前有一个黑盒,里面有若干黑球和若干白球。我们有放回地拿了10次,取出来7个白球3个黑球,请问箱子当中白球的比例p。
根据频率学派的观点,我们进行了10次实验,有7次结果是白球,那么自然说明了白球的比例是70%。这也是我们直观的理解,但仔细想想会发现其实是有一点问题的。
因为只要盒子当中的白球数量不为0,我们都有可能得到这个结果。这并不能说明,箱子当中的白球一定占70%。所以,对此我们还有更严谨的解释。
盒子当中的白球比例是一个参数,我们假设这个比例是,10次实验取出7个白球是事件X,取出来的球非黑即白,满足二项分布。我们可以写出公式:
这个式子就是我们的似然函数,它反映不同的参数下,事件X发生的概率。函数叫做似然函数而不叫概率函数,是因为我们是通过事件反推参数。我们想要知道当在什么值的时候,观测到结果X的可能性最大,也就是要根据这个函数计算出最大时的取值。
这个计算过程就很简单了,我们对求导,然后令导数等于0,然后求出此时对应的的取值。最后的结果当然是时方程有最大值。
我们也可以把的函数图像画出来,直观地感受概率分布。
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(0, 1, 100)
y = np.power(x, 7) * np.power(1 - x, 3)
plt.plot(x, y)
plt.xlabel('value of theta')
plt.ylabel('value of f(theta)')
plt.show()
这种对似然函数求导取最值的方法,就叫做极大似然估计,写成:
最大后验概率
同样的问题在贝叶斯学派的眼里就有了不一样的味道,针对频率学派的结论,上来就是一个质疑,你怎么知道参数的分布是等可能的呢?万一不是等可能的,这个结论显然就不成立了。
在贝叶斯学派看来,盒中的白球的比例也是满足某一种分布的,我们假设这个分布是。那么根据贝叶斯定理,我们可以写出关于的后验概率公式:
对于每一个已经确定的实验结果来说,都是常量,所以我们可以把去掉,去掉之后就得到是正比于和的乘积的。
我们进一步会发现,是关于参数的分布,其实也就是它的先验,而其实就是最大似然估计的式子。写成:
到这个时候我们再回过头看下频率学派和贝叶斯学派的差别,就要好理解很多了。频率学派是直接针对事件本身建模,计算概率,而贝叶斯学派则认为对事件有一个预先的估计,模型的参数源自某个潜在的分布,这个潜在的分布就是先验。
最后多做一点补充,关于频率学派和贝叶斯学派的纷争其实到现在也没有结束,这两个派别都有各自的信仰、内在逻辑、解释力和局限性。总体来说从上世纪中页至今,频率学派稍占上风,主流统计学教材仍然是以频率学派的理论框架为主。
好在对于我们机器学习的学习者和从业者来说,倒是不需要有特别深入的理解。能够熟悉、了解基本的理论,能够在实际问题当中有所理解和使用就可以了。
往期推荐
近期公众号改变了推送规则,不是按照时间顺序来排序。
为了不错过每次推送的好文,请大家设置“星标”,以防走散。