查看原文
其他

贝叶斯vs频率派:武功到底哪家强?| 说人话的统计学·协和八

2015-09-24 张之昊 协和八

上回我们初次见识了统计学理论中的“独孤九剑”——贝叶斯统计学(戳这里回顾),它的起源便是大名鼎鼎的贝叶斯定理。

整个贝叶斯统计学的精髓可以用贝叶斯定理这一条式子来概括:


我们做数据分析,绝大多数情况下希望得到的是关于某种假说是否成立的信息。等式左边的P(参数 | 数据),正是在观察到了手头上的数据的前提下,假说成立的概率。这里的“参数”,只不过是描述我们感兴趣的假说的数字而已。

比如说,在第1集《你真的懂p值吗?》里(戳这里回顾)蓝精灵抛一枚钢蹦儿,想知道它是不是均匀的。那么,关于钢镚儿是否均匀的假说可以用什么参数表示呢?

最直接的选择,自然就是随机抛一次钢镚儿得到正面(或背面)朝上的概率了。如果我们把这个概率用字母q表示,那么“钢镚儿均匀”这个假说就是q=0.5了。

蓝精灵连续抛了5次都得到了正面,此时在观察到了这样的实验结果之后这个假说成立的概率就是P(参数 | 数据),也就是P(q = 0.5 | 连续抛5次都得到了正面)

对于某个假说,选择哪个量作为参数并不是唯一的

同样是“钢镚儿均匀”,你要是不喜欢拿随机抛一次钢镚儿得到正面朝上的概率作为参数,非要用独立抛两次钢镚儿得到两个背面的概率,那也没什么不可以。这样一来,“钢镚儿均匀”这个假说相对应的参数值就变成了0.25了。

但是,对于同样的一个假说,你选什么做参数,并不影响上面的贝叶斯公式中描述数据或者参数的概率,如P(数据 | 参数)P(参数)等,也不会影响在观察到同样数据下算出来的结果P(参数 | 数据)(想想看为什么?)

因此,用哪个量做参数,主要的决定因素是怎样好理解、好计算

说到底,参数只是对假说的描述方式,就好像“中国的首都”、“清华大学所在城市”或者“北纬40度东经116度”说的都是同一个地方。

在钢镚儿这个例子里,一个参数q就足以完整表述钢镚儿的均匀程度了。但是,在更普遍的情况下,我们需要不止一个参数

比如说,我们的假说是关于健康人群的某个生化指标的分布,那么除了均值以外,我们还需要知道这个分布有多发散,如标准差或5%、95%分位等。如果这个指标随年龄或性别还会有明显的变化,我们还需要引进更多的参数。

在实际的数据分析中,假说模型有许多个参数是很常见的,在一些复杂的多层次分析中出现成百上千以至更多的参数也不稀奇。

我们都知道,我们对数据进行分析,最终目的是得到某些关于我们感兴趣的假说的信息。既然假说由参数来表示,那么回顾一下文章开头的式子,有哪些项是关于参数的呢?P(参数)P(参数 | 数据)(虽然参数也在P(数据 | 参数)中也出现了,但它只是作为一个条件,这一项并不是它的概率)。

在上一集中,我们说过,P(参数)P(参数 | 数据)分别叫做先验概率后验概率。这里头的“”字,就是试验、检验的意思,所以,先验和后验概率说的就是在试验前和试验后我们对由某参数表示的假说成立可能性的估计。

如果我们稍微改一改之前式子的模样:


我们更能清楚地看到,贝叶斯定理其实就是告诉我们,怎样根据观察到的数据来更新我们的先验概率,从而获得对假说的新看法——后验概率

现在我们来关注一下先验概率P(参数)前面的因子。这个因子决定了我们手上的数据将会使先验概率往哪个方向变化。

既然参数代表了假说,那么在分子上P(数据 | 参数)(即“似然”)说的就是在假说成立的条件下得到数据的概率。如果数据很符合假说,P(数据 | 参数)就比较大,从而后验概率P(参数 | 数据)也会变大。

你是否感觉到这与我们之前讲过的什么东西有些隐约的联系?

不错!咱们整个系列最先讨论的概念p值——在原假设成立的条件下得到与手上数据相同或更极端的数据的概率——说的不就是这个么?

为了让这一点变得更明显,我们把上一条式子的“参数”换成“原假设”,就有


也就是说,原假设的后验概率与p值和它的先验概率的乘积成正比

这也就解释了为什么我们说,p值不是原假设成立的概率,这还取决于试验前原假设本身成立的概率有多大。如果反过来考虑备选假设成立的可能性,那么就是把推论也同样反过来而已:如果备选假设的先验概率很小,即便我们获得了基于原假设的很小的p值,也只不过把备选假设的后验概率提高了一点点而已;如果备选假设的先验概率本来就大,那么很小的p值则会进一步增大备选假设成立的概率。

下图就展示了几种不同的可能:


(请点击图片查看大图)

(注:本图出自参考文献1,中文翻译来自果壳网译文http://www.guokr.com/article/438043/;图中注释的“假设似然性”译法不规范,实际指的就是本文所说的备选假设成立的“先验概率”。)

你也许还会发现,我们一直在讲贝叶斯统计学,但说着说着竟然把死对头频率主义的法宝(p值)给扯进来了。这是什么情况?

其实呢,贝叶斯学派和频率学派在对似然性(即P(数据 | 假说))的处理上是非常相似的,他们之间最大的区别,就在于是否引进先验概率这个东西。也正是因为有了先验概率,贝叶斯学派才能把他们祖师爷威力无比的“独孤九剑”贝叶斯定理用上,算出在观察到数据之后假说成立的概率,即后验概率

那么,既然这个后验概率是我们真正感兴趣的东西,为什么频率学派不愿意迈出这一步?

这还得从两派最根本的分歧——概率的定义——上说起。

统计学的根本任务,就是在数据的随机性之中寻找真实的规律既然有随机性,那就逃不开概率的问题。

什么是概率

即使没学过概率论的人都会有朴素的认识,就是事情发生的可能性。但是,这个所谓的“可能性”,到底是客观存在于这个世界里的,还是存在于我们主观的想法之中?

频率学派说,我们只相信客观的、能测量的东西,因此我们认为,概率是频率在无限多次重复试验时的极限值

比如说抛钢镚儿,如果我们想知道抛一次得到正面的概率q,将其作为均匀性的参数,我们要做的就是把这枚钢镚儿抛尽量多次,我们相信,次数n越多,在n次试验中出现正面的频率就会趋近于真实的概率q。(这也是他们被称为“频率学派”的缘由——费希尔大爷满地打滚:不公平!为啥不叫“费希尔派”!!)

而且,这个数字q是客观存在的,是一个老天知道的确定的数值。只要你选定了钢镚儿,q就是个确凿的数,在冥冥中掌控着抛出的结果。任何不确定性都只存在于数据之中。

所以,不管你的假说认为q是哪个数,它要么就是对的(正好就是真实的q),要么就是错的(任何其他数值),不存在什么概率。

所以,你们说的那些什么假设成立的概率,什么先验后验,这在我们看来都是不存在的事情。

所以,我们只关心实际到手的数据符不符合假说,要是太不符合,那就推翻假说,否则就不能推翻。当然了,我知道有时候会犯错,不过我可以设一道门槛儿比如p<0.05,那样从长远来看,我犯错的频率就应该不会和0.05差的太远。

贝叶斯学派怎么说呢?

非也非也!我们既非上帝,也没有长生不老之躯能在千百万个平行空间中做无限多次重复试验。

所谓概率,只不过是我们思想中对事情发生可能性的一种猜测与信念。我觉得一件事情板上钉钉,那么(对于我来说)它的概率就大,我觉得一件事情希望渺茫,它的概率就小。当然,我的看法也不一定对,看到了新的现象,我就修正我的信念,这不是我们所有人(包括你们这些频率派)每天都在做的事吗?

至于说那些代表假说的参数,我不知道有没有一个真实确定的数值,即使有我也没法知道。不过我会收集信息来形成一个看法

比如你给我一枚钢镚儿,我看看它的样子不太奇怪,也不是什么游戏币,我就觉得它应该挺均匀的,所以q应该和0.5挺接近的。我再把它拿到手抛几次,根据正反面出现的次数的多少,修正我对于q=0.5的概率的看法。我相信随着收集信息的增多,我的估计会越来越精确。

于是你觉得谁说的更有理?

先不用着急站队。这两家之言,根本出发点是哲学观点的差异,这一分歧并不存在谁对谁错

一方面,人们对于以频率描述的问题往往有很好的直觉(例如上一集《见识数据分析的“独孤九剑”》中提到的男女生穿裙子的例子)。

另一方面,正如频率学派和贝叶斯学派都认同的那样,真实的参数是不可知的,而人类自然的倾向便是去对它做估计,并以之指导自己的行为。

假设我们生活到30年前,那会儿没有网络,没有手机和微信,甚至也没有固定电话。有一天,在没有事先约定的情况下,你出门去找住在5分钟路程外的一个朋友。虽然你能不能找到你的朋友(他在不在家)在你出门的时候就已经是一件确定的事了(我们忽略你出门时他还在家、在你抵达他家之前正好离开了家的可能性),按照频率学派的思想没有概率可讨论。但是我们肯定会在路上和在出发前思考能找到他的概率,还可能会想想朋友的作息习惯,回忆他前些天有没有说过今天有事要出门,好让这个概率感觉更准确。当我们这样做的时候,我们就都是贝叶斯主义者了

那么,为什么历史悠久的贝叶斯统计学曾沉寂多时,直到近年来才重出江湖呢?

贝叶斯统计学曾经面临两个很大的困难。我们重新来看这条式子:


第一,分母P(数据)我们一直没怎么讲过,它指的就是观察到所得数据的概率。看起来它和参数或假说无关,但实际上我们不能脱离参数来计算数据的概率。

回忆上一集中,我们是怎样计算穿裙子的人在所有学生中的比例P(裙)的?我们分别考虑男女生中穿裙子的比例P(裙 | 男)P(裙 | 女),分别乘以男女生在总人数的比例P(男)P(女),再把它们加起来。在这里,男和女是性别这个参数的所有可能的取值

推广到普遍情况,我们要把P(数据)重新拆分成许多个P(数据 | 参数k)*P(参数k),其中参数k要取遍所有可能的情况,然后再把它们全部加起来。如果参数可以在一个连续范围内取值,那么求和就变成了积分

∫P(数据 | 参数)P(参数)d参数

了。我们之前还说过,实际应用中经常遇到有成百上千个参数的情况,那么P(数据)就变成极其复杂的多重积分了。这一直到近年都是算不出来的。

所以在很长一段时间里,尽管贝叶斯统计学的思想十分优雅简洁,但只能解决一些极为简单的问题,在科学实践中只能扮演“然并卵”的角色。

但是,过去十多年来,贝叶斯统计学家们练就了一个新利器Markov Chain Monte Carlo(马尔可夫链蒙特卡洛)方法不必感到不明觉厉,我们以后将会专门讲到它),加上计算机的发展,即便有上百万个参数,计算也不再是问题了。从而也有许多人认为,未来将会是贝叶斯统计学收复失地的时代。

第二,在前面的讨论中我们能看到,先验概率对结果有着相当大的影响。这样一来,如果人人都按自己的意愿、甚至按自己想要什么结果来设定先验概率,那岂不是乱套了?

这是一个被频率学派吐槽已久、也让许多人感到困惑的地方。贝叶斯统计学对此的解决方案有两个:

(1)使用尽量客观的方法设定先验概率,包括利用荟萃分析综合大量数据,以及某些专门的行为学、心理学手段从相关领域专家获得尽可能准确的先验信息;

(2)使用“弱信息”或“无信息”先验,也就是不对假设成立的先验概率做出预先判断,类似于认为不同的参数取值可能性差不多是一样的。

写到这里,相信大家都已经对贝叶斯频率主义统计学各自的思想都有所了解了。在以后的讨论中,我们将不拘泥于派别,为大家呈现不同的分析角度。

运用之妙,存乎一心,正所谓“无招胜有招”才是最高境界,你说是吗?

回复「说人话的统计学」查看本系列全部文章。

参考文献

1. Nuzzo, R. (2014). Statistical errors. Nature, 506(7487), 150-152.

2. 陈希孺. (2002). 数理统计学简史. 湖南教育出版社.

作者:张之昊

编辑:灯盏细辛


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存