查看原文
其他

Points of Significance: 贝叶斯统计

NGSHotpot NGSHotpot机器深度学习生信 2022-06-07

Points of Significance: 贝叶斯统计

本文系NGSHotpot原创,欢迎分享,公众号转载须授权!

简介


Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。

前言

        在前一次的Points of Significance中,我们介绍了贝叶斯理论并且举例了很多例子来说明如何利用贝叶斯公式帮助我们理解一些概率问题。看过原文并且细心的朋友可能已经发现,前一篇说了那么多例子,为啥没有说原文中提到的特别经典的抛硬币的例子?因为那是今天的主角!


频率学派与贝叶斯学派

        学过统计或者用过统计的朋友可能都听过频率学派和贝叶斯学派,那么他们的主要区别是什么呢?频率学派认为数据是有概率分布的,而参数没有概率分布,而贝叶斯学派则认为数据和参数都有概率分布。下面以硬币的例子说明两个学派的异同:


硬币例子

        假如有两个硬币,其中一个是正反面平整的,即抛硬币的时候出现正面和反面的概率都为0.5,另外一个是有偏的硬币,抛硬币出现正面的概率为0.75,出现反面的概率为0.25。现在我们从这两个硬币中随机选择一个硬币来进行抛硬币实验,那么两个学派如何根据实验结果来衡量取出来的硬币是平整的还是有偏的呢?

        看上面硬币图怎么这么粗糙,没错,就是我自己随便拍的!

1.贝叶斯计算

        首先我们用贝叶斯的思想来考虑到底取出来的硬币是什么样的。我们用C表示正常的硬币,Cb表示有偏的硬币,H表示正面,T表示反面,那么我们有P(H|C)=0.5,P(H|Cb)=0.5,取出一个硬币后抛出正面H,那么根据贝叶斯公式我们可以计算抛出正面硬币是正常和有偏的概率:

        初始条件先我们什么都不知道,所以只能假设选中正常的硬币和有偏的硬币的先验概率相等,都为0.5,即P(C)=P(Cb)=0.5,然后在这个先验概率下面,我们可以计算硬币出现正面的概率:

        然后我们利用贝叶斯公式可以计算得到硬币正常和有偏的概率分别为:

        所以可以知道如果在第一次抛硬币得到正面的结果后,后验概率分别被更新为0.4和0.6。

 

        在下一次抛硬币之前,将刚才计算得到的后验概率用来更新前面的先验概率,即P(C)=0.4,P(Cb)=0.6,在此基础上又抛硬币得到正面,此时继续使用贝叶斯公式计算:

        所以抛两次都是正面的话,我们从贝叶斯的角度可以得到硬币有偏的概率大约为69%。


2.频率学方法计算

        下面我们用频率的方式来计算两次,分别计算选中的是正常的硬币和有偏的硬币出现两次正面的概率P(正常),P(有偏):

        那么可以计算出硬币正常和有偏的概率分别为:

        我们发现,频率学方法计算出来的结果和之前贝叶斯方法计算的结果是一样的。


小结

        上面硬币的例子,用贝叶斯和频率的方式计算出来的结果都是相同的,这是因为这里贝叶斯方法里也是将初始的先验概率看成是一个固定的数0.5。那么什么时候他们是不一样的呢?


硬币实验拓展

        刚才的抛硬币实验中,不管是贝叶斯方法还是频率方法,都假设初始时两个硬币被选中是等概率的。大家可以理解为就只有两个硬币,然后选一个来抛。若是有很多这样的两种硬币混在一起,然后我们抽取其中一个来做抛硬币实验呢?显然这个时候就取决于硬币比例以及抽样方案。同样的,我们假如抛选出来的这个硬币三次,而三次都是正面,这个时候频率学方法和贝叶斯方法是怎么处理的呢?


1.频率学方法

        之前我们讲过统计检验,频率学方法就是检验出现这样的结果是否显著与均匀的硬币有差异来判定。原假设是硬币是均匀的,那么抛硬币一次出现正面的概率为0.5,出现三次的概率为0.125,若是双边检验,出现三次的背面的概率也为0.125,所以p值就为0.125+0.125=0.25,不显著,那么不能拒绝原假设,认为该硬币是均匀的,并没有其他信息。


2.贝叶斯方法

        贝叶斯方法认为抽取到有偏的硬币的概率是一个分布,若是在没有任何其他前提条件时,可以假设该分布为取值为[0,1]之间的均匀分布(下图a第一个图),若是有某种条件让我们相信大概率取0.5且是对称的,可以假设该分布为铃铛形状的分布(下图a第二个图),当然也可能是如下图a第三个图中的线性概率分布。这些分布都被称为先验分布。

        然后根据贝叶斯公式,在知道三个正面时计算后验分布:

        例如如上图b所示,对于先验概率分布为均匀分布的情况(上图b第二图),可以计算后验概率为:

        上式中M可以理解为一个算子使得分布密度曲线下面面积为1,所以可以计算出来所有后验概率密度分布为:

        从上面概率分布可以计算该分布的均值(期望)和中值(面积一半时x的值),计算方式如下:

计算得到median为0.84。

        所以不管以均值还是中值来描述,我们都可以说,选出来的硬币一次抛出正面的概率为0.8或者0.84。

        在有后验概率的时候我们还可以计算其95%的置信区间,计算方式为面积大于0.95的区间,计算方式如下:

        可以解得x大约为0.47,所以95%置信区间为[0.47, 1]。

        我们发现0.5还是位于95%置信区间的,我们还是没有办法说我们的硬币是有偏的。但是贝叶斯可以计算该硬币是有偏的概率,使用pi大于0.5下面的面积来计算,计算方法如下:

        所以可以说是该硬币有94%的可能有偏的出现正面,6%的可能有偏的出现反面,出现正面有偏和反面有偏的概率比为16倍。

        所以其实这已经很足够让我们相信该硬币是有偏的了,但是频率学方法计算单边检验的时候p值为0.125,仍然不显著。


总结

        频率学派认为数据是有分布的,但是参数是固定的,而贝叶斯学派认为数据和参数都是有分布的,通过观察到的数据来更新先验概率到后验概率。虽然这两个方法有很多不同,但是我们并不能说哪种好,哪种不好,所以一般是两种方法都考虑考虑。

        这两个学派博大精深,本文只是对points of significance的简单解读,对其中的理解还需要大家多读书。


参考文献

1. Lopez Puga J, Krzywinski M, Altman N. POINTS OF SIGNIFICANCE: Bayesian statistics. Nature methods. 2015;12(5):377-8.

 

声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误,感谢您指出。

若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com

扫描或识别下方二维码关注NGSHotpot

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存