是时候和“统计显著”说再见了
(李文岐/编译)科学的目标是尽可能准确地建构事实。所以,判断观察到的现象是真实存在,还是仅仅是随机的闪现,就尤为重要。如果你声称自己有所发现,但它其实仅仅是随机出现的事件而已,这就称作“虚假发现”或“假阳性”。假阳性的问题在医药科学的某些领域相当普遍,令人担忧。
2005年,斯坦福大学的流行病学家约翰·安尼迪斯(John Ioannidis)针对生物医学某些领域的研究结果发表了论文《为什么大多数已发表的研究成果是错误的》(Why Most Published Research Findings Are False),引起了一场风暴。安尼迪斯的观点已被随后的研究进一步证实。例如,最近有研究者重复了100项实验心理学的不同研究结果,发现仅有38%的结果重复了原来的结论。对于脑成像研究和认知神经科学来说,情况大概至少与此一样糟糕。怎么会这样呢?
怎样从随机事件中区分出真正的效应其实是一个很古老的问题。哲学家们为此已经争论了数个世纪,统计学家亦然——并得到了更加丰富的成果。这一问题的关键在于对归纳推理和演绎推理的区分。科学是一项归纳推理的活动:我们观察现象,并试图从中归纳出一般性原理。归纳永远都不可能是完全确定的。相反,演绎推理要更容易些:你先假定某个一般性原理是正确,依此推断应该发生什么,然后将其与你实际观察到的进行对照。
但问题是,对于科学家来说,演绎论证并不能直接回答你想解决的问题。
一个科学家真正在乎的是,当声称某一效应不是随机结果而是真正存在时,出错的可能性是多少。这是归纳推理的问题,所以很困难。为了处理这个问题,到20世纪早期,形成了这样一种惯例——将问题转化为仅运用演绎推理的问题,从而避免归纳。20世纪20年代,统计学家罗纳德·费舍尔(Ronald Fisher)提倡用统计显著性检验来实现这一点。这完全是演绎推理的方法,所以避开了归纳推理存在的哲学性问题。
统计显著性检验计算的是:假如本来没有真实的效应,但却观察到我们所看见的现象(甚至更加极端的现象),这样的概率有多大?这并不是断言真实效应不存在,而是在计算如果没有真实效应的话,可能会出现什么情况。“没有真实效应”的假定被称为零假设(null hypothesis),而这个概率则被称为p值。显然,p值越小,零假设成立的可能性就越小,这也就意味着存在真实效应的可能性更大。你需要做的就是在宣布你的发现前,确定多小的p值才是必须的。但人们发现,确定合适的p值相当不易。
问题在于,p值给出了正确答案,却是对错误的问题。我们真正需要知道的,并非是在效应不存在时观测到现象的概率,而是在观测到现象时效应存在的概率(也就是假说成立的概率)。而这是个归纳推理的问题。
人们对这两种大相径庭的概率的混淆,是导致p值常常被错误解读的核心所在。这被称为条件概率倒置错误(error of the transposed conditional)。甚至有些相当可敬的出处都会告诉你p值是“观测到的现象仅是随机误差”的概率。而这是完全错误的。
比方说,假设你给10个人各自分发了一粒药片。你测量了他们的一些机体反应(例如血压),每个人的反应都不同。你再给另外10个人分发另一种药片,你又测得了10种不同的反映。这时,你怎样判断这2种药是否真的不同?
传统的做法是跟随费舍尔的步骤(即方差分析),计算如果两种药不存在差异但却观察到现象(或更极端情形)的概率。这就是基于演绎推理的p值。p值小于0.05就被统称为“统计显著”,这是一个在生物医学文献中无处不在的术语,现在人们用它来表示效应真实存在,而非仅仅是随机现象。
“显著”和“不显著”的二分法其实很荒谬。显然,p值等于0.047还是0.053几乎没有区别,但前者被认为是成功的,后者却被认为是失败。“成功”意味着你的工作成果可以发表,甚至是在一流期刊上。这很糟糕,但更严重的问题是,当你在单次实验中得到“刚好显著”的结果,比如p=0.047,然后宣称有所发现时,你犯错的概率至少有26%,甚至会轻易高于80%。怎么会这样呢?
其中一个原因在于,说“如果这两种药没有区别,那么我观察到这种现象的概率很小”(这正是p值告诉你的)没什么用。真正有用的,是需要知道“如果这两种药真的有区别,那么我观察到这种现象的概率是否还是会很小”。这又把我们带回了归纳推理。
18世纪中期,托马斯·贝叶斯在原则上解决了归纳推理的问题。他展示了如何将给定假设下观察到这一现象的概率(演绎推理)转化为我们真正想要的——在观察到某种现象的情况下这一假设为真的概率(归纳推理)。但如何利用著名的贝叶斯法则来解决实际问题,之后一直都是人们激烈争论的话题。
以地球围绕太阳转的命题为例。这一命题要么正确,要么错误,所以看起来很难对这一命题是否正确给出一个概率值。此外,贝叶斯转换要求在观察前给你的假设一个可能性的赋值(即先验概率)。贝叶斯法则可以将先验概率转化为我们想要的——在观察到相关现象后推测假设成立的概率,即后验概率。
这些令人费解的概率使费舍尔认为贝叶斯的方法并不可行。作为替代,他提出了完全属于演绎推理的零假设显著性检验方案。最近,人们意识到这一方法的广泛应用带来了数量惊人的假阳性结果,引起了试图解决此问题的一些尝试。
贝叶斯法则中一个毫无争议的应用是诊断性筛选,即医生为健康的人做的检测,以探测疾病的警示迹象。它是理解演绎推理危险性的一个很好的例子。
理论上来说,发现疾病的早期症状显然是有益的。但现实是经常会有很多假阳性的诊断,使得这一方案并不那么有效。以痴呆为例。人口总量中大约有1%遭受轻微认知损伤,可能会、但不一定引起痴呆。假设我们有一个很好的诊断方法,即它有95%的概率能正确(阴性)地判断出一个人没有罹患此病症。这意味着,有5%的人虽然没有认知损伤,但却被错误地诊断为阳性。听起来这并不是太糟。这直接类似于显著性检验,即“当没有真实效应存在时,会给出5%的假阳性”——如果我们用小于0.05的p值来作为统计显著性指标的话。
但其实这个筛选检测并不好——实际上差得骇人听闻,因为所有阳性诊断中,有86%属于假阳性,而不是5%。所以阳性诊断中其实只有14%是正确的。这一情况是由于大多数人并未患有认知损伤,所以这些人中的假阳性数量(99%的人的5%)超出了真正遭受认知损失的极少部分人口数量(如果我们假设患者中有80%能被成功检测出来的话,那就是1%的人的80%)。
在这个测验中,假阳性(即没有真实效应)的数量超过了真阳性(即在真的有效应的案例中检测出效应)的数量。
然而,注意,这里能计算出筛选检测中极高的假阳性概率仅仅是因为我们已经对整体被测人群中的患病率做出了估计。这就是我们在贝叶斯法则中所需的先验概率。如果回到显著性检验的问题,则没有那么简单。在医学中知道整体人口中疾病的流行率,对应的就是在显著性检验中在实验前就已经确定两种药并不相同的概率——即真实效应存在的先验概率。通常来说,准确猜测后面的这个数值是不可能的。
让我们举个例子来更生动地理解这个问题。想象我们要测验1000种不同的药来分辨出哪些有用、哪些没用,一次测验一种。这些药中有10%是有效的就算走运,所以我们不妨假设先验概率是10%。假如我们在一次测验后得到一个“刚好显著”的结果,即p=0.047,于是我们以此为证据宣称发现这种药是有效的。但事实上,这一宣称出误的概率,并非通常认为的5%,而是76%。这一数值高得离谱。和筛选检测的例子一样,错误率这么高的原因是检测中本来无效却检出假阳性的数量,超过了真正有效而检出真阳性的数量。
然而,一般情况下,我们无法得知真实效应存在的概率。所以,尽管我们可以计算出p值,但却无法计算假阳性的数量。不过我们可以计算出假阳性率的最小值,只需在观测前假设真实效应存在的概率不应是高于50%的任何值。因为如果假设效应真实存在的概率高于50%,就意味着在实验开始前就假设你更有可能是对的。
如果我们用药物中有50%而非10%有效的比例再次计算药物检测中的假阳性率,结果将是26%,仍远远高于5%。比50%低的任何先验数值都会导致更高的假阳性。
结论是,如果一名科学家在单次测验中得到了p=0.047“刚好显著”的结果,并声称她有了新发现,那么当时这一声明为误的概率至少有26%,甚至可能更高。也难怪在依赖显著性检验的科研领域中,存在着可重复性问题。
通过什么措施可以改善这一状况呢?首先,是时候该放弃“统计显著性”这一老生常谈的术语了。生物医学中普遍将p<0.05作为分界,这其实完全是武断的——而且正如我们前面所论述,将其作为发现了真正效应的证据非常不充分。尽管人们常常因0.05这一魔法数值指责费舍尔,但事实上,费舍尔在1926年就说过,p=0.05是“显著性的低标准”,而只有当重复实验“在这一显著水平上几乎不失败”时,一项科学事实才应被视作在实验上建立了起来。
费舍尔90年前强调的“几乎不失败”一句已经被遗忘。仅一项p=0.045的实验就能做出“发现”,被发表在最顶尖的期刊上。所以,尽管责怪费舍尔并不公平,但阿斯顿大学的物理学家罗伯特·马修斯(Robert Matthews)的一番话还是道出了令人不适的真相:“事实很简单,费舍尔70年前给了科学家一个数学工具,用来将无稽之言变为科学突破,将侥幸变为资助经费。是时候停止它了。”
问题的根本在于,全世界的大学都逼着他们的员工撰写论文,不管有没有新发现。这一压力逼迫着研究人员们偷工减料,更重视数量而非质量,夸大他们研究的成果,甚至还有少数学术造假。在这样生产论文的压力下,人们既没有时间也没有动机去学习关于统计的知识,或去重复实验。除非整改这些不良激励,不然生物医学将失去公众的信任,而这也是其应得的。资深科学家、大学校长和政客们已经给年轻的科研人员树立了一个非常糟糕的榜样。正如剑桥大学的动物学家皮特·劳伦斯(Peter Lawrence)在2007年说的:
夸大你的工作,尽可能地将你的发现分开发表(四篇论文好,两篇论文坏),压缩研究结果(大多数顶级期刊都篇幅有限,《自然》上一篇典型短论文的密度都快赶上黑洞了),简化你的结论,但将材料复杂化(使论文审阅人更难发现错误!)
但同时也有好的消息。这一问题的绝大部分仅发生在医药学和心理学的特定领域。而且尽管存在统计上的灾祸,生物医学一直在取得极大进展。可重复性危机正在被解决。我们需要做的,就是终止大学校长和基金资助机构给予研究人员采取不当行为的动机。
(编辑:Ent;排版:Sol_阳阳)
题图来源:Josh Farkas/ EMCrit
编译来源:aeon.co, The problem with p-values
译文来自果壳网,谢绝转载
如有需要请联系sns@guokr.com 欢迎个人转发到朋友圈
长按二维码关注科学人(微信号:scientific_guokr)。
恩,“臣服”于P值
点击“阅读原文”
了解统计学中“P值”的故事