800名科学家反对P值一刀切|Nature 评论
原文作者:Valentin Amrhein、Sander Greenland、Blake McShane
Valentin Amrhein、Sander Greenland、Blake McShane以及另外800多名专家学者联名呼吁淘汰统计学显著性概念,避免夸大或低估研究结果。
请回忆一下你上次在研讨会上听到研究人员宣称两组“没有差异”,因为其“统计学差异不显著”是什么时候?
如果你和我们经历相似,那么类似的话你可能已经听过无数次,最近一次可能就是你上次出席研讨会的时候。有时候明明一眼就能看出两组图表存在差异,但研究者却坚持称结果无统计学差异。这并非偶发事件,我们希望听众中至少有一小部分会对此感到疑惑。
为何明明未曾系统接受过统计学教育的人都能一眼看出的差异,科研人员却总是要否认呢?多年来,一直有声音警告研究人员无显著统计学差异并不能“证明”零假设(即两组不存在差异或基于某个特定结果某种处理方法无效),统计学上具有显著差异也未必能“证明”非零假设。这些错误概念让文献中充满了夸大其词的论断,这一点显而易见;而人们容易忽视的是,这些错误概念也会导致一些研究间的矛盾结论,而事实上这些矛盾并不存在。
在此,我们提出一些建议,希望可以让科学家避免为这些错误概念所累。
插图:David Parkins
并非个例
首先要声明我们反对的是什么:我们不能仅仅因为P值大于某个阈值(通常为0.05),或因为置信区间涵盖了0,而得出“无差异”或“无关联”的结论。我们也不能仅仅因为一项研究结果具有统计学显著性而另一项没有,便判定两项研究的结果存在冲突。 这些误解不仅会浪费研究资源,有时甚至会误导决策。
举个例子,研究抗炎药物的副作用。因为研究结果不具有统计学显著性,一组研究人员宣称这类药物与新发房颤(最常见的心律失常)“无关”。这与先前一项研究结果矛盾,因为之前研究的结果具有统计学显著性。
让我们具体看看两项研究的实际数据。宣称不具有统计学显著性的研究组发现房颤发生的风险比为1.2(也就是说服用抗炎药物人群发生房颤的风险比未服用药物人群高20%),95%的置信区间跨度较大,从微不足道的风险降低(-3%)到风险显著增高(48%)(根据我们的计算,P=0.091)。而先前那项认为研究结果具有统计学显著性的研究组计算的风险比恰好也为1.2,只不过其置信区间较窄,为9%到33%(根据我们的计算,P=0.0003),研究更加准确。
在置信区间包含风险显著增高的情况下,仅因为结果不具有统计学显著性就推论药物与房颤发生“无关”十分可笑;据此就认为前后两项研究矛盾——即便风险比完全一致——同样非常荒谬。这些常见情况表明我们依赖的统计学显著性阈值有可能误导我们(参见“警惕错误结论”)。
图片来源:V. Amrhein et al.
类似的错误非常普遍。根据对数百篇文章进行的调查,超过一半的“不具有统计学显著性”被解读为“无差异”或“无影响”(参见“错误解读”)。
2016年,美国统计协会在《美国统计学家》(The American Statistician )上发表了一份声明,警告不要滥用“统计学显著性”和P值。当时那辑期刊中还发表了多篇关于这一主题的评论文章。3月,《美国统计学家》推出特辑,试图进一步推动这方面的改革。特辑主题为“21世纪的统计推断:P <0.05以外的世界”,共发表了40多篇相关论文。在介绍这一特辑时,编辑特别强调“不要说‘具有统计学显著性’”。在另一篇文章中,几十名专家学者联名呼吁研究人员和期刊编辑不要再使用这些术语。
我们对此深表赞同,并呼吁摒弃整个“统计学显著性”概念。
图片来源:V. Amrhein et al.
我们并非少数。我们邀请其他人阅读本评论文章初稿时提出,如果他们赞同我们的观点就请签下名字,文章发出后的24小时之内我们收到了250个签名。一周后,这个数字超过了800。
所有签名者都隶属于学术机构或有证明表明他们过去曾或现在正在从事依赖统计建模的研究工作。他们中有统计学家、临床医学研究人员、生物学家、心理学家等等;他们来自50多个国家,遍布除南极洲以外的所有大洲。有一位支持者称这是 “针对盲目使用统计学显著性分析进行的一次外科手术式打击”和一次“声援寻求更好的科研实践的机会”。
我们并不是要求完全禁用P值,也并不否定在特定应用场景下P值可以做作为决策标准(例如评定某种制造工艺是否符合质控标准)。我们并非提倡毫无限制地得出实验结论,薄弱证据不可能突然变得可信。和过去几十年许多人提议的一样,我们呼吁停止以传统二分法方式使用P值来判定研究结果是否推翻或支持某一科学假设。
摒弃绝对分类
真正有问题的是人和人的认知而非统计学本身:将结果分为“具有统计学显著性”和“不具有统计学显著性”让人觉得两者是完全不同的。提出的替代统计方法,但凡涉及二分法,都会出现类似的问题,不论是频率论、贝叶斯还是其他。
不幸的是,超过统计学显著性的阈值就表示结论为“真”这一错误观念让科研人员和期刊编辑盲目追求此类结果,进而影响了所发表论文的可靠性。因为存在偏倚,我们看到了大量具有“统计学显著性”的结果;而不具有“统计学显著性”的结果则被显著低估。因此,任何基于所谓具有“统计学显著性”结果的结论分析都可能存在偏倚。
除此以外,单纯强调统计学显著性会鼓励科研人员选择特定的数据和分析方法以便让符合预期的结果(简单点说,可发表的结果)具有统计学显著性,或者让不符合预期的结果无统计学显著性,譬如药物的副作用等,这样他们就能推翻原定的假设。
在研究正式开展前进行登记,要求研究人员公布所有分析结果能在很大程度上缓解上述问题。但即便实施研究前登记,研究人员仍可通过提交的分析计划中未明确说明的方法影响研究结果。即便并非研究人员本意,也同样会发生类似的偏倚。
必须再次申明,我们并不主张废除P值、置信区间或其他统计学指标——只是我们不应该将其奉为圭臬,其中包括“是否具有统计学显著性”这类二分法,或根据其他统计指标(例如贝叶斯因子)进行的分类。
之所有要避免这种“二分法”,其中一个原因是因为所有的统计参数,包括P值和置信区间,在不同的研究中很自然地会产生差异,这种差异有时甚至会达到出乎人意料的程度。事实上,随机变化很容易让P值发生很大变化,甚至发生“显著”与“不显著”的类别变化。
例如,即使研究人员可以针对一些真实存在的效果进行两次完全相同的复制研究,每次研究达到P <0.05的效能(机会)均为80%,一次结果P <0.01而另一次P> 0.30也并不会让人觉得意外。因此无论P值大小,我们都需要谨慎对待。
我们必须学会接受不确定性。一种可行的方法是将置信区间更名为“兼容区间”,并用合适的方法对其进行解读,避免科研人员对其过度依赖。具体而言,我们建议作者详细描述区间内所有值的实际含义,尤其是观察到的总体效果(点估计值)和上下限。这样做时,研究人员应当时刻记住,在给定用于计算区间的统计假设的情况下,区间范围内的所有值都是与数据合理兼容的。因此,单独挑出区间内某个特定值(例如0)进行评判是没有意义的。
坦白讲,我们对于在演示文稿、研究论文、综述和教学材料中反复看到这种荒谬的“无效”和“无关”论断已经烦透了。覆盖0的区间通常还包括许多具有现实意义的非0数值。如果你认为区间内的所有值均无实际意义,那么你或许可以说“我们的结果最明显地表明无重要影响”。
谈到“兼容区间”时,请记住四件事。首先,在给定假设的情况下,区间覆盖了与研究数据最兼容的数值,并不意味着区间外的数值一定与研究数据不兼容,只是兼容性不那么高。事实上,位于区间边界左右的数值并无明显差异。因此,认为区间包括了所有可能的数值这一观点是错误的。
其次,在给定假设的情况下,区间内数值与研究数据的兼容性并不完全相同。点估计值的兼容性最高,它附近的数值相比区间上下限附近的数值,兼容性更高。这就是为什么我们鼓励研究人员讨论点估计值和区间的上下限——即便P值较大、区间较宽。
以之前提到的抗炎药与新发房颤的研究为例,作者应当这样写:‘与以前的研究一样,我们的研究结果表明,服用抗炎药物的患者新发房颤的风险增加了20%。尽管如此,根据我们的假设,风险差从3%的轻度负相关(-3%)到48%的显著正相关,也与我们的实验数据合理兼容。“解读点估计值时承认其不确定性 ,有助于避免研究人员做出“无差异”这类错误论断或过度自信绝对的论断。
第三,和0.05的P值阈值一样,95%置信区间中的95%本身也是约定俗成的。其基础观点就存在问题,即计算出的区间有95%的可能性包含真值;并且95%这个数字让人有一种模糊的感觉——根据这个区间可以得出可靠自信的结论。事实上根据应用场景,我们可以调整这个数字。就比如在抗炎药物那个例子中,当“是否显著”这一二分类方法被认作科学标准的情况下,区间估计值会进一步强化统计显著这一概念,进而加重随之而来的一系列问题。
最后一点,也是最重要的一点,要保持谦逊:兼容性评估的前提是用于计算区间的统计假设是正确的。实际上,这些假设本身也具有很大的不确定性。将所有的假设表达清楚,检验你能检验的假设,比如将数据绘制成图、拟合可替代模型,然后报告所有结果。
不管统计数据如何,你都可以陈述理由支持你的结果,但要分析讨论各种可能的解释,而不仅仅是那些有利于你的。根据实验结果进行推论时,必须遵循严谨的科学原则,这并不仅仅取决于统计学指标。通常情况下,既往证据、研究设计、数据质量、对背后机制的理解等因素比统计指标(如P值或置信区间)更为重要。
关于淘汰统计学显著性概念,我们最常听到的反对意见是我们需要它来做出“是”或“否”的决定。但是对于监管、政策和商业相关决策而言,根据成本、收益以及所有潜在后果的可能性进行综合分析,比单纯依赖统计学指标好得不是一星半点。此外,在决定是否要进一步探索某一研究问题时,P值与后续研究的可能结果之间也并无关系。
淘汰了统计学显著性之后的世界会是怎样的?我们希望论文里面的方法陈述部分和数据列表变得更加详细。作者将把重点放在估计值上,并通过明确讨论区间上下限等方法,说明估计值的不确定性。科研人员将不再依赖显著性检验。如果需计算P值,也会以合理的精度呈现(例如,P = 0.021或P = 0.13)——无需再用星号或字母强调统计显著性,也不再对P值进行二分类的划分(P <0.05或P> 0.05)。如何解读结果或论文是否能够发表不再以统计指标为基础。大家不再执着于研究统计软件,便有更多时间进行创造性思考。
我们呼吁淘汰统计学显著性,并将置信区间更名为兼容区间并非一劳永逸。尽管这种方法有助于消除许多不良科学实践,但它也会带来新的问题。因此,科学界应当将长期监测文献中的统计滥用现象作为一项工作重点。但是,当原始研究和重复研究的结果高度一致的时候,摒弃绝对分类将有助于避免过于绝对的论断、毫无根据的“无差异”结论,以及“与之前研究结果不符”的荒谬声明。滥用统计学显著性对科学界和依赖科学建言的部门造成了很大的危害。P值、置信区间和其他统计指标都有其存在的意义,但现在是时候把它们淘汰了。
原文以Scientists rise up against statistical significance为标题
发布在2019年3月20日《自然》评论上
ⓝ
Nature|doi:10.1038/d41586-019-00857-9
点击“阅读原文”阅读英文原文
热门文章
点击图片阅读:P<0.005让你害怕?粒子物理学家投来嘲讽的眼神
点击图片阅读:P值争议新一季:我们是否需要一个统一的P值阈值?
点击图片阅读:有多少圆满研究,是科学家骗到了自己
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2019 Springer Nature Limited. All Rights Reserved