P<0.005让你害怕?粒子物理学家投来嘲讽的眼神
原文以Big names in statistics want to shake up much-maligned P value为标题
发布在2017年7月26日的《自然》新闻上
原文作者:Dalmeet Singh Chawla
顶级科学家们认为,研究者们最爱的统计指标之一——P值要有更严苛的标准。
科学正在经历可重复性危机的阵痛。研究者、研究资助机构和学术出版商越来越担心,学术论文中充斥着不可靠的研究结果。现在,72个知名科学家开始讨伐造成不可重复性问题的一个根源:判断科学新发现所基于的弱统计证据标准。
图片:Pixabay
在许多学科里,研究结果的显著性是由P值进行判断的。P值被用来证明或证伪某个“零假设”。零假设一般假定被研究的效应并不存在。某批结果统计出来的P值越小,它们是随机因素造成的可能性就越低。当P值小于0.05时可以认为结果是“统计显著的”。
但是许多科学家担心,0.05的阈值在文献中造成了太多假阳性。而P值操纵(P hacking)的存在使情况变得雪上加霜。许多研究者在没有理论假设的情况下搜集数据,然后再寻找结果中具有统计显著性的数据模式,这就是P值操纵。
在7月22日发表在预印本网站PsyArXiv上的一篇文稿引起了轰动。该论文的作者提出,社会科学和生物医学的P值阈值应当被调低至0.005。该论文的终稿发表在了《自然-人类行为》( Nature Human Behaviour)上。
该论文的第一作者之一、南加州大学经济学家Daniel Benjamin 表示:“研究者们并没有意识到,当P值等于0.05时他们的证据有多么弱。”他认为P值在0.05和0.005之间的结果应该被视为“提示性的证据”,而不是确凿的事实。
这篇论文的作者名单里有两位可重复性领域响当当的人物:斯坦福大学专攻科学证据可靠度的John Ioannidis,以及开放科学中心(Center for Open Science)的执行总监Brian Nosek。
超大的大样本
荷兰格罗宁根大学的心理测量学和统计学研究者Casper Albers表示,减少P值阈值会带来的一个问题是,假阴性的几率会上升,也就是说明明效应存在,但结果却显示不出来。为了避免这个问题,Benjamin和同事建议研究者将样本量提高70%。他们认为这可以避免假阴性几率上升,同时显著减少假阳性出现的可能性。但是Albers认为在实际操作中,只有那些经费充足的科学家才有资源做到这一点。
伊利诺伊理工学院的计算机科学家Shlomo Argamon则认为可重复性问题没有简单的解决方法,因为“不管你选择什么置信水平,只要存在足够多的不同实验设计方法,那么其中至少有一种方法极有可能纯粹因为偶然而产生统计显著的结果”。他认为要采取更为激进的变革,比如引入新的研究方法标准和研究激励机制。
雷丁大学认知神经科学家Tom Johnstone则认为,降低P值的阈值也会使“抽屉问题”(file-drawer problem)进一步恶化。抽屉问题指的是,那些不具有统计显著性的研究无法发表,只能塞到抽屉里。但是Benjamin认为所有的研究都该被发表出来,不管它们的P值为何。
别刻舟求剑
其他一些学科已经开始打压P值了。在2015年,一个心理学期刊禁止报告P值。该论文的第一作者之一、德州农工大学的统计学家Valen Johnson表示,需要从原子对撞实验中搜集海量数据的粒子物理学家们早就规定,P值的阈值为0.0000003(3 × 10−7),因为他们担心标准太松的话会出现错误的结论。在十多年前,遗传学家也采取了类似的措施,将全基因组关联研究的阈值定为5 × 10−8。全基因组关联研究寻找的是罹患某种疾病的人和没有患这种病的人之间的差异,这类研究需要分析成千上万的DNA碱基变异。
另一些科学家则完全抛弃了P值,转而拥护更复杂的统计工具,如贝叶斯分析。贝叶斯分析要求研究者给出两个备选的假设并进行验证。不过Johnson认为,并不是所有研究者都具有进行贝叶斯分析的专门技术,在评估证据是否支持假设时,P值还是挺有用的。“P值本身并不一定是魔鬼。”ⓝ
点击“阅读原文”阅读英文原文
相关文章
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件Chinapress@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2017 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved