P＜0.005才算差异显著？粒子物理学家表示：“呵呵。”

查看原文

其他

P＜0.005才算差异显著？粒子物理学家表示：“呵呵。”

2017-08-24 科研圈

图片来源：facebook.com/pedromics

作者 Dalmeet Singh Chawla

翻译 Nature自然科研

顶级科学家们认为，研究者们最爱的统计指标之一—— P 值要有更严苛的标准。

科学正在经历可重复性危机的阵痛。研究者、研究资助机构和学术出版商越来越担心，学术论文中充斥着不可靠的研究结果。现在，72 个知名科学家开始讨伐造成不可重复性问题的一个根源：判断科学新发现所基于的弱统计证据标准。

图片来源：Pixabay

在许多学科里，研究结果的显著性是由 P 值进行判断的。P 值被用来证明或证伪某个“零假设”。零假设一般假定被研究的效应并不存在。某批结果统计出来的 P 值越小，它们是随机因素造成的可能性就越低。当 P 值小于 0.05 时可以认为结果是“统计显著的”。

但是许多科学家担心，0.05 的阈值在文献中造成了太多假阳性。而 P 值操纵（P hacking）的存在使情况变得雪上加霜。许多研究者在没有理论假设的情况下搜集数据，然后再寻找结果中具有统计显著性的数据模式，这就是 P 值操纵。

在 7 月 22 日发表在预印本网站 PsyArXiv 上的一篇文稿引起了轰动。该论文的作者提出，社会科学和生物医学的 P 值阈值应当被调低至 0.005。该论文的终稿发表在了《自然-人类行为》（ Nature Human Behaviour）上。

该论文的第一作者之一、南加州大学经济学家丹尼尔 · 本杰明（Daniel Benjamin）表示：“研究者们并没有意识到，当 P 值等于 0.05 时他们的证据有多么弱。”他认为 P 值在 0.05 和 0.005 之间的结果应该被视为“提示性的证据”，而不是确凿的事实。

这篇论文的作者名单里有两位可重复性领域响当当的人物：斯坦福大学专攻科学证据可靠度的约翰 · 约安尼季斯（John Ioannidis），以及开放科学中心（Center for Open Science）的执行总监布莱恩 · 诺塞克（Brian Nosek）。

超大的大样本

荷兰格罗宁根大学的心理测量学和统计学研究者卡斯珀 · 阿伯斯（Casper Albers）表示，减少 P 值阈值会带来的一个问题是，假阴性的几率会上升，也就是说明明效应存在，但结果却显示不出来。为了避免这个问题，本杰明和同事建议研究者将样本量提高 70 %。他们认为这可以避免假阴性几率上升，同时显著减少假阳性出现的可能性。但是阿伯斯认为在实际操作中，只有那些经费充足的科学家才有资源做到这一点。

伊利诺伊理工学院的计算机科学家所罗门 · 阿加蒙（Shlomo Argamon）则认为可重复性问题没有简单的解决方法，因为“不管你选择什么置信水平，只要存在足够多的不同实验设计方法，那么其中至少有一种方法极有可能纯粹因为偶然而产生统计显著的结果”。他认为要采取更为激进的变革，比如引入新的研究方法标准和研究激励机制。

雷丁大学认知神经科学家汤姆 · 约翰斯顿（Tom Johnstone）则认为，降低 P 值的阈值也会使“抽屉问题”（file-drawer problem）进一步恶化。抽屉问题指的是，那些不具有统计显著性的研究无法发表，只能塞到抽屉里。但是本杰明认为所有的研究都该被发表出来，不管它们的P值为何。

别刻舟求剑

其他一些学科已经开始打压 P 值了。在 2015 年，一个心理学期刊禁止报告 P 值。该论文的第一作者之一、德州农工大学的统计学家瓦伦 · 约翰逊（Valen Johnson）表示，需要从原子对撞实验中搜集海量数据的粒子物理学家们早就规定，P 值的阈值为 0.0000003（3 × 10⁻⁷），因为他们担心标准太松的话会出现错误的结论。在十多年前，遗传学家也采取了类似的措施，将全基因组关联研究的阈值定为 5 × 10⁻⁸ 。全基因组关联研究寻找的是罹患某种疾病的人和没有患这种病的人之间的差异，这类研究需要分析成千上万的 DNA 碱基变异。

另一些科学家则完全抛弃了 P 值，转而拥护更复杂的统计工具，如贝叶斯分析。贝叶斯分析要求研究者给出两个备选的假设并进行验证。不过约翰逊认为，并不是所有研究者都具有进行贝叶斯分析的专门技术，在评估证据是否支持假设时，P 值还是挺有用的。“ P 值本身并不一定是魔鬼。”

本文转载于公众号“Nature自然科研”

点击“阅读原文”阅读英文原文

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至朋友圈，如需转载，请邮件Chinapress@nature.com。未经授权的翻译是侵权行为，版权方将保留追究法律责任的权利。

阅读更多

▽ 故事

· 房子，全球科研青年的共同烦恼

· 失败的实验为他揽得诺奖，还成为了一个千亿美元产业的“点金石 ”

· 最丑的人收入反而高？研究证明丑陋也能带来“红利”

· 房间不干净也是长胖的理由？研究揭示“吃灰”的隐秘杀伤力

· 孤独症也是免疫性疾病？| Oncotarget论文推荐

· 抑郁症改变了大脑的连接 | Scientific Reports 论文推荐