查看原文
其他

近4成经过同行评审的营养健康研究是错的,到底出了什么问题?

Patrick Clinton 科研圈 2018-10-17

图片来源:Times Higher Education

作者   Patrick Clinton

翻译   王可

审校   阿金

编辑   魏潇


咖啡会不会致癌?黄油到底健不健康?对于这类问题,我们总是拿不准该如何回答。其实,食品营养科学研究存在一些很大的问题:可疑的数据、不可靠的结果、还有无处不在的偏见(不只是针对“餐饮业巨无霸”,比如麦X劳和百X集团)。因此我们真诚地希望:科学家们和学术期刊能够规范他们的行为,记者们能够优化一下他们不靠谱的“探测器”,别老一脸震惊地报道一些所谓营养学的“没营养新发现”。然而,在这天到来之前,我们最好先学学如何靠自己做好过滤工作


最近在统计学界发表的两篇文章正好为我们找到了一种绝佳工具,尽管它无法一劳永逸地解决问题,但目前来说,已经能提供一些我们急需的保护措施。在这里,为了能够了解具体内容,我们需要在数学领域畅游一下,不过别担心,跟紧我,你绝对不会觉得太难的。


让我们找出三篇最近发表的饮食营养研究:


•  每天食用 50 克西梅能帮助患有骨质疏松的老年女性预防骨密度的降低

(https://link.springer.com/article/10.1007%2Fs00198-016-3524-8)

•  48 克黑巧克力可以改善你的脑电波

(https://www.fasebj.org/doi/10.1096/fasebj.2018.32.1_supplement.878.10)

•  食用猪肉泥的婴儿比食用奶制品的婴儿长得更高

(https://www.ncbi.nlm.nih.gov/pubmed/29722841)


这些研究都经过了同行评审,都声称自己的结果具有统计学显著性,而且他们都指出常见食物和健康结果之间明确的因果关系。然而,这三项研究中很可能会有一个(也有可能全部)最终被证明是错的。那么,我们到底应该相信哪个 ?




双重错误制造正确结果

在营养学研究中,有个问题很常见,你很可能在新闻报道中读到过:像大多数研究一样,他们会用一种非常反直觉的方法,称之为“零假设检验”


这种方法大致如下:首先,你需要提出你想要验证的任何问题,比如“药物 X 可以治愈癌症”。但接下来你不要去试图直接验证它本身,因为这在现实世界中是不可能的,你去验证它的对立面。也就是说,“我要试着去证明:药物X和治愈癌症这两件事之间的任何联系都只是出于偶然。”这种看起来有些含糊其辞的否命题陈述就是你的零假设(null hypothesis)


然后你就做实验、分析数据。如果幸运的话,你会发现没有足够证据证明药物 X 和治愈癌症之间没有关系(是不是已经晕了?)。换言之,药物 X 和治愈癌症之间的联系并不是出于偶然。那么,你就会顺理成章地认为药物 X 能治愈癌症。


但事实并非如此。有很多变量因素会影响你的结果:年龄、体重、性别、吸烟与否……不胜枚举。一个好的实验设计会控制尽可能多的变量,但总会有一些你不知道的其他影响因素。没有人可以筛选掉所有可能的变量,所以科学研究不可能完美


对于非专业读者来说,他们很难理解并消化零假设检验。但统计学家会告诉你,它几乎是唯一的,或者说是最佳实验设计方法。近一百年以来,自罗纳德·爱尔默·费雪(Ronald Aylmer Fisher)出版了他那本影响深远的《研究者的统计学方法》(Statistical Methods for Research Workers)之后,每位未来的科学家都学过这一内容。


而这也是如今我们陷入如此困境的部分原因。



什么是发生概率?

让这套奇异证明体系奏效的重点,在于了解需要多少证据来证实或者证伪一个零假设,换句话说,就是你怎么能确定你的结果具有统计学显著性?实际上有很多种方法,其中不少方法深奥复杂,但绝大多数研究都使用同一种叫做“ P 值”的方法(P 代表“probability”,即概率)。


计算 P 值需要用到实验数据和用来构建实验的假定条件,P 值应在 0 到 1 的范围内。低 P 值就是好结果,它说明你的结果不太可能是偶然得之;相反,高 P 值则代表你得到的结果(关联性)很可能是偶然产生的。


几十年以来,这已经渐渐成为一个人们都遵从的传统:P 值等于或低于 0.05 代表结果具有统计学显著性,说明它“可信”。P 值等于 0.05 可以解释为:实验结果只有 5%(1/20)的可能性是偶然产生的——这个可能性是可以接受的。


但问题是,实际上 P=0.05 原本的意义并非如此,统计学家定义的P值和我们对它的应用之间,存在巨大的鸿沟。当你读到一个非技术性设定的 P 值时,你还会看到不少条理清晰合理的解释,但很明显它们是错的。


原因如下:


很多人认为,P 值等于 0.05 说明,你的假设理论(那个你真正想要验证的假设理论,而非零假设)有 95% 的可能性是真的,但事实并非如此。P 值只代表了你实现最终结果的概率,但它需要一个大前提,即你的零假设以及所有其他的假定命题都得是成立的。


P 值不仅不能告诉我们要证明的某个假设理论是否为真,除非我们能百分之百确保每一个用作计算的假定条件都是正确的,否则它甚至和假设理论没有任何特定联系,而这正是太多研究所缺乏的。”在《美国统计学人》(The American Statistician)杂志中,一些科学家因为担心 P 值被过度滥用而如此写道。


所以,归根到底,尽管 P 值是非常有用的工具,但人们很容易错误地使用它。因为它并没有那么理想,也不能够直接回答“一个实验结果或临床试验是否有统计学显著性”这样的问题,可是非专业人士就喜欢这么想。正因为如此,如果你开始研究造成“假阳性”结果和其他错误的因素时,我可以告诉你,一般来说,一个常规的健康相关试验,如果在准确性的正常范围内操作、并产生“阳性”结果的情况下,值为 0.05 或 1/20 其实是不正常的,正确的 P 值更接近 1/3 


这听起来可能很疯狂,但是别忘了,统计学家 John Ioannidis 曾研究过在主流期刊上发表的高引用率科学文献,他得到的结果更糟:接近 40% 的研究结果被证明是错误的。所以,拿这些东西指导我们的生活?算了吧。




更好的 P 值,还是取代它的工具?

实话实说,统计学领域几十年前就意识到这个问题了。我在前文中引用的《美国统计学人》声明就已经强调,用 P 值衡量假设理论的正确性是一种非常普遍的错误。那篇文章提供了一些替代性的选择,因为过于技术性,在这里就不详述了。但无论是什么办法,都会需要成百上千的研究人员和各学术期刊齐心协力,更认真地对待科研中的统计学部分。即使是这样,也要花上几十年才可能实现。


那我们该怎么办呢?


今年 1 月,72 位统计学界的著名学者向《自然-人类行为》杂志提交了一份提议。提议认为,既然我们不能很快地(也可能永远不能)消灭基于 P 值的零假设检验,那么我们至少要设定一个更合理的 P 值——用 0.005 来代替 0.05,P 值处于这两个值之间的研究结果只能被称为“有启发性的”(这个建议主要针对最新发现。跟踪性研究要求知识更加复杂,应该区别对待)。作者们说,应该要把“假阳性”概率降低到 5%——这个数值就是我们之前用 P=0.05 时认为我们会得到的假阳性概率。今年 4 月,John Ioannidis 在《美国医学会杂志》(Journal of the American Medical Association)上发表上述观点。这个解决方法虽然只是暂时性的,但是也是必要的。


这是个好办法,但要花上几十年来实施。那么我们之后该怎么做?


科学家们和各期刊会在他们接下来的医学健康(及营养学)研究中采取这个简单直接的方法吗?让我们拭目以待。有几家已经这样做了,一些专科医生甚至已经开始使用更加严苛的标准。比如群体基因组学开始用 0.00000005 作为分界值。



跟着我说:我不在乎

我很确定,这 72 名统计学家提出的建议是针对科学家和学术期刊的。但在他们做到这一点之前,我们也许也可以亲自采用一下这个建议。


这个时候,让我们回头看看最开始找到的三篇论文:


•  食用西梅能帮助患有骨质疏松的老年女性预防骨密度的降低。P < 0.05,有启发性,但不够显著。不感兴趣。


•  巧克力改善脑电波?他们关注了多种脑电波,最强的统计关联值为 0.01,但他们只有四个被试对象。不感兴趣。


•  给婴儿喂食猪肉泥会使婴儿长更高?这个比较棘手。P 值等于 0.001,所以看起来真的是可能会有点什么。但是婴儿长得更高有什么意义吗?科学家们如果想要继续这个研究,就请说明一下它的结果既具有统计学显著性,而且也有现实意义。


要澄清的一点是,并不是任何 P  值大于 0.005 的研究结果都是错的,这种观点也是不对的。随着时间的推进,科学研究将会使用更加复杂的统计学分析,这会使 P< 0.005 这一策略失效(记住这点,后面我们会让你跟上这个思路的)。


与此同时,你当然是想吃什么就吃什么,这篇文章的重点不是要劝你不要吃西梅和巧克力,然后给你的宝宝多吃猪肉泥。想吃就吃,享受食物带给你的慰藉效果,没准你会吃得很开心。但是,一定不要把这些研究当成终极真理。他们可能只是去往真理的一步,但在多数情况下,整段行程仍将是漫长而难以预料的



而你要做的,就是接受这样的现实,忽略掉大部分你读到的营养学研究。记者需要找到更有趣更严谨的题材才能套路你,大学出版社需要发掘更吸引人的新闻主题,而你再也不会被那些美食博主和电视医生的花言巧语所愚弄。除非你看到了那个 0.005,在这之前,请你保持冷静,坚定如磐石


这个标准听起来有点严格,但是这是为了科学。你同意吗?


原文链接:

https://newfoodeconomy.org/nutrition-research-statistics-problem/


阅读更多


▽ 故事

· 这个世界上,有一群专门研究“恶心”的科学家

· 被维基百科引用280万次的论文长什么样?

· 全世界只有6人的“黄金血液”捐献者:响应召唤、跨国献血的“日常”

· 超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

▽ 论文推荐

· 《自然-通讯》编辑精选合集

· 我们如何记住“这个人是谁”:社交记忆的神经机制

▽ 论文导读

· Nature 一周论文导读 | 2018 年 6 月 14 日

· Science 一周论文导读 | 2018 年 6 月 15 日


内容合作请联系

keyanquan@huanqiukexue.com

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存