查看原文
其他

你的科研成果都是真的吗? | 说人话的统计学·协和八

2015-08-27 张之昊 协和八

说某天下午,蓝精灵刚刚收到自己的第一篇论文被正式接收的通知,心里那叫一个春风得意,满心觉得学术事业正要从此起飞,不禁YY起三十年后成为学界泰斗著作等身、功成名就的情景……

于是蓝精灵买了两瓶啤酒、半斤烤翅,一路哼着小曲儿就回到了宿舍。推开门,只见格格巫在电脑上奋战DOTA的背影。

还没等蓝精灵打招呼,格格巫就先开腔了:

“恭喜啊蓝教授!!”

蓝精灵正有点儿摸不着头脑,格格巫不是向来专注黑他三十年的吗?

正不知道该如何回答,格格巫头也没回扔过来一篇论文:“要不先看看这个?”

蓝精灵低头一看,看到了这么一个标题:


(为什么大多数被发表的研究发现

都是假的

神马?这不会是格格巫逗我玩的吧?

蓝精灵赶紧一查,一看吓一跳:

这篇文章2005年发表在PLOS Medicine(影响因子15点几的堂堂SCI一区期刊哪)上,作者是斯坦福大学医学院教授Ioannidis,论文至今已经被引用了快三千次!

作为科研大军中的一员,蓝精灵顿时觉得脸被打得有点儿疼……

那么,到底是怎么一回事呢?

我们读的那么多论文,我们做的那么多结果,

难道都是假的吗?

让我们从前几集聊过的东西说起,看看到底这脸打得有没有道理。

们说过,现在大家广泛使用的以假设检验为核心的统计推断方法里有个最基本的工具——

统计显著性

也许你之前在读到它的时候,就已经隐隐觉得它的定义里有一些别扭的地方:

显著性(p值)就是在假定我们希望检验的效应并不存在(即“原假设成立”)的前提下,收集到了与我们所得到的结果相同或更极端的数据的概率。

我们本身最关心的事情,是我们对于某个科学问题的假说到底是不是真的。如果用正规的统计学语言来说,我们希望知道原假设(以及备选假设)是不是真的或者退一步说,根据目前所得的数据,它有多大可能性是真的。

然而,p值并不能给我们答案,它只能告诉我们,目前手上的数据和原假设有多不相符

我们在本系列第一集《你真的懂p值吗?》中“p值不是什么”说过,它既不是原假设为真的概率,也不是备选假设为假的概率。但是,你也许会想,既然我们在p值很低的时候拒绝原假设,那估计也差不离吧?

下面我们就用一个例子,来琢磨一下这件事儿和科学界被集体打脸之间的关系。

(可戳这里回顾:你真的懂p值吗?

们来假想这么一个情形。

现在有100种药物,我们的任务是找出其中是否有一些能够治疗某种肿瘤。实际上,在这100种药物中,有5种真正对这种肿瘤有效(下图中的红色方块),而剩下的95种(下图中的白色方块)都没有作用。


当然,我们自己是不知道真实情况的。我们能做的,就是收集实验数据,并用正确的统计学测试来做好分析。

我们可以用之前讨论过的统计显著性统计功效两大工具来预测一下,我们对这100种药物做完实验后,将会得到怎样的结果:

对于那5种真正有效的药物,我们会在多少种里得到具有显著性的结果?这恰好就是统计功效(1-β)的定义(在假定的效应真实存在的情况下,得到显著结果的概率)。

读过了本系列前两集《做统计,多少数据才算够?》和《提升统计功效,让评审心服口服!》的你,一定知道需要多少样本量和如何优化实验设计,保证我们的研究具有足够高的统计功效。

在这里,假设我们拥有0.8的统计功效。因此,在5种真正有效的药物中,从概率上讲,平均将有 5 × 0.8 = 4 种呈现具有统计显著性的结果(下图中的深蓝色方块)。而剩下的1种由于实验的随机性,我们将无法发现其有效性,也就是犯了第二类错误“取伪”(下图中的粉红色方块)。


那么,剩下的95种无效药物又如何呢?

记住,我们并不知道它们实际是无效的,我们只能利用它们的实验数据,分别算出在假定该种药物无效的原假设下的p值,然后根据p值做出是否拒绝原假设的决定。

同样由于随机性,尽管它们都没有效果,但仍然可能会有那么几种药物给出显著的结果

所以,现在的问题就是,如果某种药物实际上是无效的,我们会有多大可能误认为它是有效的?

你也许已经发现,这恰恰就是我们选取的显著性界限⍺

假设我们用的就是最普遍通用的0.05,因此,在95种无效药物中,平均来说我们将会在 95 × 0.05 = 4.75 种上得到具有统计显著性的结果。

换言之,大约会有5种无效药物被误认为有效(所谓的“假阳性”发现),也就是犯了第一类错误“弃真”(下图中的浅蓝色方块),而剩下的90种我们做出了正确的判断。

读到这里,我猜你已经能意识到问题所在了。

如果你是临床医生或者亟待治疗的病人,你才不会关心什么p值什么显著性,你在乎的是,这些已经被研究“证明”有效的药是不是真能起作用?

按照目前学术界通行的统计分析方法,在这100种药物中,一共会有9种药物被认为有效(上图中深蓝和浅蓝色的方块)。

然而,在这9种药物中,只有4种(约44.4%)才是真正有疗效的!

面这个例子里我们说的是药,其实它可以被推广到许多其他情形。

如果我们想研究哪些基因与精神分裂症相关,那么第一幅图里的红色和白色方块就变成了真正与精神分裂症有关的基因和其他无关基因。

如果我们想要预报地震,那么它们又可以代表真正的地震和那些疑似地震但并非地震的事件。

更抽象地说,在任何一门学科里,都会同时存在着各种各样由不同研究者提出的、未被证实的理论假说,这些假说也许有一小部分是真的,剩下的大多数都是假的。经过一轮研究之后,有些假说会得到数据支持,而另一些假说则不会。

在那些看起来得到了数据支持的假说里,有多少真正是真实的呢?

我们可以用完全一模一样的方法进行分析推理。

个问题的核心是什么呢?

回到我们的例子,关键就在于最开始的时候,有效的药物(第一幅图中的5个红格子)比起无效的药物(95个白格子)要少得多

尽管通过控制显著性水平⍺,我们犯第一类错误的概率并不大,但是因为白格子实在很多,总数乘以得到的数值(假阳性发现的数量)依然不小

而对于那5个白格子,即使我们有比较高的统计功效1-β,能够正确识别出它们中的大多数,但是这几个货真价实的”李逵“还是淹没在一大堆”李鬼“里头了

所以,我们应该从这里学到的第一条是一句老生常谈——

显著性和统计功效这两大支柱缺一不可!

稍稍改变上面的计算,如果统计功效1-β低一些,或者显著性水平宽松一些,在具有显著性结果的药物中真正有效的比率将会比现在的44.4%糟糕的多!

面的例子给我们上的第二课是,p值并不是原假设为真的概率很低的p值并不能保证我们的结论就是真的

要对我们的研究假说的真实性做更可靠的估计,我们要考虑的是,基于当前的研究阶段和知识水平,领域内还有多少性质和机理类似的其他假说,这一假说成立的可能性有多大。

就好比在一大堆化合物中寻找能够抑制肿瘤的一种,在源源不断的地壳运动中辨别地震,在茫茫基因组中找出与某个稀有疾病相关的基因,所有这些事情本身发生的概率都太小了

因此,即便有统计上显著的结果,也很可能是假阳性。

忽略了事件自身的小概率特性而错误地将显著的结果认为是事件发生的证据,这在统计学上称为

基数谬误

baserate fallacy)。

由此我们还可以得到一条推论:

一项得到显著结果支持的发现的确为真的概率,取决于对这个问题的研究发展到了什么阶段。

如果对这个问题的研究刚刚开始,人们的认识几乎还是一片空白、各种假说满天飞的时候,显著的结果也很可能是假的;

如果对该问题的研究已经非常深入,许多不同角度的研究都已重复了相似的结果,甚至该发现来自于对许多大样本随机研究的综合分析(比如现在越来越流行的“荟萃分析”meta-analysis方法)时,它为真的概率就大多了。

上这两条,可以说都是与统计学本身有关的技术原因,Ioannidis也并非第一个提出这些问题的人。在他的文章里,更有趣、或许也更重要的是“人”的因素——

学术论文是科学发现最重要的载体,写论文的是人,评论文的是人,读论文的也是人。

对于写论文的人来说,总希望有显著的结果,这样才有更大的被发表的机会。我们暂且忽略编造数据那样极端的学术不端行为(虽然这些也很严重),不少研究者面临发文压力,在利益驱动下都多多少少有过一些擦边球的做法,比如去掉不利于自己的数据点、故意不在论文中报告与假想相悖的分析结果等。

而对于评论文的人来说,他们的意见决定着哪些文章能被发表。审稿人大多是小有成就的学者,甚至是学界大腕儿,不免对自己的领域有着既定的偏见。如果碰到不符合自己学术见解或早先研究结论的文章,可能就不自觉地从严处理,甚至鸡蛋里挑骨头,想方设法要把文章拦下来;而遇到结果和观点支持自己的论文,就也许高抬贵手了吧?

那么读论文的人呢?

我们看到的,只是那些报告了显著结果的论文,而往往不会知道有多少没得到显著结果的研究藏在了世界的各个角落。这在热门的领域会带来一个新问题:如果关于某个问题的某种假说本身是不成立的,但做的人多了,总会得到那么一两个由于随机因素而导致的显著结果。然后呢?只有那个得到显著结果的研究组发表了文章,其他人只是一片寂静,于是我们都以为故事就像文章里说的那样……

上面所有这些因素都会增加假阳性发现(也就是变成浅蓝色的白格子)的数量,从而使得阳性发现(所有深蓝和浅蓝方块)中,真正真实的发现的比例进一步降低。会有多低呢?Ioannidis老爷子斩钉截铁:几乎没有!但是,他说这话主要还是基于猜想,并没有具体数据。

来,约翰霍普金斯大学的两位教授Jager和Leek收集了部分一流医学期刊的数据,做了粗略的估计,认为尽管Ioannidis说的基本都对,但事情也许没有那么糟。

他们的文章起了个很老实的题目,叫“An estimate of the science-wise false discoveryrate and application to the top medial literature”(《对全科学界错误发现率的估计及其在顶尖医学文献上的应用》),发表在去年的Biostatistics杂志上。

有趣的是,这本杂志的编辑邀请了几位著名统计学家对这篇文章撰写评论,其中就包括Ioannidis。这位老爷子可一点也没客气,一巴掌就扇过去了,连标题都还跟当年的文章一个风格:


《为什么

<对全科学界错误发现率的估计及其在顶尖医学文献上的应用>

是假的》

至于这场辩(ma)论(zhan)双方各自具体说了些什么,涉及到许多技术细节,我们就不展开了。

说到底,这依然是一个尚未有定论的问题。那么我们能做什么呢?首先当然还是学好统计学(最佳途径自然是持续关注协和八公众号和本系列“说人话的统计学”啦!),虽然它有着不够完善的地方,但它仍然是探求真相的旅途中不可替代的工具

其次,在审视自己和他人的研究发现时,更要擦亮一双慧眼,提高批判性思考的能力。推而广之,作为科研工作者,我们在从我做起的同时,也应携手改进学术界研究、编审和出版的机制,降低人为因素的影响,造就更高效、更透明的科学共同体。

回复「说人话的统计学」查看本系列全部文章。

参考文献

1.Reinhart, Alex. "Statistics done wrong."(2014).

2.Ioannidis, J. PA, 2005:“Why Most Published ResearchFindings Are False”. PLoS Medicine, 2(8), e124.

3.Jager, L. R., & Leek, J. T. (2014). An estimate ofthe science-wise false discovery rate and application to the top medicalliterature. Biostatistics, 15(1), 1-12.

4.Ioannidis, J. P. (2014). Discussion: why “An estimateof the science-wise false discovery rate and application to the top medicalliterature” is false. Biostatistics, 15(1), 28-36.

作者:张之昊

编辑:一枝黄花、灯盏细辛


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存