利用统计学解决科学研究结果无法重复的问题

信息史学

2018-03-28 分享

分享一篇文章。

科学媒介中心

利用统计学解决科学研究结果无法重复的问题 Original

阅读全文

在某一癌症新药的试验中，50名患者中有44%的人在使用这种药物后病情得到了缓解。如果不使用这种药物，只有32%的病人病情会得到缓解。新的疗法听上去很有前景，但它真的比原来的疗法更好吗？

这个问题很难回答，所以统计学家选择换一种方式来回答这个问题。他们对结果进行观察并计算“p值”。如果p值小于0.05，则结果在统计学上具有显著性；换句话说，这不太可能是随机结果。但目前的问题是，许多在统计学上有显著性的结果都无法重复。比如说，某一疗法在某次试验中有显著疗效，但在下一次试验中却没有任何作用。这个问题已经非常严峻，以致有的期刊已完全禁止在文章中出现“p值”。

瓦伦·约翰逊（Valen E. Johnson）团队也研究了这个问题，他们认为，仅用统计显著性来分析实验结果是远远不够的。

开放科学协作（Open ScienceCollaboration，OSC）是一个专注于科学研究的非营利性组织。他们试图重复100个发表于期刊上的心理学实验。根据报道，其中97 个在最初的实验中都具有统计显著性，但开放科学协作却只能成功重复36个实验。

瓦伦·约翰逊和他的学生用实验数据来估算随机选择的心理学实验可以重复的概率。他们发现只有7%的实验具有可重复性。经济学家安娜·德雷贝（Anna Dreber）也做了类似的研究，她估算仅有9%的实验可以重复。

这两项分析表明，心理学领域中大约只有7.7%的实验可被成功重复，或许在其他社会科学领域也是如此。他们的研究对于解释p值具有重要意义，尤其是p值接近0.05时。

其实p值接近0.05是随机结果的概率比人们所以为的概率要大。为了更好地理解这个问题，让我们回到开始提到的药物试验。我们知道，50位试用新疗法的病人中有22位病人病情得到缓解；若使用旧疗法，则有16位病人病情得到缓解。

如果新疗法没有旧疗法作用好，那么50位病人中有22位甚至更多病人的病情得到缓解的可能性为0.05。也就是说这个实验的p值具有统计显著性。但我们想知道新疗法是否真的得到了改进，或者说它是否的确比旧疗法更好。

为了回答这个问题，瓦伦·约翰逊将数据中包含的信息与实验前的可用信息即“先验概率”结合起来进行分析。（先验概率反映研究中没有直接测量的因素。比如先验概率可能会解释其他10次类似药物的试验没有一次能成功重复的原因。）

统计数据显示，如果新药物没有原来的药物好，50个有22个成功的概率是0.0235——相对较低。如果新药物更好呢？实际上我们并不知道新药的成功率，但有一个很好的猜想是它会接近于观察到的成功率，即22/50。假定如此，那么观察到22/50的成功率的可能性是0.113。

综上，这两个概率的比值为贝叶斯因子。我们可以利用贝叶斯定理将贝叶斯因子与先验概率结合起来，计算出新疗法更好的概率。

蓝色曲线代表了“零假设”下即旧疗法更好的概率。红色曲线代表的是新疗法更好的概率。阴影部分代表p值。在这种情况下，成功数为22的概率比是A比B，即0.21。

为便于论证，瓦伦·约翰逊假设在13次癌症治疗实验中只有1次能成功。这个值接近他估计的实验成功概率。当他将这些先验概率与贝叶斯因子结合在一起时发现，旧疗法更好的概率至少是0.71。这与统计显著性上p值为0.05正好相反!

这种不一致性是许多科学研究的典型特征。p值在0.05左右非常普遍。这就解释了为什么许多具有统计显著性的结果并不能重复。

那么，我们应该如何评估文章开始提到的科学发现呢？在2017年9月，瓦伦·约翰逊团队提出：只有p值小于0.005才能被认为具有统计显著性。p值在0.005到0.05之间仅说明实验结果可能具有统计显著性。

在瓦伦·约翰逊看来，具有统计学意义的结果应该是容易被重复的，在社会科学、生物学、药物学领域也是如此。他还认为，统计显著性不应该作为阈值公布。许多统计学给出的结果（即便这些结果在很大程度上具有不确定性）已经发表了，但他们不一定给出了重要的初始证据，即便这些证据与新理论是否正确息息相关。

10月11日，瓦伦·约翰逊在马里兰州贝塞斯达的统计推理研讨会上再次向与会的统计学家们提出了他的想法。他说，改变统计显著性定义的目标是恢复这个术语的本意，使得数据可以为科学发现或治疗效果提供实质性的支持。

不是所有人都同意瓦伦·约翰逊的观点，其中便包括心理学家丹尼尔·莱肯斯（Daniel Lakens）团队。

他们认为，贝叶斯因子的定义太过主观，研究人员完全可以提出其他可能改变他们结论的假设。例如在临床试验中，如果研究人员想提供更有力的证据支持新药，他们可以报告三个月而不是六个月的缓解率。而且，13次试验仅有1次可以重复的预估概率值太低了。他们指出，这一值没有考虑p-值篡改（术语，研究人员反复分析数据直到找到一个可靠的p值）。他们还认为，与其禁止使用p值，研究人员不如在开始实验前就证明实验结果是否可能具有统计学上的显著性。

瓦伦·约翰逊并不认同莱肯斯的许多主张。单纯从实践角度来看，瓦伦·约翰逊认为他们的提议行不通，大部分科学期刊都没有为研究人员提供实验前计算p值的方法。更重要的是，让研究人员自己设定阈值对于提高科学研究的可重复性并不是一个好方法。只有期刊编辑和资助机构同意提前公布那些还没有进行的、但基于科学家自己设定标准的实验的结果，莱肯斯的提议才是可行的。瓦伦·约翰逊认为这种情况基本不可能发生。

在此之前，瓦伦·约翰逊建议我们不要轻易相信那些p值接近0.05的科学研究。要坚持一个更高的标准。