查看原文
其他

人人都应该知道的统计相关性知识

蔡立英/编译 世界科学 2019-06-30

《新英格兰医学杂志》曾刊登过一篇论文,声称吃巧克力可以提高认知功能。得出这一结论的根据是每个国家的诺贝尔奖得主数量与该国巧克力人均消费量具有强相关性。这靠谱吗?

2012年,《新英格兰医学杂志》刊登了一篇论文,声称吃巧克力可以提高认知功能。得出这一结论的根据是每个国家的诺贝尔奖得主数量与该国巧克力人均消费量具有强相关性。令人诧异的是这篇论文竟然通过了同行评审,因为很显然作者犯了两个常见错误,这是生物医学文献中研究者进行相关分析时常犯的错误。

相关性描述了两个现象之间的线性关系强度(为了简化说明,这里着重阐述最常用的线性关系——皮尔森相关):例如,一个变量值的增加可能会跟随着另一个变量值的增加;或者可能是负相关,一个变量的增加会伴随另一个变量的减少。它们的关系是用一个无单位的数值来计算的,那就是相关系数,其数值范围是从-1到+1,绝对值越接近1,表示相关性越强。

错误1:集体相关=个体相关

《新英格兰医学杂志》那篇论文犯的第一个错误是在群体数据的基础上得出关于个体的结论,陷入了生态学谬误中。这个案例中,作者计算了集合层面(国家)的相关系数,然后错误地把这个数值用于得出关于个体层面的结论(吃巧克力提高认知功能)。实际上,个体层面的准确数据完全是未知的:没有人收集过诺贝尔奖得主吃过多少巧克力的数据,甚至于他们到底是否吃过。事实上,加利福尼亚大学圣迭戈分校的比阿特丽斯·戈隆布(Beatrice A. Golomb)的研究团队检验了这个假设,指出两个变量之间根本不存在相关性。

该论文从未被撤回,至今已被引用23次。即使错误的论文被撤回,相关新闻报道还保留在互联网上,还能继续传播错误信息。如果这些对统计分析有所误解的错误结论甚至能出现在《新英格兰医学杂志》这样的著名期刊,那么人们会很好奇,这样的错误出现在生物医学文献中的总体频率有多大?

错误2:相关关系=因果关系

第二种曲解相关性分析的错误更常见,即把相关性等同于因果关系。两个因素之间表现出一种关系,可能不是意味着它们之间相互影响,而是意味它们都被同一个隐藏的因素影响。在巧克力消费量和诺贝尔奖得主的例子中,可能是一个国家的富裕程度同时影响了巧克力的消费量和高等教育的可获取性。由此可见,完全无关的现象也可能会可笑地呈现出相关性。相关性可以很肯定地指出一个可能存在的因果关系,但是并不足以证明存在这样的因果关系。

即使科学家很清楚相关性不等于因果关系,但是把两者混为一谈的研究在顶级期刊中还是很普遍。比如,一项1999年发表在《自然》杂志上的研究发现,两岁以下儿童的近视和睡眠期间夜间环境光曝光度存在强相关。但是,2000年发表在《自然》杂志上的另一项研究结果驳斥了上述发现,指出儿童近视的原因是遗传性的,而不是环境因素造成的。这个新的研究发现父母近视与儿童近视之间存在强相关,指出近视的父母为孩子的卧室夜间开灯的可能性更大。在这个例子中,作者基于假想的关联得出了一个结论,而没有检查其他可能的解释。


安斯库姆四重奏是统计特性非常相似的四组数据图,尽管统计上貌似都显示出很强的线性相关关系(相关系数都为0.816),这样的结论却只适用于左上图,另外三幅图都违反了统计分析的假设,由此强调了选择一个合适的数据分析之前首先绘制数据图的重要性。

错误3:相关系数为零=变量相互独立

第三种相反类型的相关错误是认为相关性为零就意味着两个变量相互独立。如果两个变量之间相互独立,我们可以推出这两个变量之间的线性相关系数为零。反之则不一定成立,线性相关系数为零不一定意味着两个变量相互独立。

让我们玩一个抛硬币确定投注金额的游戏:若第一次是正面朝上、第二次是反面朝上,则输10美元;如果第一次是反面朝上、第二次是正面朝上,则赢20美元。如果我们定义X为投注金额、Y为净获胜金额,那么X和Y可能会是零相关,但是它们不是相互独立的——因为如果你知道X的值,就能知道Y的值。

1973年,英国统计学家弗兰克•安斯库姆(Frank Anscombe)用一组理想化的数据图形象地展示了这种误解,称为安斯库姆四重奏(Anscombe’s quartet)。

迷信数据模型的危害

著名统计学家乔治·博克斯(George E. P. Box),在他的著作《实证模型的建立与响应面》中写道:“本质上而言,所有统计模型都是错误的,但是其中有一些是有用的。”所有统计模型都是使用数学概念对一个真实世界中的现象的描述,所以只是现实的一种简化。如果统计分析是精心设计的,并且对所用方法的局限性有彻底的理解,那么,它们会非常有用。否则,统计模型不仅会不准确、毫无用处,而且还具有潜在的危险性——误导医生和公众。

我经常使用和设计数学模型来探究公共健康问题,尤其在健康技术评估中。如果不加批判地使用已经发表的研究成果中的数据来设计这些数学模型,可能会得出关于公共健康的不准确、完全无用甚至不安全的结论,因而对人类健康和公共政策产生重大影响。

例如,加利福尼亚大学旧金山分校的流行病学家史蒂芬·赫利(Stephen Hulley)及其同事发表的一个随机控制实验确定,激素替代疗法会导致冠状动脉心脏疾病的风险增加,尽管以前发表的非实验研究的结论是,激素替代疗法会降低冠状动脉心脏疾病的风险。这个精心设计的实验表明,非实验研究中低于冠状动脉心脏疾病平均概率的结果,是由那些使用激素治疗的人具有更高的平均社会经济地位导致的,而不是由疗法本身导致。对非实验研究的重新分析,包括社会经济地位对收入的影响分析,得出了与随机控制实验相同的结果。但是损害已经造成:美国食品药品管理局顾问委员会已经批准激素替代疗法更换标签,允许把预防心脏疾病列为一个指示,这几乎是在上述实验十年之前。

如何避免错误

上述相关性分析的三种错误都可以避免。流行病学家和统计学家奥斯汀·布拉德福德·希尔(AustinBradford Hill)在1965年表明,要得出因果关系的结论,就必须满足一定的判定标准。那些判定标准依然有效,但是科学家还研究出了从观察到的数据得出因果推论的更新的方法。还有一些方法正在研究中——例如,朱迪亚·珀尔(Judea Pearl)和詹姆斯·罗宾斯(James Robins)各自独立地介绍了一种从非实验研究中得出因果推论的新框架。罗宾斯研究出了一种统计解决方法,能把非实验数据转化为如同从一个随机控制实验中得出的数据。

生态学谬误通常会在流行病学研究中发生,当研究者只能获得集合数据时。在其1997年的著作《生态学推理问题的一种解决方法》中,哈佛大学的加里·金(Gary King)描述了导致这种错误的统计困难:用于生态学推论的数据往往具有庞大级别的异方差,这意味着一个数据集内部不同部分的差异性在很大的数值范围内波动。为了避免这种谬误,希尔建议那些缺乏个体层面的数据的研究者应该进行认真的多层面的数据建模,在生态学数据的基础上补充个体层面的数据。

为了避免因为相关系数为零就假定这两个变量是相互独立的,必须对数据进行绘图以确定数据是单调的。如果数据不单调,可以把其中一个变量或者两个变量都转换成单调的变量。在数据变换中,每一个变量的所有数值都使用同一个等式重新计算,这样能保持两个变量之间的关系,但是它们的分布改变了。不同的数据分布使用不同类型的数据变换。例如,对数变换压缩了大数值的间隔,扩大了小数值的间隔,当数组的平均值更大、变动也更大的情况下,这种数据变换是合适的。

相关性错误和统计学本身一样古老,但是随着发表的论文和新期刊的数量不断增长,这样的错误也在倍增。尽管期望所有研究人员都对统计学方法有深入理解是不现实的,但是研究人员必须持续关注并不断扩展基本的统计学方法和知识。不知道或是不加批判地评估所使用的统计学方法的充分性和局限性,通常是学术论文中所犯错误的根源。在一个研究团队中有生物统计学家和数学家的参与不再是一个优势而是必需。

科学研究的过程要求足够的生物统计学知识,而这是一个不断变化的领域。生物统计学家应该在一开始就参与课题研究,而不是等到测量、观察或是实验完成以后。另一方面,在批判性地评价发表的科学论文时,生物统计学的基本知识也是必需的。在生物学研究中更谨慎地使用统计学,也有助于在其他领域设定更严格的标准。

为了避免这些问题,科学家必须清楚地表明他们理解了一个统计学分析背后的假设,并且用他们的方法解释:为了确定他们的数据集满足那些假设,他们做了哪些工作。如果一篇论文没有严格遵循这些研究规范,就不应该通过评审。即使当评审者有所疏漏的情况下,采取这些步骤也能加快发现错误的过程,增加科研过程的透明度,支撑公众对科学的信心,最重要的是,避免因无心的错误而对公众健康造成损害。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存