查看原文
其他

Elife | 论文写作或审稿时的十种常见统计错误

李芊芊 OpenScience 2020-01-02

本文翻译自Makin, T. R., & Orban de Xivry, J. J. (2019). Ten common statistical mistakes to watch out for whenwriting or reviewing a manuscript. eLife, 8, e48175.   doi:10.7554/eLife.48175 

作 者:Makin, T. R., & Orban de Xivry, J. J.

译 者:李芊芊

本文版权协议©CC BY-NC-ND 4.0


第一部分:引言


 近年来涌出了许多关于提高研究可重复性必要性的文章(Bishop, 2019; Munafò et al., 2017; Open Science Collaboration, 2015; Weissgerber et al., 2018),也有许多呼吁提高统计分析技术训练的声音(Schroter et al., 2008)。但在本文中,我们仅讨论科学文献中常见的十种统计错误。尽管许多研究者强调了透明度和科研伦理的重要性(Baker, 2016; Nosek et al., 2015),一些显而易见的统计学错误仍然在论文中出现,这些统计错误可能让作者们推断出数据并不支持的结论。重要的是,尽管这些论文是错误的,人们也常会信以为真(Harper and Palayew, 2019; Nissen et al., 2016; De Camargo, 2012)。我们认为,防止发表错误结果的最恰当时机是在期刊的同行评审过程,或者是在预印本出版后的线上讨论。本文的主要目的是为审稿人提供一个可以识别和处理这些常见错误的工具。

本文讨论的这些错误都是众所周知,并且在很多文章中被提及的,但是仍持续出现在期刊中。此前对这一话题的讨论大多集中于一个或几个相关的错误:我们希望能通过讨论十种最常见的错误,为作者和审稿人提供一个可参考的错误列表。这对研究者设计实验,分析数据和撰写文章都会有所帮助。

我们的错误列表来源于伦敦可塑性实验室的文献讨论中(journal club),包括对神经科学,心理学,临床和生物工程杂志上论文的报告与讨论。之后,我们作为读者、审阅者和编辑的经验进一步完善了该列表。尽管该列表中的错误来自与神经科学有关的论文,但与任何使用统计学评估结果的学科都是有关的。本文中,我们讨论了这些错误的产生,作者和/或审稿人如何发现错误,并提出了解决方案。

我们发现,这些错误通常是相互依存的,一个错误很可能会导致其他错误,这意味着许多错误无法被单独纠正。此外,处理这些错误通常有多种方法:例如,我们通常使用频率参数统计,但我们未讨论的贝叶斯方法也是可行的解决方案(Dienes, 2011; Etz and Vandekerckhove, 2016)。

为了促进这些错误的进一步讨论,并提出解决这些问题的最佳方法,我们鼓励读者在本文的线上版本中评论,为我们提供不同的解决方案(点击“annotations”图标)。这样的话,其他读者也会从多样的想法和观点中受益。

我们希望对这些常见错误更好的认识可以使作者和审稿人更加小心,从而使(本文中的)错误不再那么常见。


第二部分:十种常见错误


2.1 缺乏适当的控制条件或者控制组

在多个时间点进行测量是科学研究中评估干预效果的常见方法。例如,在检验某种训练的效果时,研究者通常会测量行为或生理指标的变化。但是,测量结果的变化,也可能是研究中与干预(训练)无关的因素导致的。因此,就算在没有干预的情况下,重复相同的任务,干预前后的测量结果也会发生变化。例如,被试的练习效应或疲劳效应。因此,对于任何研究,只要探索实验操纵对某一变量随时间变化产生的影响,都需要有控制组,以供与实验组进行比较。

有时候研究者确实设置了控制组/控制条件,但由于这些控制条件(控制组)不包括可能会影响被测量变量的关键因素,实验设计或实施(往往)是不完整的。例如,控制组没有接受“假”干预,或者没有进行双盲处理,使得主试对结果有预期,进而导致效应量的夸大(Holman et al., 2015)。其他常见的错误,则是1) 由于采用了样本量过小的控制组,没有充足的统计检验力检测到测量变量的变化,或2) 采用了一个使用不同基线测量(baseline measure)的控制组而导致虚假交互(VanBreukelen, 2006)。同样重要的是,控制组和实验组必须同时取样并随机分配,以最大程度地减少偏差。理想情况下,控制组和实验组的操纵应该在实验设计和统计检验力上相同,并只在特定刺激维度和操纵变量上有所不同。只有这样,研究者才能确保实验操纵对变量的影响大于时间对变量的影响。因此,如果对变量进行前后测比较,应添加控制组。


如何发现该错误

结论是在没有充足的控制情境而根据单个组的数据得出的,或者对照情境/组没有捕捉实验操纵的核心特征。


解决方案

如果实验设计不能将时间效应与干预效果区分开,那么有关实验干预效果的任何结论都是不准确的。

PS:欲了解更多详情可进一步阅读:Knapp, 2016

2.2 没有直接比较两个效应强弱时解读效应的强弱之别

有时研究者发现在实验组中某个干预有显著效应,而在控制组没有产生显著效应。(他们往往会据此)做出干预有效的结论。基于(干预)在这两个(组中效果)显著性不同的结果,研究者有时会认为实验组中的效应大于控制组中的效应。这种推论非常常见,但却是错误的。例如在图表1A中,测量两个变量X和Y,采用两组被试,每组20人。两组测量在统计显著性上可能会有不同的结果:A组中,两个变量之间的相关系数可能显著(即,p≤0.05),而B组中相似的相关系数可能不显著。即使这两个变量之间的关系在两组中几乎相同,这种一组数据有显著效应另一组没有的情况也可能发生(图表1A),因此,我们不能认为一个相关关系比另一个强。



图1 没有直接比较两个效应强弱时解读效应的强弱之别


(A)两个变量X和Y,在A和B两组中进行测量。很明显,这两个变量之间的相关关系在这两组测量中都没有区别。然而,如果计算皮尔逊相关系数r的显著性,将两个相关系数与0相比较,却可能得到一个组(组A;黑色圆点;n=20)的相关性在统计学上显著(基于p≤0.05的阈值),而另一个组(组B;红色圆点;n=20)不显著。然而,这并不说明变量X和Y之间的相关关系在两组之间不同。可以用蒙特卡罗模拟来比较两个组的相关关系(Wilcox and Tian, 2008)。

(B)在实验研究的情境中,可以看到两组之间在某一特定测量结果上的差异(例如,训练前后的差异)。组C和D的均值相同,但是D组的方差更大。如果使用独立样本t检验将每一组的结果指标分别与0比较,会发现一组的变量与0之间有显著差异(组C;左侧;n=20),但是另一组不存在显著差异(组D;右侧;n=20)。然而,这并不能说明两个组的测量结果存在不同。这时应该使用配对样本t检验(顶部)直接比较两个组:结果表明两组的测量结果没有差异。

代码(包括模拟的数据)源于

github.com/jjodx/InferentialMistakes (Makin and Orban de Xivry, 2019; https://github.com/elifesciences-publications/InferentialMistakes).  

DOI: https://doi.org/10.7554/eLife.48175.002



在不同的两组中评估一个干预的效果时也会出现类似的问题:干预会在一个组中产生显著效果,而在另一组中不出现显著效果(图表1B)。然而,这并不意味着干预的效果在两组之间不同;实际上在这种情况下,两组并没有明显的不同。通过两种效果间直接的统计比较,只能得出干预效果与控制干预(control intervention)的效果不同。因此,必须使用一个统计检验来比较这两种效果,而不能只是分别两次单独的检验然后根据它们在显著性上的差别进行推断。



图2 虚假相关:单个离群值和子组对皮尔逊相关系数的影响


(A-C)我们用19个样本(黑色圆圈)模拟了两个不同的非相关变量,并添加了一个额外的数据点(红色实心圆圈),该数据点与主要数据的距离会系统地变化,直到成为完全的离群值(C组)。注意,随着主要数据与红色数据点之间距离的增加,皮尔逊相关系数R值会人为增加,这表明单个数据点可能会导致虚假的皮尔逊相关。

(D-F)我们用20个样本模拟了两个不同的不相关变量,这些变量被随机分为两个子组(红色vs.黑色,每组n=10)。从D组到F组,我们系统地改变了两个子组之间的距离。同样,R的值会随着子组之间距离的增加而人为地增加。这表明在未考虑子组存在的情况下相关变量会产生虚假相关。置信区间(CI)用灰色表示,并通过Bootstrap 程序获得(灰色区域代表所获得的相关值分布的2.5%和97.5%之间的区域)。

代码(包括模拟的数据)源于

github.com/jjodx/InferentialMistakes.DOI:https://doi.org/10.7554/eLife.48175.003



如何发现该错误

这个错误往往发生在我们想比较两种效果之间的差异,却没有用统计学方法对两种效应进行直接比较时。该问题也经常在研究者没有进行必要的统计分析就进行推断的情况下发生。


解决方案

研究者进行组间比较时,应直接比较各组(审稿人应该推荐作者阅读Nieuwenhuis et al., 2011,以清晰地说明该问题及其影响)。两组的相关关系可以用蒙特卡罗模拟进行比较(Wilcox and Tian, 2008)。对于多组比较,可能适合用ANOVA。非参数统计也提供了一些方法(例如,Leys and Schumann, 2010),但这些方法需要根据具体情况使用。

PS:欲了解更多详情可进一步阅读:Nieuwenhuiset al., 2011

2.3 分析单元虚高

实验单元是可以被随机独立分配的最小观测(smallest observation),即可以自由变化的独立数值(independent value)的数目(Parsons et al., 2018)。在经典统计学中,此单元反映的是自由度(df):例如,当推断组间结果(group results)时,实验单元就是被试的数量,而不是对每个被试观测的次数。但研究者经常将这些指标混为一谈,从而导致理论和实践上的错误。理论上讲,如果没有清楚地确定恰当的实验单元来评估观测值的变异,那么统计推断就是有缺陷的。从实践上讲,这会导致实验单元的数量虚高(例如,对所有被试的观察次数通常大于被试的数量)。当df增加时,用来判断统计显著性的阈值会降低,这种情况下,如果效应是真实的,则更容易观察到显著结果(增大统计检验力)。这是因为检验结果会因为df增加有更大的可信度。

为了说明这个问题,(我们可以)假设要用一个样本量为10的简单前后测纵向研究设计来研究干预的效果,研究者想要通过简单回归分析来评估主要指标和临床状况之间是否存在相关性。分析单元应该是数据点的数量(每个参与者为1个数据点,共10个),df为8。df=8时,达到显著性的临界R值(α水平为.05)为0.63。也就是说,高于0.63的任何相关性都是显著的(p≤0.05)。如果研究者将所有参与者的前后测数量加起来,最终的df=18,则临界R值就会变成0.44,从而更容易观察到统计学上的显著作用。这是不恰当的,因为把被试内和被试间的分析单元混淆,导致了测量结果之间的依赖,而特定题目的前测分数不会变化,也不会影响后测分数,这意味着实际上只有8个独立df。这通常会导致即使没有足够证据证明效应的存在,结果也被解释为是显著的。


如何发现该错误

审稿人应该思考分析单元的恰当性。如果一项研究旨在了解组间效应,则分析单元应该反映被试间的差异,而不是被试内。


解决方案

也许最可行的解决方案是使用线性混合效应模型,研究者可以将被试内的变异定义为固定效应,将被试间的变异定义为随机效应。这种日渐流行的方法(Boisgontier and Cheval, 2016)允许将所有数据放入模型中,且不会违反独立性假设。但是,它很容易被滥用(Matuschek et al., 2017),并且需要丰富的统计知识,因此在应用和解释时应该谨慎。对于一个简单回归分析,研究者也有几种解决方法,最简单的方法是分别计算每个观测值的相关(例如,前测、后测)并根据现有的df解释R值。研究者还可以计算所有观测的平均值,或单独计算前测/后测的相关性然后对所得的R值求平均(在使用正态化的R分布后,例如,R分布转化为z分布),并据此进行解释。

PS:欲了解更多详情可进一步阅读:Pandey and Bright, 2008; Parsons et al., 2018

2.4 虚假相关

相关是科学中评估两个变量之间关联程度的重要工具。然而,参数相关(例如皮尔逊相关系数R)的使用是依赖于一系列假设的,(不违背这些假设)非常重要,因为违反这些假设将导致虚假相关。虚假相关最常发生在其中一个变量存在一个或多个极端值的情况中。如图表2的第一行所示,在分布中远离其余值的单个值会增大相关系数。另外,虚假相关还可能源于集群,例如,当两组的两个变量不同时,把两组的数据合并在一起(正如图表2下面一行)。

请务必注意,极端值很可能会提供一个真实的、遵循规律的观测结果(这个规律可能正是你想发现的)。也就是说,观测值本身不一定是虚假的。因此,去除“极端”数据点时也应该格外谨慎。但是,如果这种真实的观测是有违反你的统计检验假设的风险的,那它就是虚假的,并需要使用其他统计工具(进行检验)。


如何发现该错误

审稿人应该特别注意相关性(研究)缺少散点图的情况,并思考删除数据的理由是否充分。此外,如果将数据合并在一起,审稿人需要考虑到组间或情境间的差异(参见上面的“夸大分析单元”)。


解决方案

在大多数情况下,应该选择稳健的相关分析方法(例如,bootstrapping, datawinsorizing, skipped correlations),因为它们对异常值不那么敏感(Salibian-Barrera and Zamar, 2002),这是由于这些测验考虑了数据的结构(Wilcox, 2016)。使用参数统计时,应筛选数据以避免违反关键的假设,例如数据点的独立性,以及异常值的存在。

PS:欲了解更多详情可进一步阅读:Rousselet and Pernet, 2012

2.5 使用小样本

当样本量很小时,只能检测到较大的效应,这使得对效应量真正大小的估计充满不确定,进而导致对实际效应量的高估(Button et al., 2013)。在显著性阈值α=0.05的频率统计中,有5%的统计性检验在没有实际效应的情况下将产生显著性结果(假阳性,I类错误)。但是,研究者更倾向于认为高相关(例如,R>0.5)比中等相关更可靠(例如,R=0.2)。如果样本量较小,则这些假阳性的效应量会很大,从而导致显著性谬误:“如果一个假设效应量大到用小样本就能检测到,那它一定是正确的。”(这个错误的推论在Button et al., 2013中被提及)。重要的是,更大的相关性并不是两个变量之间更强关系的结果,而只是因为在实际相关系数为0时,小样本更可能出现较大的相关。例如,当不断从两个不相关的变量中抽取N=15的样本并计算其相关时,得到虚假相关(即假阳性)的可能性大约在|0.5-0.75|之间,而不断抽取N=100的样本时,则假阳性为|0.2-0.25|(代码源于github.com/jjodx/InferentialMistakes)。

小样本的设计也可能无法检测出真实的效应(II型错误)。对于给定的效应量(如,两组之间的差异),抽取的样本量更大,(成功)检测该效应的可能性更大(这种可能性被称为统计检验力,或者统计功效,statistical power)。因此,使用大样本,可以减少效应存在却未被检测到的可能性。

 另一个与小样本量有关的问题是样本的分布更有可能偏离正态。有限的样本量通常无法严格地验证正态性假设(Ghasemi and Zahediasl, 2012)。在回归分析中,分布的偏差可能会产生极端值,从而导致虚假的显著相关(参见上面的“虚假相关”)。


如何发现该错误

审稿人应该严格检查论文中使用的样本量大小,并判断样本量是否足够。基于有限数量被试的特殊结论应被特别标注出来。


解决方案

来自小样本的单个效应量或单个p值的价值是有限的,审稿人可以让研究者参考Button et al. (2013) 以阐明这一点。研究者首先应该证明他们使用的统计检验有足够的统计检验力,例如呈现先验统计力分析,或研究的重复检验。计算统计功效的困难在于,它应该基于对独立数据集的效应量的先验计算,而这在综述中很难进行评估。贝叶斯统计提供了确定事后比较统计检验力的机会(Kruschke, 2011)。在样本量难免受到限制的情况下(例如,对罕见临床群体或非人类灵长动物的研究),应该努力重复实验(案例内和案例间),并进行足够的控制(如,确定置信区间)。前人也提出了一些评估个案研究的统计学方法(如,the Crawford t-test; Corballis, 2009)。

PS:欲了解更多详情可进一步阅读:Button et al., 2013  或阅读公众号往期推送:

统计知识 | 不能信任的小样本相关结果

统计知识 |  小样本条件相关+基于p值=灾难

2.6 循环验证

循环验证指以任何形式,回溯地选择数据的某个特征作为因变量进行分析,从而扭曲统计检验结果(Kriegeskorte et al., 2010)。循环验证有很多种形式,但本质上都包含先使用数据刻画(characterize)某需要被检验的变量,然后再对该批数据进行分析并进行统计推断,因此通常被称为“双重浸渍”(double dipping)(Kriegeskorte et al., 2009)。循环验证最常见的做法是:找到一个与统计结果非常相关的选择标准,回溯性地使用这个标准以完整的数据进行分析(如分组、分成不同的子集)或者删减数据(例如在神经成像研究中定义感兴趣区,或者排除极值)。(HCP注:原文在这里的表达也不是特别清晰,以定义感兴趣区为例。假如研究者先在全脑范围寻找与特质焦虑相关的大脑区域,比如小脑;使用这一标准将小脑选择出来,然后再计算小脑与特质焦虑之间的相关,并推断:小脑与特质焦虑高度相关。这就是典型的循环论证。)

例如,一个研究关注神经元集群在某一实验操纵后的发放率。使用该神经元集群的整体数据时,发现操纵前和操纵后没有显著差异。但是,研究者发现集群中一些神经元在该操纵后的发放率增加,而另一些神经元则降低。他们因此将整个神经元集群进行分组,依据是神经元在操纵前神经元的发放率。分组后再进行统计分析。这样一来,就得到显著的交互作用——操纵前发放水平低的神经元在操纵后增加了,而操纵前发放水平高的神经元则在操纵后反应降低了。但是,这种显著的交互作用完全是由于人为的选择标准加上数据中的噪音(例如,神经元活动可能只是随着时间的变化,在操纵前后回归到均值水平)共同导致的,这种交互作用完全可以在纯粹的随机噪音中观察到(Holmes, 2009)。

循环验证的另一种常见形式是在自变量和因变量之间创建依存关系。继续上文神经元集群的例子,研究者可能报告操纵后神经元反应水平和操纵前后神经元反应水平之间差值的相关。但是这两个变量都高度依赖于操纵后测量到的神经元反应水平。因此,由于偶然因素在操纵后有更高活动水平的神经元,也可能会表现出更大的操纵前后的差异,因此研究者报告的相关可能是夸大的(Holmes, 2009)。

在零假设前提下,如果统计分析的结果与数据选择标准独立,选择性分析是完全合理的。但是,循环验证将(存在于任何数据中的)噪音也纳入到结果之中,会夸大统计结果,并导致歪曲和无效的统计推论。


如何发现该错误

循环验证可以以多种形式表现,原则上来说,筛选统计指标的选择标准本身偏向于证实目标假设时,就属于循环验证。在某些情况下这非常明显,比如统计分析的数据所基于的标准是为了显示期望的效应,或者统计分析的数据本身就与感兴趣的效应存在内在联系。在另一些情况下,(发现)循环验证可能会很复杂,并且需要对数据选择和数据分析步骤中的相互依赖关系有更细微的了解(参见,如,Kilner, 2013中的图表1和Kriegeskorte et al., 2009中的补充材料)。审稿人应该警惕理论上不可能达到的,和/或基于相对不可靠的测量得到的过高效应量(如果两个测量工具的内部一致性很差,这种内部一致性会是有意义相关的上限;见Vul et al., 2009)。在这些情况下,审稿人应要求作者对选择标准与期望效应之间独立性进行说明。


解决方案

提前且独立于数据的情况下确定分析标准,可以避免循环验证。此外,由于循环验证将噪音纳入分析,从而使想要的效应虚高,最直接的解决方案是分别使用不同的数据集(或者数据集的不同部分)来确定分析的参数(例如,选择亚组)和检验你的预测(例如,检验不同亚组之间的差异)。这种分组方法可以在被试水平(使用不同组来确定缩减数据的标准)或试次水平(使用来自全部被试的不同试次)完成。可以使用bootstrapping方法在不降低统计检验力的情况下实现(Curran-Everett, 2009)。审稿人可以要求作者进行模拟,证明想要的效应与噪音的分布、选择标准之间彼此独立。

PS:欲了解更多详情可进一步阅读:Kriegeskorteet al., 2009

2.7 分析方法的多样性:p-hacking

变换数据分析方法(例如变换结果的参数,添加协变量,不确定的或不稳定的预处理程序,根据统计结果来排除异常值或题目;Wicherts et al., 2016)会增加得到显著p值的可能性(Simmons et al., 2011)。这是因为一般的统计方法依赖于概率,使用的检验方法越多,得到假阳性结果的可能性就越大。因此,在某个数据中得到显著的p值并不困难,且对于显著的效应总能进行合理的解释,尤其是在没有明确假设的情况下。但是,在分析程序中的变换越大,观察到的结果不真实的可能性就越大。当一个团队在论文中(如www.flexiblemeasures.com; Carp, 2012; Francis, 2013)报告的是用不同方法计算的同一变量的值时,或者当临床实验改变其结果时(Altman et al., 2017; Goldacre et al., 2019),分析方法的变换尤为明显。

可通过使用标准化的分析方法,进行实验设计和分析的预注册(Nosek and Lakens, 2014)或进行重复实验来避免此问题(Button et al., 2013)。可以在得到第一次实验结果之后和在重复实验之前进行实验的预注册。但是,防止p-hacking最好的方法也许是在一定程度上接受边缘显著或不显著的结果。换句话说,如果对实验进行了精心设计,执行和分析,审稿人不应该因为结果而“惩罚”研究者。


如何发现该错误

研究者是否采用了多种分析方法很难被检测出来,因为研究者很少报告所有的必要信息。在进行预注册或临床实验注册的情况下,审稿人应比较实际使用的与计划使用的分析方法。在没有预注册的情况下,某些形式的p-hacking是几乎不可能检测到的。但是,审稿人可以评估对所有分析方法的选择是否合理,相同的分析计划是否在以前的出版物中使用过,研究者是否提出了可疑的新变量,或者他们是否收集了大量的指标,却只报告了显著的那些。Forstmeier等人(2017)总结了检测可能的阳性结果的实用技巧。


解决方案

研究者应该明晰报告的结果,例如,区分事先计划的分析与探索性分析、预期结果与意外结果。正如我们在下文讨论的,如果进行透明地报告和解释,灵活地进行探索性分析并没有问题,尤其它们作为下一步有着具体分析方案的重复研究的基础时,是合理的(Curran-Everett and Milgrom, 2013)。这些分析方法可以为额外的研究提供有价值的依据,但不能作为强有力的结论的基础。

PS:欲了解更多详情可进一步阅读:Kerr, 1998; Simmons et al., 2011

2.8 未进行多重比较校正

当研究者检验任务效应时,他们经常检验多个任务条件对多个变量(行为结果,问卷条目等)的影响,有时还存在先验假设不确定的情况。这种方法被称为探索性分析,与有更多限定条件的验证性分析相对。使用频率统计时,在探索性分析中进行多重比较可能会对显著结果的解释产生很大的影响。在包含两个以上条件(或两组的比较)的实验设计中,探索性分析将涉及多重比较,也会在没有真实效应的情况下增加统计显著结果的可能性(即假阳性,I类错误)。在这种情况下,因子数量越多,可以进行的检验就越多,观察到假阳性的可能性就越大(family-wise error rate)。例如,在一个2×3×3的实验设计中,即使效应实际上是不存在的,至少得到一个显著主效应或交互作用的概率也有30%(Cramer et al., 2016)。

进行多重独立比较时,此问题尤其突出(例如,神经影像分析,多重记录的神经元或脑电图)。在这种情况下,研究者在每个体素/神经元/时间点内进行严密的统计检验,由于设计中包含大量指标,检测到假阳性结果的可能性很大。例如,没有对多重比较进行校正时,Bennett及其同事(Bennettet al., 2009)在死三文鱼中发现了被激活的体素(在“心理模拟”任务中激活)。此例说明了得到(identify)假阳性的结果有多么容易。尽管这个问题在探索性分析中更突出,但在验证性分析中设定大量的检验时,也可能出现问题。


如何发现该错误

未被校正的多重比较,可以通过测量的自变量的数量和使用的分析方法的数量来检查。如果这些变量中只有一个与因变量相关,那么其余变量可能就是纯粹为了增加得到显著结果的可能性而被纳入的。因此,当对大量的变量(例如基因或MRI体素)进行探索性分析时,如果研究者没有明确的理由解释未经矫正的多重比较结果,那这个结果就是完全不可接受的。即使研究者提供了粗略的假设(例如,应该在特定的脑区或在近似潜伏期观察到效应),如果这个假设需要多个独立的比较进行检验,也需要对多重比较进行校正。


解决方案

探索性分析可能是没有问题的,但必须承认这是探索性分析。研究者应该报告所有测得的变量,并恰当地使用多重比较程序。例如,标准的多重比较校正肯定会发现在死三文鱼脑中没有激活(Bennett et al., 2009)。请记住,有多种方法可以校正多重比较,有些方法比其他方法更为研究者所接受,因此仅呈现某些形式的校正还不一定能完全解决假阳性的问题。

PS:欲了解更多详情可进一步阅读:Han and Glenn, 2018; Noble, 2009

2.9 过度解释不显著结果

使用频率分析时,科学家使用统计阈值(通常α=.05)来判断统计显著性。有关此阈值主观性的文章很多(Wasserstein et al., 2019),并且也有不少研究者试图提出替代方案(例如,Colquhoun, 2014; Lakens et al., 2018; Benjamin et al., 2018)。除了这些我们将在结语部分阐述的问题,错误地解读不显著的统计检验结果也是严重的问题,且却极为普遍。这是因为不显著的p值无法区分无效应的结果是由于效应确实客观上不存在(与假设相反的证据),还是由于当前研究的数据不足以让研究者去严格地评估假设(如,缺乏统计检验力、不恰当的实验设计等)。简单来说——效应不显著可能有非常不同的含义——真正的无效应、缺乏统计力去探测真实的效应,或模糊的效应(参见Altman and Bland, 1995这个例子)。

因此,如果研究者用不显著的结果作为证据去否定有效应的假设,就需要说明该证据本身是有意义的。但p值这一统计方法不能达到此目的。将不显著结果混淆为支持无效应,还意味着研究者有时可能会(错误地)忽略p未达到0.05阈值的结果,认为该结果毫无意义,即使这个结果可能实际上提供了足够反对零假设的证据,或者至少有趋势表明需要进一步的检验。


如何发现该错误

研究者可能将不显著的p值解释或描述为不存在效应。这个错误非常常见,应该得到重视。


解决方案

首先,重要的是在报告p值的同时报告效应量,以提供有关效应大小的信息(Sullivan and Feinn, 2012),这对于元分析也很重要(Lakens, 2013; Weissgerber et al., 2018)。例如,如果大样本的研究中效应不显著,同时效应量也很小,那么就不太具有理论意义,而具有中等效应量的结果可能值得进一步研究(Fethney, 2010)。可能的话,研究者应考虑使用能够区分不充分(或模糊的)证据与支持零假设证据的统计方法(例如,贝叶斯统计;[Dienes, 2014],或等价性检验[Lakens, 2017])。除非研究者已经事先确定他们的研究是否有足够的统计检验力来探测出想要的效应,或者有足够的统计检验力来确定所预期的先验效应的置信区间是否包含0(Dienes, 2014)。否则,研究者不应过度解释不显著结果。

PS:欲了解更多详情可进一步阅读:Dienes, 2014

2.10 相关和因果

这可能是解释统计结果时最悠久和常见的错误(参见例如,Schellenberg, 2019)。在科学中,相关通常用于探索两个变量之间的关系。当发现两个变量之间存在显著相关时,我们很容易认为一个变量是导致另一个变量变化的原因。然而,这是不正确的。因为两个变量的共变并不一定意味着它们之间一定存在因果关系,即使存在这种可能。例如,不同国家的巧克力年消费量与诺贝尔奖获得者数量之间的显著相关性(rdf = 20)=.79;p<0.001),曾经使我们(误)认为摄入巧克力为诺贝尔奖获得者的产生提供营养基础(Maurage et al., 2013)。仅有相关不能作为因果关系的证据。相关性的存在可能反映了正向或反向的因果关系,但也可能是由(未知的)常见原因引起的,或者可能仅仅是巧合。


如何发现该错误

每当研究者报告的两个或多个变量之间的关系不是由操纵导致的,却进行了因果推论,就很可能是混淆了相关和因果。研究者应该仅在精确操纵变量时进行因果推论,即使如此,也要小心无关变量的影响。


解决方案

可能的话,研究者应该尝试检验这两个变量与第三个变量之间的关系,来进一步支持他们的解释,例如,使用结构方程模型或中介分析(前提是有足够的统计检验力),通过检验竞争模型或直接在随机对照实验中操纵目标变量(Pearl, 2009)。否则,如果证据证明只具有相关性,就应避免使用因果说法。

PS:欲了解更多详情可进一步阅读:Pearl, 2009


第三部分:结语


避免这十个推断错误是确保结果不被严重曲解的第一步。但是,此清单的一个关键假设是,显著性检验(由p值表示的)对于科学推断是有意义的。具体而言,除了少数错误外( “缺乏适当的对照情境/组”和“相关和因果”),上述的大多数错误及其解决方案,都和p值紧密相关,与p值的意义有关,即特定统计检验中的p值代表的是实际上的犯错率。当前,关于零假设显著性检验的有效性和显著性阈值的使用仍然处于争论之中(Wasserstein et al., 2019)。我们承认,仅一个p值不能揭示关系或效应的合理性、是否存在、真实性或重要性。但是,禁用p值并不一定能防止研究者对结果的错误推论(Fricker et al., 2019)。当合理地进行使用时(Kmetz, 2019; Krueger and Heck, 2019; Lakens, 2019),p值可以对结果进行有价值的描述,当前也可以辅助学术的交流,至少在就如何解读统计效应的新共识达成之前如此(Calin-Jageman and Cumming, 2019)。我们希望本文能在这些主要问题上,对作者和审稿人有所帮助。

PS:欲了解更多详情可进一步阅读:Introduction to the new statistics, 2019 

参考文献

Makin, T. R., & Orban de Xivry, J.-J. (2019). Ten common statistical mistakes to watch out for whenwriting or reviewing a manuscript. eLife, 8, e48175. doi:10.7554/eLife.48175

见译文的PDF版:https://osf.io/2qj6k/files/

长按二维码

欢迎微信赞助

hcp4715(**鹏)

Note:关于赞赏和广告的所有收益均将用于支持ZOOM的VIP账号,为周末的线上活动提供平台,请多多支持!


校 对:杜新楷、胡传鹏、赵加伟、方圆

排 版:念靖晴、张旭晖

Chinese Open Science Network

Make Psychological Science Open & Trustworthy!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存