查看原文
其他

统计知识 | 发现意外的显著结果?等等,可能是假阳性!

OpenScience 2019-07-03

意外的显著结果●假阳性

今天我们来谈谈方差分析(ANOVA)中常被忽视的一个问题。

假设我设置了一个实验,想考察不同性别对声音刺激(标准刺激、偏差刺激)的大脑反应是否一样。我测量了大脑两侧的前额叶和中央区的脑电反应。这是一个四因素方差分析——一个组间变量(性别),三个组内变量(声音刺激、大脑半球、电极位置)。我的假设是女性比男性具有更大的失匹配效应,所以我预测性别和刺激之间有交互作用,但在我的结果中,只发现性别、声音刺激和电极位置的三因素交互效应显著(p < .05),而不是性别与刺激之间的交互作用。这个时候我该怎么做?


a)更改假设,将这一结果作为我关注的主要效应,讨论电极位置的性别差异。 

b)将这一结果作为需要重复性验证的探索性发现。

c)因为这一结果和预期假设不符并很有可能是假阳性结果,因此选择忽视掉。


一般大家都会怎么选呢?我猜大多数人会选a,并且很少有人会选c。但其实在这种情况下,出现假阳性结果的概率比大多数人想象到的都要大。


(先想想什么是假阳性,再继续)

我们一般假设,如果一个方差分析中,将alpha水平设置为0.05,也就是在.05水平上显著,那么我们出错的概率就只有1/20。我们都学过要做方差分析而不是一堆t检验,因为方差分析适合多重比较。但是这种解释是错误的。方差分析在单因素内的多重比较,比如不管你有几个水平,确实能够控制假阳性。但方差分析对你实验中因素和因素间交互作用的P值没有适应性。你的变量越多,得到显著结果的概率越大。


所以,在上面的例子中,如果将alpha设定为.05,那么对于一个四因素方差分析,我们有4个主效应,6个两因素交互效应,4个三因素交互效应和1个四因素交互效应(共15种效应)。所以,发现不了显著性结果的可能性是.95 ^15=.46。即,会发现有显著性结果的几率是.54。

对于三因素方差分析来说,有3个主效应,3个两因素交互作用和一个三因素交互作用,某个效应显著的P值等于.30。也就是说,如果你做一个四因素方差分析,并且你不关心是什么结果显著,只是想有显著性的结果的话,你有一半以上的几率得到满意的结果。

这个情况看起来令人难以置信:如果真有这么高的假阳性,谁会这样使用方差分析?不幸的是,本文开关的例子实际上可能是事件相关电位(ERP)研究(当然还有许多其他领域)中经常发生的情况。在这一领域,一般兴趣都是比较实验组和控制组,所以其中一些结果就会比其他的更有趣:比如,组间主效应和七个组间交互作用是主要的关注焦点。但是我们很少明确自己的实验假设:任何组间的显著性都会使人兴奋。组间相关的因素显著的可能性是三分之一。这就意味着潜在的“假阳性心理学”(Simmons et al, 2011)在这一领域可能是海量存在的!

◆◆◆◆◆◆◆◆◆

研究者可以通过减少方差分析的因素水平来减少这种假阳性的概率。假设我对声音标准刺激和偏差刺激的大脑反应有兴趣,一种方式就是计算两种声音刺激的脑电差异,使用两者差值作为独立变量:这会将四因素方差分析减少到三因素方差分析,并减少发现假性性的可能性。因此,分析数据的方式不同,你会得到不同的假阳性风险。

◆◆◆◆◆◆◆◆◆

ERP的另外一个特征是在方差分析中电极的处理是非常灵活的:因为电极放置具有对称性,所以一般会将大脑半球作为一个变量,电极位置作为另一个变量。另一种做法是只将电极作为重复测量。这两种选择并不是等同的:如果我们采纳了第一个方法,则结果为假的机会更大,因为这在分析中会增加一个变量,并增加了变量的交互作用。

对于ERP的分析方法有各种各样的批评:Kilner(2013)指出,当电极点或窗口的主效应显著并进行事后检验时偏差会上升;其他人已经注意到使用电极作为重复测量的问题,因为不同电极处的ERP通常高度相关。但我还没有发现任何关注这一点的内容。

对于三因素方差分析来说,有3个主效应,3个两因素交互作用和1个三因素交互作用,某个效应显著的P值等于.30。

也就是说:如果你做一个四因素方差分析,并且你不关心是什么结果显著,只是想有显著性结果的话,你有一半以上的几率得到满意的结果。

统计学家们正在敦促心理学家不使用方差分析而采用多层模型,多层模型可以做出不同假设,并能在不平衡样本设计中使用。但是,问题不仅仅在于统计数据,而是在分析数据时来进行毫无约束的探索性分析。研究人员非常有必要需要意识到对p值的事后解释以及研究假设的重要性。

因为经常使用方差分析,ERP领域特别容易出现虚假结果,但假阳性问题并不局限于此领域,实际上也不限于心理学领域。研究人员的观念需要从根本上改变:如果我们了解概率的本质,就会认识到统计方法只能让我们区分数据中的信号和噪音。

       要解决这一问题,一种方法是加强对概率论的教育学习;另一种方法是改变我们做研究的方式以明确区分验证分析和探索分析。我们应该鼓励建立预注册研究系统。预注册研究鼓励研究者在实验开始之前公开自己的研究设计和预先假设。这一系统可以避免对广泛而严重损害科研的结果进行事后解释。详细了解预注册系统,请移步:小技巧|如何对你的研究进行预先备案(pre-register)?答疑|预注册是否要选定特定的期刊?

       以上编译自:Bishop, Dorothy V M(2014): Interpreting unexpected significant findings. figshare.

http://dx.doi.org/10.6084/m9.figshare.1030406

       关于这个问题,ERP大牛Luck在《Psychophysiology》2017年第一期发表了一篇文章对这个问题进行了总结。他认为目前大多数ERP研究中可能存在的两个特定问题:根据总平均数据来挑选时间窗和电极点进行成分振幅和潜伏期测量比较以及多因子统计分析的问题。并提出了一些方法来降低或避免假阳性结果,提高真正能反映组别或条件之间显著性差异的可能性(Luck, & Gaspelin, 2017) 。 

       Luck认为,在ERP实验中,因为典型的ERP效应往往发生在毫秒、微伏的量级上,这就使得即使重复大量的实验试次也很无法避免采集到的ERP信号会受到比如走神(mind wandering)等因素的污染。另一方面,又因为ERP实验数据太过庞大,数据中的一些随机变量有极大的概率产生一些统计上存在显著的效应,哪怕这些显著的效应是研究者之前没有想到的,无法重复且没有意义的。而研究者、审稿人甚至读者都很难区分一个显著效应是真实的还是无意义的。Simmons,Nelson和Simonsohn在2011年将这个现象称为“实验者自由度” (experimenter degrees of freedom),就是说实验者可以通过很多方法来分析数据。如果实验者是初步分析了数据后再选择某种分析方法,就会导致假显著效应的增加。这也因此导致了许多发表的ERP实验的文章其实只是报告了统计上显著,但是这种显著其实是假的,并没有表现出真正的效应。 

       为此,Luck借鉴了自己在2009年发表文中的实验范式,并采用Simmons在2011年发表的方法来对实验采集到的数据进行重新分析。通过这种方式,Luck生动地阐述了这种ERP实验中出现统计显著,但是并没有太多意义的假显著效应的结果是如何产生的。具体可以参阅这篇文章(http://www.ncbi.nlm.nih.gov/pubmed/28000253)。本文就不多阐述了。

为了避免出现这种测量和分析的偏差,Luck提出了以下几点方法供大家参考: 

提前设定测量参数

最好的避免出现这种偏差的方法就是在观测和分析数据前,就预先定义好测量的时间窗和电极点。但这种方法有很多实际的困难,比如效应的潜伏期会因许多因素的影响而变化,因此很难根据前人研究来预先设定测量参数。而且很多研究尽管采用了相似的方法,但是研究本身比较新颖,不具备参考价值。

功能定位(functional localizers)

这个方法与功能定位相似。研究者将最后用于比较的所有条件的波幅进行简单的合并平均,然后根据合并后的波幅来确定时间分布和头皮分布,并以此来确定用于非合并数据的分析参数。尽管在某些情况下,这种方法存在问题,但是在缺少前人研究基础的前提下这是最好的方法。 

独立时间窗测量(window-independent measures)

对于ERP振幅和潜伏期的测量方法非常依赖时间窗的选择,但是别的方法就相对独立一些,比如峰值分析。当不需要确定时间窗来分析平均振幅时,可以采用峰值分析的方法。当然如果能够确定统计上显著的平均振幅效应不依赖特定的时间窗的话就更好了。

单变量方法(the mass univariate approach) 

单变量方法就是对每个时间点上的每个电极点都做一次T检验,并采用一些多重比较校正方法来控制Ι型错误的比率。传统的Bonferroni校正相对保守,但还可以采用别的校正方法,同时一些免费的开源的分析工具包中已经包含了这个方法,比如the Mass Univariate Toolbox 和 FieldTrip。这些方法有些保守,但是在没有很好的先验信息来指导时间窗和电极点的选择情况下,这些方法是最好的方法。 


潜在成分的数学分离(mathematical isolation of the latent components)

这些数学方法包括源定位,独立成分分析,和空间主成分分析,都在试图确定每个时间点上潜在成分的量(magnitude),主要用于特定电极点选择。同样的,时间主成分分析也在试图确定不同类型试次间的潜在成分的量(magnitude),主要用于特定时间窗的选择。

重复实验 

这种方法是最简单,最古老,但也是最重要的方法。在没有先验信息帮助选择时间窗和电极点的情况下,可以用相同参数做两次实验来表明结果的可重复性。严格上来说,第二次实验无法对第一次实验进行完美的重复,可以加入一些新的东西。


       在2017年的这篇文章里,Luck还在第二部分阐述了总体错误概率(familywise error rate)和实验错误概率(experimentwise error rate)的概念以及减少这两种错误概率的方法。详情可以参阅原文

(http://www.ncbi.nlm.nih.gov/pubmed/28000253)


参考文献

Luck, S. J., & Gaspelin, N. (2017). How to get statistically significant effects in any ERP experiment (and why you shouldn't). Psychophysiology, 54(1), 146-157.

Simmons, Joseph P. ,Nelson, Leif D., &Simonsohn , Uri (2011). False-positive psychology Psychological Science ,1359-1366 DOI: 10.1037/e636412012-001

这篇文章(Figshare版本)可以被引用为: 

Bishop, Dorothy V M(2014): Interpreting unexpected significant findings. figshare.

http://dx.doi.org/10.6084/m9.figshare.1030406

PS. 2nd July 2013

文:朱桦、马卓娅

校:朱桦、马卓娅、赵加伟、胡传鹏

编;王薇薇、赵加伟



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存