查看原文
其他

多重比较问题:为什么fMRI里放条死鱼也能发现脑激活?

Runhao 鹿鸣Cogn 2022-04-26



Bennett等人的死鱼实验在2012年获得了搞笑诺贝尔奖(IgNobel Prize)之神经科学奖。获奖原因是他们利用功能磁共振成像(fMRI),煞有介事地在一条死三文鱼身上进行了一项认知神经科学实验,最后的统计结果居然发现了死鱼看图片时候的大脑激活区域!这篇奇葩但也引人思考的论文警示研究者:通过使用复杂的仪器和简单的统计数据,我们可以在任何地方看到有意义的大脑活动——即使是在死鱼身上出现这种荒谬结果的原因是多重比较问题(multiple comparisons problem),如果没有对多重比较进行适当的校正,得到的脑成像的结果很可能是假阳性结果












死鱼实验
fMRI是认知神经科学最常用的脑成像工具,它通常被用来测量个体(一般是人)在完成任务时的大脑血氧水平变化,从而推断这种任务涉及的认知活动对应于大脑哪些区域的活动,或者多大程度涉及这些区域。

Bennett等人在菜场上买了一条死三文鱼,然后把这条死鱼放进了fMRI里,煞有介事地进行了一项社会认知相关的实验。在实验中,被试(也就是这条死鱼)要完成一个社会心理学任务,它会看一系列人类在社会情境下的照片,然后被要求判断照片中的人经历了哪种情绪(当然这条鱼是不负责的被试,完全没有遵守指导语)。

Anyway,一通操作下来,我们可以得到这条鱼看图片时的脑活动,然后可以将其与没有看图片的休息状态的脑活动进行差异检验(t检验),看看哪些脑区会在展现出差异,这些脑区可能就是表征社会认知的关键区域!这也是认知神经科学研究常见的实验设计方式。

结果惊人地发现,在利用t检验对比看图片和休息状态的脑活动后,发现了死鱼脑中似乎有一些区域专门负责加工人类社会活动(t=3.15, p<0.001;如下图),达到了非常显著的水平。因此我们可以做出结论,死三文鱼的这块脑区负责对人类社会行为加工吗?当然不是,死鱼当然不能对这些图片产生什么反应,这显然是一个假阳性结果,其原因就是多重比较问题

看图片和休息状态三文鱼BOLD信号的对比(未校正的t检验结果)

多重比较问题
什么是多重比较问题?举一个例子,我们知道扔一个均匀材质的硬币,扔到正面的概率是50%。那么扔10次均匀质地的硬币,9次朝上的概率是多少?计算一下可以得到是1.07%,属于小概率事件,在一次试验中几乎不会发生。但是,如果有10000枚硬币,每个都扔10次,这时如果说里面有30枚硬币恰好是有9次朝正面,这时是不是就不觉得奇怪了?这时可以说是因为这30枚硬币是质地不均匀吗?不对,这就是多重比较带来的假阳性问题,当比较次数多了,犯错的概率也就放大了。

在统计上,我们一般把0.05作为显著性的阈值,如果做一次比较,犯错的概率就是5%。但是,如果做n次比较,犯错的概率就是1-(1-0.05)ⁿ 。这样来算,做两次比较犯错的概率就是1-(1-0.05)² = 9.75%;如果做20次比较,犯错的概率就是64%;如果做200次比较,犯错的概率就是99%。

当进行fMRI实验时,大脑会被分割成一个个小的单位,叫做“体素”(voxel),全脑一般会被分割成几万个体素。此时,如果对每个体素进行一个t检验,根据上面的计算,犯错误的概率可以说是100%!这也就是为什么能在死鱼身上发现显著的激活结果。

大脑被分割成体素的简易示意图

多重比较校正
为了避免多重比较带来的假阳性问题,一个常见的方法是对原始的结果进行多重比较校正校正的方式也有很多种。

比如利用Bonferroni校正的话,它会把每次比较都认为是独立的。比如将显著性的阈值alpha定义为0.05,做n次比较后,其Bonferroni校正后的阈值就等于0.05/n。想象一下,如果我们对两万个体素进行Bonferroni校正,那此时显著性的阈限就是0.0000025,如此,即使有结果你也基本休想看到了,也就是说这时又会得到假阴性的问题。这主要是因为Bonferroni的检验过于严格,且没有考虑fMRI数据本身存在一定空间上的相关,因此不太适合用于fMRI的实验中。

在已有研究中,也有很多研究者采取折中的方式。他们认为用原始p=0.05不靠谱,假阳性太多,用Bonferroni校正又太严格,那所性用未校正但更严格的阈限,比如p=0.001、p=0.01。但这种折中方式也是不推荐的,这种主观的划分其实没有什么依据(往往是服务于自己的数据来主观选择)。

目前的研究经常用到的校正方法是FDR(false discovery rate)FWE(family-wise error)校正,这两种不像Bonferroni那么严格,但也可以把犯错的可能性控制在可以接受的范围内(比如5%)。如死鱼实验中,在利用FDR或FWE校正后,死鱼脑中“显著”的脑区就不再显著了,也就是避免了原本存在的荒谬结果。












假设驱动和数据驱动
讲到这里不禁想到,心理学和认知神经科学实验中存在两种分析思路,一种是利用已有文献提出假设,用假设驱动的方式进行分析;另一种是遍历全脑,依靠数据驱动的方式找到结果。

显然,用数据驱动的方式遍历所有体素(或者在脑电实验里遍历时间点等等)是存在多重比较问题的,需要进行校正。但是,假设驱动原则上似乎不存在这个问题,比如研究者只选择额叶某个区域作为兴趣区(ROI),只对它进行一次假设检验,这时就不涉及多重比较的问题。

那问题来了,如果有研究者先用数据驱动的方法,发现了额叶区域确实存在显著的点(比如p=0.01),但无法通过多重比较校正,那这时研究者是否可以事后诸葛亮,将额叶这些点作为兴趣区,利用假设驱动的方法得到相同的p=0.01结果,从而避免多重比较校正呢?这也是不正确的,因为这不是事先计划的假设驱动,而是事实上已经做了多重比较之后的事后选择。

如何避免这种不当的操作呢?一方面,ROI的选择是要有以往大量文献做支撑的,并不是想选哪个就选哪个;另一方面,研究的“预注册”在这里可以发挥作用,在做实验之前,就将分析方法,可能用到的兴趣区都预先注册,这样能够一定程度上避免上述问题。












死鱼实验获奖之前,fMRI研究中有25%~40%没有经过多重比较校正,在它获得搞笑诺贝尔奖之后,这个数字降到了10%以下,maybe这可以一定程度归功于这条鱼。

尽管多重比较问题之前也常在课上听说,但总是似懂非懂,这里正好借助死鱼实验简单整理一下。如果有不对的地方,还请指正!

文献:
Bennett et al. "Neural Correlates of Interspecies Perspective Taking in the Post-Mortem Atlantic Salmon: An Argument For Proper Multiple Comparisons Correction" Journal of Serendipitous and Unexpected Results, 2010.

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存