EEG/ERP研究中如何获得稳定可信的结果或效应
The following article is from 流浪心球 Author 念靖晴
引言
由于ERP数据的单位是毫秒、微伏,其结果的差异也是在毫伏或者是毫秒这样的量级上,因此要达到0.05水平上的显著比较难。
从另一方面来说,由于ERP数据的随机变异太多了,只要进行足够次数的分析,就有很大的机会在一些时间点和电极点上发现统计上显著的效应。这些效应可能是没有意义的,是不可重复或者不可预期的。对研究者、审稿人、甚至是对读者来说,很难区分一个显著效应是真实的还是无意义的。
基于这些问题,Simmons, Nelson, and Simonshon (2011)提出了『实验者自由度』的问题,实验者可以从很多不同方面去分析数据,如果数据分析方法是实验者对数据进行了初步检视之后确定的,那这将在很大程度上增加发现统计上显著但实际上无意义的效应(后称显著性假效应)的概率。由于ERP实验的数据很多,其数据分析就比行为实验要自由得多,发现显著性假效应的概率就大大增加了。
因此,如何在EEG/ERP研究中避免P-hacking等问题,获得稳定可信的结果或效应,是值得我们深思的一个重要领域。
第一部分:EEG/ERP研究中喜欢或需要报告哪些内容?
Clayson等人(2019)通过汇总了NeuroImage, Clinical,Neurophysiology and Journal of Cognitive Neuroscience等5本于2011~2017年发表的150篇EEG/ERP研究文章。如下图所示,汇总结果表明EEG/ERP研究中常见的报告内容主要有:被试信息、EEG记录、刺激和时间、数据预处理、ERP测量、数理统计、主成分分析(PCA)、独立成分分析(ICA)。
图源:Clayson等人(2019)
8个部分需要报告的更详细的内容见图2,从左至右依次为被试信息、EEG记录、刺激和时间、数据预处理、ERP测量、数理统计、主成分分析(PCA)、独立成分分析(ICA)。
图源:Clayson等人(2019)
第二部分:EEG/ERP研究中获得稳定可信的结果或效应需要怎么做?
2.1 需要多少个被试(Sample Size)?
如图4所示,在统计检验力(statistical power)为0.8、alpha水平为0.5、效应量(effect size)为较大效应量(Cohen's d = 0.8, Cohen's f = 0.4)时,独立样本t检验需要52名被试(每组各26名);配对样本t检验需要15名被试;2 (Between Group) × 2 (Within Group) 的重复测量方差分析需要22名被试(每组各11人)。
在统计检验力(statistical power)为0.8、alpha水平为0.5、效应量(effect size)为较小效应量(Cohen's d = 0.2, Cohen's f = 0.1)时,独立样本t检验需要788名被试(每组各394名);配对样本t检验需要199名被试;2 (Between Group) × 2 (Within Group) 的重复测量方差分析需要298名被试(每组各194人)。
注:其余表格(表5、表6、表7)的解读方式同上。
图/表源:Clayson等人(2019)
2.2 需要多少个试次(Trials)?
ERP成分包含在EEG当中,需要经过一定数量Trial的叠加才能获得特定的成分或者波形。在一项实验中,最佳数量的Trial数需要考虑数据质量,获得有效数据所需要的时间以及经济成本,最好能在两者之间取得平衡。
2017年12月,UCSD的Kappenman在《psychophysiology》上发表文章,探讨在一个ERP研究中需要多少Trials可以得到显著效应。关于该文章更多详细的解读可查阅:一个ERP实验需要多少trials才能得到具有统计效力的显著效应?
此外,关于ERP成分需要多少个试次,Gibney等人(2019)也用LPP成分进行探讨,其详细内容可以通过文末参考文献获取更多信息。
2.3 避免隐性多重比较(multiple implicit comparisons)?
Luck等人2017年在《Psychophysiology》上发表文章专门探讨了目前大部分ERP研究中存在的问题。其中一个问题就是:根据总平均的图来选择分析的时间窗口和电极点。关于这篇文章的详细解读可以查阅:如何在任何一项ERP实验中发现显著的效应(为什么你不能这样做)。
2.4 避免总体错误概率和实验错误概率?
Luck等人2017年认为目前大部分ERP研究存在的另一个问题就是可能存在:总体错误概率和实验错误概率。更多详细内容可以查阅:如何在任何一项ERP实验中发现显著的效应(为什么你不能这样做)。
2.5 慎用高通滤波
虽然滤波器是非常有用的,但它们实际上是一种系统性失真。对数据使用的滤波越多,数据的失真就越严重。滤波所造成的失真可能是因为:滤波的基本原理:时域中的精度与频域中的精度成反比。
图源:Tanner (2015)
如上图所示,不同高通滤波器对ERP成分造成的影响。截止频率表示一个斜率为24 dB/octave 的非因果巴特沃兹滤波器的半振幅点。我们发现当截止频率为0.1 Hz的高通滤波器只轻微地衰减了P600的波形,并没有产生任何明显的滤波伪迹。
截止频率为0.5 Hz的高通滤波器明显的地衰减了P600的波形,大约在500 ms 左右产生了虚假的负向电压偏转。截止频率为1.0 Hz的高通滤波器进一步降低了P600的波形,且增加了波形产生虚假的负向电压偏转。因此,当截止频率高于0.1 Hz时,高通滤波器的使用需要非常谨慎。
关于滤波器的使用和选取的更多建议可以查阅:Luck, S. J. (2014). An introduction to the event-related potential technique. MIT press.日前,该书的中文译本《事件相关电位基础(第二版)》已经出版。
第三部分:如何计算EEG/ERP研究的可重复性?
虽然ERP广泛的用于心理生理研究,但是还没指标可以量化这些研究的可重复性和稳定性。来自于美国Florida大学心理系的Andreas Keil 团队采用统计学中广泛使用的内部一致性系数作为指标来量化ERP研究的可靠性,并且推荐所有的ERP研究都报告这个指标。值得我们一看。详细解读可以查阅:如何计算ERP研究的可重复性?未来的研究中,可能需要更多客观化的指标和标准来推动和促进EEG/ERP研究的可重复性。
第四部分:如何分析与分享EEG/ERP研究的数据?
OHBM强烈建议杂志编辑、审稿人都采用《Best Practices in Data Analysis and Sharing in Neuroimaging using MEEG》中所列出的标准。从大的方面来说,标准的制定有助于已发表的研究被其他研究者重现或重复,对整个MEEG研究领域有极大好处。对研究者个体来说,遵守这些标准将有助于文章的发表。详细解读可以查阅:EEG研究中数据分析与分享的最佳实践。
致谢:《EEG/ERP研究中如何获得稳定可信的结果或效应》这个主题的形成要感谢胡传鹏博士和可重复性与开放科学中文圈(Chinese Open Science Network)的邀请,在2019年10月18日杭州师范大学举办的第二十二届全国心理学学术会议“增强心理学研究的可重复性工作坊:方法与实践”工作坊做了首次分享,此文稿是在分享会后吸收了一些现场的意见或建议并结合我自己的一些反思形成的。
更重要的是要感谢我的导师罗禹老师,2017年入学,在组内近三年的学习中,他给了我最重要的指导,本文稿中部分核心内容均引自其公众号:D罗。或许这篇文章是我近三年在组内学习的一个小结,而我走的每一步都有他陪伴和指导的身影。
参考文献:
Clayson, P. E. , Carbine,K. A. , Baldwin, S. A. , & Larson, M. J. . (2019). Methodological reportingbehavior, sample sizes, and statistical power in studies of event‐relatedpotentials: barriers to reproducibility and replicability. Psychophysiology, 56.
Boudewyn, M. A. , Luck, S.J. , Farrens, J. L. , & Kappenman, E. S. . (2017). How many trials does it take to get a significanterp effect? itdepends. Psychophysiology, e13049.
Gibney, K. D., Kypriotakis, G., Cinciripini, P. M., Robinson, J. D., Minnix, J. A., & Versace, F. (2019). Estimating statistical power forevent-related potential studies using the late positive potential. Psychophysiology.
Luck, S. J. , & Gaspelin, N. . (2017). Howto get statistically significant effects in any erp experiment (and whyyou shouldn’t). Psychophysiology, 54(1), 146-157.
Tanner, D. , Morgan-Short,K. , & Luck, S. J. . (2015). How inappropriate high-pass filters canproduce artifactual effects and incorrect conclusions in erp studies of languageand cognition. Psychophysiology, 52(8), 997-1009.
Luck, S. J. (2014). An introduction to the event-related potential technique. MIT press.
Thigpen, N. N., et al. (2017). Assessing the internal consistency of the event-related potential: An example analysis. Psychophysiology ,54(1): 123-138.
Luck, S. J. 著,洪祥飞,刘岳庐译.(2019).事件相关电位(第二版),华东师范大学出版社.
虽然比别人走得慢,但我可以比别人走得更稳!