基于DDTBOX,使用线性支持向量回归(SVR)从ERP数据中解码连续变量
导读
事件相关电位(ERP)数据的多变量分类分析是预测认知变量的强大工具。然而,分类通常仅限于分类变量,并未充分利用连续数据,如反应时间、反应力或主观评分。另一种方法是支持向量回归(SVR),它使用单试次数据来预测感兴趣的连续变量。在这篇教程式的文章中,研究者演示了如何在决策解码工具箱(DDTBOX)中实现SVR。为了更详细地说明结果如何取决于特定的工具箱设置和数据特征,本研究报告了两个模拟研究(类似于真实的EEG数据和真实的ERP数据集)的结果,并预测了一系列分析参数的连续变量。结果发现,SVR对于2-100ms的分析窗口有效,并且相对不受时间平均的影响。当只有少量通道编码真实信息时,预测仍然是成功的,并且分析对信号中相关信息的时间抖动具有鲁棒性。总之,本研究证明了线性SVR是研究与连续变量相关的单试次EEG数据的有力工具,并为用户提供了实用性指导。
前言
本文首先解释了在DDTBOX中进行SVR的一般原理,包括一些分析参数的简要概述,这些参数可以由用户自定义。这些包括a)分析中所包括的特征,即是进行空间分析还是时空分析;以及b)为试次中的滑动分析窗口选择适当的窗长,以捕获信号中的潜在信息。然后,简要回顾了使用SVR研究的认知过程类型。接下来,对模拟EEG数据进行分析,以展示关键参数改变时结果的变化。最后,为用户提供了如何在DDTBOX中根据自己的研究目的定制SVR的建议,并简要讨论了SVR的一般使用。
DDTBOX中的支持向量回归(SVR)分析
在DDTBOX中执行SVR分析
图1.支持向量回归的示意图。
然后将参与者的个人结果提交到组水平的统计测试。DDTBOX中的默认选项是根据同一时间窗的经验机会分布独立检验每个分析时间窗的结果,通过对每个参与者重复相同次数的相同交叉验证过程,获得完全相同的数据和相同的标签,唯一的区别是将标签分配给数据是随机化的。这构成了一种比理论机会水平测试更保守的方法,它允许控制数据中固有的任何偏差。然后,可以使用配对样本t检验或基于最小统计量的组水平分析方法来检验每个分析时间窗的解码结果的统计显著性。
用户还可以更改多个其他设置,包括在解码之前是否应该对数据进行归一化(默认设置是对数据进行归一化;归一化还可以大大减少计算时间),以及是否应提取特征权重。请参考工具箱Wiki了解更多详细信息(https://github.com/DDTBOX/DDTBOX/wiki)。如上所述,组水平分析脚本还允许为统计检验选择不同的选项,但本研究着重关注使用一系列配对样本t检验的标准组水平统计检验,并使用基于聚类质量统计的聚类置换检验进行多重比较校正。
方法
所有SVR数据分析均使用DDTBOX 1.0.5版本进行。对于食物属性解码研究,首先使用EEGLab v13.4.4b进行数据预处理。这两个工具箱都在Matlab 2018b(Mathworks)中运行。使用bisemi Active II系统记录食物属性解码研究中的电生理活动,该系统有64个通道,采样率为512Hz,记录带宽为DC-102Hz。对模拟研究1和模拟研究2进行SVR分析。
除了噪声之外,还系统地在特定时间段内将信号添加到8个通道中。信号是通过在8个特定通道的噪声中添加高斯曲线而生成的。高斯的峰值(即最大振幅的时间点)位于距离刺激开始400ms处。高斯标准差为20ms,这意味着95%的附加信号位于峰值时间点的±40ms内。在每个试次中,信号的峰值振幅(即高斯的高度)随连续变量的值线性缩放,该变量包含SVR条件标签。为了模拟EEG信号的时间变异性,研究者进一步根据boxcar分布改变了试次中高斯形状信号的峰值时间点。选择了±30ms的抖动,这意味着给定试次中的信号高斯峰值同样可能出现在370-430ms之间。通过从平均值为0、标准差为1的高斯分布中随机抽取,生成包括SVR条件标签的连续值。在DDTBOX中使用SVR分析的各种设置,以根据多变量数据预测连续变量。
SVR分析
使用DDTBOX(v1.0.5)中的线性SVR,接口LIBSVM(使用默认设置:epsilon-insensitive SVR算法;cost参数C=0.1)。分别应用A)空间SVR和B)时空SVR分析数据。在每个分析流中,分别使用不同的分析窗长(2ms、10ms、20ms、50ms和100ms)运行所有分析。2ms分析时间窗相当于一个数据点。由于这是可能的最小分析窗长,它自然无法包含分析窗口内的时间信息(因此被视作空间分析)。表1显示了不同的分析条件。
表1.用于模拟研究1和2的数据生成和解码分析设置。
为了简化参数空间,始终使用10ms的步长来移动分析时间窗口(注意,2ms的分析窗口需要2ms的步长,以避免产生信息时间过程中的间隙)。运行了十折交叉验证的标准十次迭代。对于统计检验,基于聚类质量统计(5000次置换迭代,聚类形成ɑ=0.05),在p<0.05时应用了基于聚类的置换检验。分组结果表示预测标签和真实标签之间的非概率Fisher-Z转换相关性,即解码性能。
模拟研究2:信息通道数量和时间方差
数据
每个实验条件的数据集的生成方法与模拟研究1相同,再次使用N=37个具有相同属性的数据集。在本研究中,研究者测试了四种条件,其中包含两个实验因素的可能组合:①包含信号的通道数(低:8个通道;高:16个通道)和②信号在这些通道中跨时间分布时的抖动(小:15个数据点/±30ms;大:30个数据点/±60ms,同模拟研究1中的boxcar分布)。再次在DDTBOX中应用线性SVR来分别分析所有实验条件。
SVR分析
分析管道和参数与模拟研究1相同。唯一的区别是,这里只使用空间SVR,同样采用2ms、10ms、20ms、50ms和100ms的时间窗长(最小窗长的步长为2ms,所有其他窗长的步长为10ms)。在p<0.05处,再次采用基于聚类的置换检验进行组水平统计检验(5000次置换迭代,聚类形成α=0.05),以控制多重比较。
食物属性ERP解码实验
接下来,研究者重新分析了之前发表的一项实验(Schubert等人2021的实验),在该实验中,参与者对视觉呈现的食物的美味程度和健康程度进行了明确的评级,同时记录64通道的EEG。从该原始实验报告的分析中可以了解到,使用20ms分析窗口的时空SVR进行解码是成功的。在这里,研究者使用与模拟研究1中相同的参数重新分析了数据,即结合2ms、10ms、20ms、50ms和100ms分析时间窗,使用空间和时空线性SVR进行分析。这有助于将模拟研究结果与真实EEG研究的结果进行定性比较,因为在真实的EEG研究中,信号的特性(例如,信息通道和信号抖动的程度)是未知的。
参与者
研究招募了39名参与者,均为右利手,英语书写和口语流利,视力正常或矫正至正常,没有特殊饮食限制或进食障碍史。两名参与者的数据由于过于嘈杂被排除在外。最终样本为37名参与者,年龄为18~36岁(M=24.08岁,SD=4.74;29名女性,8名男性)。参与者在参与实验前签署了书面知情同意书,该实验得到墨尔本大学人类研究伦理委员会(ID1955772)的批准,并根据《赫尔辛基宣言》进行。
刺激
刺激由来自食物图片数据库(Food-Pics)的174张食物图片组成(如水果、蔬菜、巧克力、鱼、肉、坚果、零食/膳食-甜味和咸味,以及具有广泛感知美味的图片)。有关完整的图像选择程序、问卷调查以及更详细的程序说明,请参阅Schubert等人2021的文章。
脑电图预处理
使用BioSemi Active II系统记录电生理活动,该系统具有64个通道,采样率为512Hz,记录带宽为DC-102Hz。根据国际10-20系统,将64个Ag/AgC1电极连接到脑电帽上,在左眼的旁边和下面(记录水平和垂直眼电)以及双侧乳突上添加了四个额外电极。电极偏移量保持在±50μV以内。使用EEGLab v14.1.2,首先将数据转换为双侧乳突平均重参考,然后进行高通(0.1Hz)和低通(30Hz)滤波(EEGLab FIR Filter New,默认设置)。以图片呈现前100ms到图片呈现后1000ms这个时间段对试次进行分段。通过目测识别并去除包含肌肉和皮肤电伪影的段。使用球面样条插值噪声通道。在EEGLab函数中使用独立成分分析(ICA)识别和去除眼动、眼跳和眨眼等伪迹。任何通道中振幅超过±150μV的段都被排除在分析之外。
线性SVR
对于每个分析,使用DDTBOX接口LIBSVM(默认设置:epsilon-insensitive SVR算法;cost参数C=0.1)估计多元回归模型,根据神经数据预测评分。十折交叉验证过程的所有十次迭代的平均结果是评级(即标签)和预测标签之间相关性的Fisher-Z变换相关系数。与模拟研究1一样,分别使用空间SVR和时空SVR进行该分析。使用2ms、10ms、20ms、50ms和100ms的分析时间窗,在试次中以10ms的步长移动(同样,对于2ms的分析时间窗,使用2ms的步长)。使用配对样本t检验,在组水平上检验每个分析时间窗的结果与经验机会结果分布的统计显著性,并使用基于聚类的置换检验进行多重比较校正。
结果
模拟研究1的结果表明,使用所有分析时间窗长的所有空间SVR分析都可以用于成功识别信号出现的时间段(图2)。使用所有时间窗长的所有时空分析也是如此。结果表明,与空间SVR分析相比,使用时空SVR分析没有明显优势。感兴趣的变量可以使用任何分析时间窗口进行解码,包括最短的时间窗,每个分析窗口每个通道仅包含一个数据点。不同分析方法之间的平均解码性能没有差异。然而,对于空间和时空SVR,存在一些时间拖尾效应,这意味着随着分析窗长的增加,试次早期的时间窗口变得显著。重要的是,这并没有反映出对信息的更高敏感性。这是由于构建分析时间窗口的方式导致的:DDTBOX根据包含的最早时间点定义窗口,并将窗口从时间段开始移动到时间段结束。因此,当预测信息被包含在窗口的尾端时,在时间段中移动的任何分析时间窗口都变得很重要。这意味着,对于不区分窗口内信息的较长窗口,真实信息实际上位于窗口的后面(即靠后的时间点)。这原则上可以通过分析详细的特征权重结构(包括通道和时间点作为特征)来控制;然而,正如本研究所示,可以通过使用更短的分析窗口来完全避免这种情况。
图2.模拟研究1中使用空间SVR(左侧)和时空SVR(右侧)时的解码性能,窗长分别为2、10、20、50和100ms。蓝线表示使用原始数据的解码性能;橙线表示使用置换数据的解码性能。阴影区域表示均值标准误(SEM)。粉色阴影区域表示统计上显著高于概率解码精度的时间窗。
模拟研究2
正如预期的那样,随着信息通道的减少,解码精度明显降低;然而,仍然有可能显著地(高于概率)预测兴趣变量。在这些通道的信息分布中引入时间抖动进一步降低了解码性能,并导致解码结果在时间上的预期时间拖尾。值得注意的是,抖动并不妨碍对任何分析时间窗口的信息检测。
图3.模拟研究2中使用空间SVR时的解码性能,窗长为10ms(上半部分)和100ms(下半部分)。蓝线表示使用原始数据的解码性能,橙线表示使用置换数据的解码性能。阴影区域表示均值标准误(SEM)。
食物属性ERP解码实验
图4.SVR味觉等级解码结果。左侧和右侧分别为空间和时空解码分析结果。
图5.SVR健康等级解码结果。左侧和右侧分别为空间和时空解码分析结果。
总之,这些结果表明,这两个刺激维度的结果大体上相似。然而,就特定的时间步长而言,空间SVR在某些情况下略好,而在其他情况下,时空SVR稍优一些,这些细微的差异也因分析时间窗的宽度而略有不同。
结论
更多精彩课程推荐
| |||
本文内容仅供参考,一切内容以英文原文为准。
非常欢迎大家留言、转载、收藏或分享~ 本文来自微信公众号“茗创科技”。如需转载,请在“茗创科技”后台回复“转载”,并附上所需转载的文章标题以及您的ID。
MC_Brain
茗创科技工作室
觉得有帮助,欢迎转发收藏或者点个在看哦~
听说点在看的人SCI接收率都提升了18%呢!