基于生理信号的情感计算研究综述(二)之情感计算中的机器学习、情感计算常用公开数据集

脑机接口社区 2022-04-26

情感计算 (Affective Computing)[3]是一个跨学科的研究领域, 涉及计算机科学、心理学和认知科学等多个学科, 旨在研究和开发能够识别、解释、处理、模拟人类情感的理论、方法和系统. 随着 5G 技术、物联网、人机交互、机器学习尤其是深度学习等技术的不断发展, 情感计算在医疗保健、媒体娱乐、信息检索、教育以及智能可穿戴设备等领域都有着广阔的应用前景。

由于《基于生理信号的情感计算研究综述》的内容篇幅比较长，因此分成两部分介绍，第一部分内容可以查看《基于生理信号的情感计算研究综述(一)》，本篇文章介绍的是综述的第二部分：情感计算中的机器学习、情感计算常用公开数据集以及总结与展望。

情感计算中的机器学习

情感计算中另一个核心问题是情感模型的设计, 其中所涉及到的机器学习算法, 也是本文重点研究与总结的工作.

Doma 等[49]在 DEAP 数据集上对比了 PCA、及朴素贝叶斯、逻辑回归、kNN、支持向量机、决策树等传统机器学习方法的性能, 其中 PCA 和 SVM 在这些方法中的表现相对更好. 但是, 这里的结果与数据集和实验设置相关, 并不一定能推广到其他问题中.

5.1迁移学习

在情感计算任务中, 由于被试之间存在个体差异, 迁移学习[50]得到了广泛应用. 迁移学习主要用于处理测试数据与训练数据不服从独立同分布的场景, 非常适合用于处理情感计算任务中的用户差异问题. 具体地, 情感计算中的迁移学习使用源域 (来自其他用户的数据或知识) 来帮助目标域 (新用户) 进行学习. Wu 等[51]综述了 2016 年以来迁移学习在脑机接口中的应用, 包括基于脑电的情感脑机接口系统.

Zheng 等[52]提出使用迁移学习方法, 在无标签的目标域数据上建立基于 EEG 信号的个性化情感模型. 他们提出了两种跨用户迁移方法. 一种是利用源域和目标域数据隐藏的共享结构信息, 另一种是在源域的每一个用户上分别训练分类器, 然后将分类器的参数信息迁移到目标域用户上, 这样可以学习到一个回归函数, 该函数反映了特征分布与分类器参数之间的关系. Zheng 等对比了TCA (Transfer Component Analysis)[53]、KPCA (Kernel Principal Component Analysis)[54]、TPT (Transductive Parameter Transfer)[55]三种方法在SEED 数据集上的表现, 发现 TPT 要优于另外两种方法. TPT 首先在多个源域用户上分别训练 SVM 分类器, 再学习每个源域用户的分类器参数与数据分布之间的回归函数, 最后由目标域用户的数据分布作为输入, 通过回归函数得到适用于目标域用户的分类器.

Zhang 等[56]在情绪识别任务中, 结合迁移学习提出一种基于个体相似度的迁移框架. 具体是通过使用MMD (Maximum Mean Discrepancy) 对个体差异性进行度量, 然后使用 TrAdaBoost 训练模型.

Li 等[57]将风格迁移映射 (Style Transfer Map- ping, STM)[58,59]应用到基于脑电信号的多源域跨用户情感识别. 其应用场景为目标域用户包含少量的标注数据, 是一种半监督迁移场景. 源域选择是通过在源域用户分别训练分类器, 根据分类器在目标域用户的性能, 选择准确率较高的几个用户作为最终源域用户. 实验表明, 源域用户数量在 7 个左右时能够达到最好效果, 继续增加源域用户数量会因为与目标域用户的差异较大而导致负迁移, 使最终分类性能下降. 对于每个选中的源域用户所训练的分类器, 由于其在目标域用户的表现不同, 需要对这些分类器赋予不同权重进行集成.

Lan 等[60]总结了 MIDA、TCA、SA、ITL、GFK、KPCA 等几种迁移学习方法在情感计算任务中的表现, 并在 SEED 和 DEAP 数据集上分别进行了数据集内的跨被试迁移实验和数据集间的跨被试迁移实验. 该文章首次进行了不同数据集之间的情绪识别任务迁移.

Wu 等[61]提出了一种多特征情绪识别方法, 使用联合稀疏表示(Joint Sparse Representation, JS-R) 将简单特征的融合问题转化为优化问题, 即将每一种特征的稀疏矩阵结合在一起获得所有特征的联合稀疏表示. 由于使用基于核的 SVM 的计算复杂度较高, Wu 等使用了相关向量机 (Relevance Vector Machine, RVM) 作为分类器.

郑伟龙等[62]提出一种新的从眼睛的扫视轨迹进行知识迁移的异质迁移学习方法. 他们引入了基于扫视轨迹和基于脑电信号的核矩阵, 并提出了改进的直推式参数迁移学习算法, 以实现跨被试脑电情感模型的构建. 该方法与传统方法相比, 具有两个优点：一是利用了目标被试容易获取的眼动追踪数据进行被试迁移, 二是在目标被试只有眼动追踪数据的情况下, 仍然能够从其他被试的历史数据中学到脑电信号的情绪类别判别信息.

5.2主动学习

在机器学习任务中, 往往需要大量的有标签训练数据以获得更好的性能. 但是, 在许多实际应用场景中, 获取未标注的数据相对容易, 标注过程却很困难, 通常需要投入大量的时间和人力资源. 数据标注难问题在情感计算中尤其突出. 例如, 在语音信号的情感估计问题中, 可以很容易地记录大量语音, 但是要对语音进行三个维度的评估[63](愉悦度、唤醒度和优势度), 评估者必须反复倾听, 仔细检查. 此外, 由于情感估计具有主观性, 而且部分数据可能只存在细微差异, 通常需要多个评估者, 例如, VAM 语料库[64]用到 6-17 个评估者, IADS-2[65]用到至少 110 个评估者.

除了前节介绍的迁移学习方法外, 主动学习[66]也可用来大幅降低情感计算中的标注数据量[67–73]. 主动学习从大量无标注数据中选择少量最有用的数据来标注 (并非所有训练数据都是平等的), 从而可以用最少的标注数据训练出一个好的模型.

Wu 和 Parsons[67]使用主动类别选择 (Active class selection) 进行基于多种生理信号的效价(Arousal) 分类, 取得比传统标注更好的效果: 使用同等数量的标注数据, 通过主动类别选择选出的样本能够取得比随机标注样本更高的分类准确度. 主动类别选择的基本思想是在多分类问题中优化每个类别应该标注的样本量, 而不是各个类别标注同样数量的样本.

Wu等[72]也进行了基于脑电信号的驾驶员瞌睡状态估计. 通过主动学习选出在输入域和输出域上多样性都高的脑电样本进行标注, 能取得比随机选择样本标注更低的估计误差.

值得一提的是, 主动学习和迁移学习也可以相互结合, 取得比单独使用主动学习或迁移学习更好的效果. Wu 等[68]提出了一种融合迁移学习和主动类别选择的方法, 在基于多种生理信号的效价(Arousal) 分类问题上, 取得了比单独使用迁移学习和主动类别选择更高的准确度.

5.3深度学习

随着深度学习的快速发展, 越来越多的研究者在基于生理信号的情感计算任务中使用到深度神经网络模型.

Zheng 等[20]通过对脑电信号的分析证明了脑电信号的波动与人类情绪变化之间存在联系. 他们还对比了 kNN、LR、SVM、DBN 等不同分类器对情绪识别结果的影响. 研究结果表明, 深度神经网络相较于传统机器学习的方法具有更好的情感计算性能. Thammasan 等[74]的研究也表明深度学习对于基于 EEG 的情绪识别的准确性有明显提升. Li 等[75]在基于 EEG 的情绪识别任务中使用了层次化的卷积神经网络 (Hierarchical Convolutional Neu- ral Networks, HCNN), 并与堆叠自编码器(Stacked Autoencoder, SAE) 进行了对比, 表明了其有效性. Wei 等[76]使用简单循环单元 (Simple Recurrent U- nits, SRU) 网络与集成学习构建分类器, 以较小的计算代价取得较好的分类结果.

深度学习在情感计算中的研究焦点主要有: 特征工程、多模生理信号融合以及深度迁移学习.

5.3.1特征工程

众多研究表明, 脑电信号及其他外围生理信号的变化与人的情绪变化之间存在诸多联系[20, 31, 32]. 深度学习能够有效学习样本的深层特征表示, 对挖掘生理信号中所蕴涵的情感状态信息有很大帮助.

Yin 等[77] 中提出一种基于堆叠式自编码器(SAE) 的集成分类器. 其中, 所使用的堆叠式自编码器具有多重融合层, 其深层结构则是通过生理数据驱动来辨识得到. 每个 SAE 由三个隐藏层组成, 用于过滤生理特征中不需要的噪声, 从而得到稳定的特征表示. 在此基础上, Yin 等提出了一种新的深度学习模型, 根据不同的特征提取方法将生理特征划分为多个子集, 每个子集分别用SAE 进行编码. 导出的 SAE 抽象表示根据生理模式进行组合, 以创建六组编码, 然后输入到一个三层的, 基于邻接图的网络进行特征融合, 融合特征用于识别唤醒度或愉悦度.

Fourati 等[78]将回声状态网络 (Echo state net- work, ESN) 应用到基于 EEG 信号的情感识别任务中. 由于回声状态网络会因为不恰当的初始化使其在一些情况下性能较差, Rahma 等提出使用内塑性规则预训练回声状态网络, 能有效弥补随机初始化的缺点. 进一步地, 回声状态网络的非线性能直接将输入的原始 EEG 数据投影到高维状态空间中, 从而完成 EEG 信号的特征提取.

Ren 等[79] 利用大脑不对称特性和回声状态网络 (ESN) 进行了情绪识别任务, 提出了一种基于不对称指数 (Asymmetry Index, AsI) 的情感被激发程度的评价方法. AsI 是利用大脑左右半球 6 个通道 (Fp1、Fp2、Fz、AF3、AF4、Fz) 的EEG数据所测量的两个额叶之间的共享互信息, 然后, AsI 可用于评估情绪诱发程度. 使用小波包变换 (Wavelet Packet Transform) 提取多种生理信号的子带, 然后对各个子带的小波包系数进行聚类, 进一步计算每个类别下小波包系数的概率分布, 将得到的每个样本的概率分布值作为回声状态网络的输入, 并对网络进行无监督内在可塑性训练, 选择储备池节点作为最终的特征向量, 作为 SVM 分类器的输入. 研究结果表明, AsI 对提升情绪识别准确率有很大的帮助. 同时, 使用回声状态网络对原始生理信号特征进行细化, 能够显著降低特征维数, 更有利于情绪分类.

Yang 等[80]提出了一种具有子网节点的分层网络模型. 在该模型中, 嵌入网络中的每个子网节点都有数百个隐藏节点, 这些子网节点可以作为独立的隐藏层用于特征表示. 分层网络的顶层结合了来自子网节点的特征并将其映射到一个新空间中, 从而使网络可以产生更可靠的认知.

Wang 等[81] 基于双向长短期记忆网络(Bidirec- tional Long Short Term Memory, BLSTM) 提出了一种高效的相似性学习网络, 该网络将双约束损失与传统的监督类损失函数相结合, 有助于学习更具鉴别性的嵌入特征空间.

Zhang 等[82]提出了一种启发式的变分路径推理(Variational Pathway Reasoning, VPR) 用于EEG 情绪识别. 通过随机生成大量沿电极的候选路径, 使用动态序列模型给每个路径编码来学习电极间的依赖关系, 每个电极被编码的路径聚合在一起生成一个伪最大能量路径, 它包含了最重要的成对连接. 为了找到最突出的连接, Zhang 等提出了稀疏变分缩放 (Sparse Variational Scaling, SVS) 模型来学习伪路径的缩放因子, 该模型用到了贝叶斯概率过程和稀疏约束, 贝叶斯概率过程具有较好的泛化性能, 稀疏约束则能够进行自适应路径选择. 最后, 候选路径中最突出的路径由伪路径和缩放因子共同确定.

Liu 等[83] 在多通道 EEG 情绪识别任务中使用了一种多层次特征引导胶囊网络 (Multi-Level Fea- tures Guided Capsule Network, MLF-CapsNet), 该网络能够有效挖掘不同通道 EEG 信号之间的内在联系, 这个网络是一个端到端的框架, 它能够同时从 EEG 信号中提取特征并确定情绪状态, 与传统的胶囊网络不同, 该网络将不同层学习到的特征映射合并成主胶囊, 以提高特征表示的能力, 此外, 网络中还引入一个瓶颈层来减少参数数量以及加快运算速度.

Cimtay 等[84]提出使用预训练好的卷积神经网络模型来提取用于情绪识别的特征, 通过数据归一化来消除电压幅值波动的影响, 同时能够使网络避免出现可能的病态情况, 在预训练好的网络中额外增加池化层和全连接层, 使得网络的分类性能得到提升. 此外, 文中还对网络的输出进行滤波以消除错误检测.

5.3.2多模生理信号融合

不同模态的生理信号包含了人类情感的不同信息表示, 找到这些不同模态信息之间的相关性对于提高情绪识别的准确率有很大的帮助, 一个有效的方法就是使用深度学习将不同模态的生理信号进行融合.

Du 等[85]针对多模态、标签数据缺失、模态不完整等条件下的情感计算问题, 提出了一种多视图深度生成模型, 它是缺失多模态情感数据下一个非常有效的情感计算方法. 文中利用具有潜在共享空间的多种模态特有的生成网络, 对多模态情感数据的统计关系进行建模. 通过对共享隐变量的近似后验进行高斯混合假设, 该框架可以学习到多模态的联合深度表示, 同时能够对每个模态的重要性进行评估. 进一步的, 为解决数据标签缺失问题, 文中将多视图模型扩展到半监督学习场景. 此外, 文中还将多视图半监督模型应用到解决数据模态缺失问题, 具体是通过将缺失的视图视为一个隐变量, 然后在推理的过程中进行集成.

Ma 等[86]提出了一种基于多模态残差 LSTM 网络模型 (Multimodal Residual LSTM Network, MM-ResLSTM) 的情绪识别系统. 该网络在每个LSTM 层的模式之间共享权值, 从而学习EEG 信号与其他生理信号之间的相关性. 它既包含残差网络提供的空间快捷方式路径, 也包含了 LSTM 网络提供的时间快捷方式路径, 从而高效地学习到与情感相关的深层特征表示.

Zheng 等[29]提出了一种基于 6 个对称颞叶EEG 电极 (FT7、T7、TP7、FT8、T8、TP8) 和眼动信号进行情感识别的多模态框架. 所选用的 6 个电极可以十分方便的嵌入到耳机或者眼镜框等可穿戴设备中. 文中通过电影片段诱发高兴、悲伤、恐惧和正常四种情绪类别并进行分类. 使用主成分分析对眼动信号进行预处理, 并对 EEG 信号进行降采样、去除伪迹和滤波等预处理. EEG 信号采用 DE 特征, 从眼动信号提取出 5 类眼动参数, 然后将 EEG 特征与眼动特征进行特征级融合作为模态融合的基准, 即将 EEG 特征与眼动特征直接连成一个更大的特征向量. 文中使用双峰深度自编码器 (Bimodal Deep Auto-Encoder, BDAE) 来提取EEG 信号和眼动信号的深层特征表示. 不同模态的信号从不同角度来表征情绪状态, 具有互补性. 将多模态特征进行融合并进行情感计算建模能够有效提高情感计算系统的鲁棒性.

Wu 等[61]提出了一种新颖的与情感相关的关键子网络选择算法进行多模态情绪识别, 主要研究了脑电功能连接网络特征 (特征向量中心性、聚类系数、强度) 对于情感计算系统的影响. 文章所提出的强度特征对于情绪识别准确率要优于使用单通道脑电信号所提取的 DE 特征. 研究还表明高兴、悲伤、恐惧、厌恶和中性等 5 种情绪之间存在类似于状态转移图的功能连接模式. 基于以上工作, Liu 等[87]使用深度典型相关性分析 (Deep Canonical Correlation Analysis, DCCA) 建立了融合脑电信号和眼动信号的多模态情感计算系统.

Rayatdoost 等[88]提出了一种深度表示学习方法, 通过设计一种跨模态编码器来联合学习从EEG、EMG 和 EOG 等信号中提取的特征. 这种跨模态编码器是一种表情导向的编码网络, 它先将EEG 信号不同频段的 PSD 特征转换成光谱地形图, 然后通过卷积层提取新的特征, 并利用全连接层结合这些特征, 从而学习到一种新的非线性表征. 该表征以 EMG 和 EOG 特征中提取的面部表情特征为引导, 可以针对特定的情绪识别任务进行优化.

5.3.3深度迁移学习

深度神经网络与迁移学习结合, 是目前基于生理信号的情感计算的一个研究热点.

Luo 等[89]提出了一种基于 Wasserstein 生成对抗网络[90] (Wasserstein Generative Adversarial Network, WGAN) 的域适应方法 (WGANDA), 用于构建基于脑电的跨被试情绪识别模型. WGAN- DA 包括了源域和目标域生成器, 判别器和分类器四个部分以及两步的训练步骤：预训练和对抗训练. 在预训练阶段, WGANDA 首先通过两个域生成器将源域和目标域映射到一个高维共有空间. 在对抗训练阶段, WGANDA 使用对抗的方式减小两个映射的距离. 为了能够保证网络达到更好的收敛性和稳定性, 他们在损失函数中加入了梯度惩罚项. 在SEED 和 DEAP 两个情绪数据集上的实验结果表明, WGANDA 能够很好的解决跨被试情绪识别模型中存在的域偏移问题, 并且相对于传统的域适应算法能够达到更高的识别率.

Li 等 [91] 应用 DAN (Deep Adaptation Network)[92] 在 SEED 和 SEED-IV 数据集上进行跨用户情感识别, 取得了比传统机器学习算法更好的准确率. DAN是 2015 年由清华大学龙明盛等提出的一种较好的深度网络迁移方法. 以 ResNet 为例, DAN 固定网络的前三层卷积层, 微调网络的第 4、5 层卷积层, 第 6、7、8 层为全连接层, 使用多核 MMD (Multi Kernel MMD, MK-MMD)[93] 在网络的第 6、7、8 层对源域和目标域进行适配. 由于引入了 MMD 度量, 网络训练过程包括学习网络本身的参数和 MK-MMD 的参数两部分.

受大脑左右半球之间不对称性的启发,Li等[94]提出了双半球域对抗神经网络模型 (Bi- hemispheres Domain Adversarial Neural Network, BiDANN). 该网络将大脑左右半球的 EEG 信号分别映射到易于区分的特征空间中, 从而使数据的特征表示更容易分类. 在预测过程中, 使用一个全局和两个局部域判别器缩小测试数据和训练数据之间的分布差异. 判别器与分类器工作方向相反以鼓励域不变的特征表示出现, 然后从带标签的训练数据上学习到的分类器就可以对无标签测试数据进行分类.

Zhao 等[95, 96]使用顶点加权多模态多任务超图学习 (Vertex-weighted Multi-modal Multi-task Hypergraph Learning, VM2HL) 进行基于生理信号的个性化情绪识别, 并在 ASCERTAIN 数据集上进行了相关实验. 该数据集包含了被试ECG、EEG、GSR、EMO 等生理信号. 文中使用高阶相关模型的超图结构来构建生理信号与人格之间的关系. 考虑到在超图中不同顶点、超边和模式的重要性是不同的, 进一步提出了顶点加权多模式多任务超图学习来构建个性化的情绪识别模型.

Ma等[97]在域对抗网络 (Domain-Adversarial Neural Network, DANN) 的基础上提出了域残差网络(Domain Residual Network, DResNet). 该网络的基本思想是, 给定 k 个域的训练数据, 则模型的特征提取器包含一套共享权值的标签信息参数和 k 套分配给各个域的域偏差参数. 这样的结构类似残差网络的结构. 他们在 SEED 数据集上的实验结果表明, 虽然域残差网络未能达到最高的性能, 但是与基线相比仍然有 25% 以上的准确率提升, 与深度域适应算法的精度处于相近的水平. 域残差网络的优点是它是一个域泛化框架, 在情感模型训练阶段不需要目标域被试的任何信息.

Li 等[98]使用神经网络实现情感计算建模. 模型优化时, 同时最小化分类器误差并增大源域和目标域潜在表示的相似性. 在网络的浅层使用对抗训练来适配边缘分布, 在网络的深层使用协同强化的方式适配条件分布, 从而实现源域和目标域的联合分布自适应.

Song 等[99]提出了一种样本自适应图方法 (In- stance Adaptive Graph, IAG) 用于解决个体差异性, 同时能够表示不同脑电区域之间的动态关系. IAG 采用十分灵活的方式构造图形连接, 以表示由不同输入实例确定的不同图形表示. 为了适应不同的脑电信号模式, 增加了一个分支来表征不同脑电信号通道之间的内在动态关系. 为了给出更精确的图形表示, 设计了多层次、多图的卷积运算和图的粗化. 此外, Song 等还提出了一种稀疏图形表示, 以提取更多的有区分性的特征.

Nath 等[100]对比了跨用户和非跨用户场景下情绪识别的准确性. 非跨用户的情绪识别准确率要大幅高于跨用户的准确率, 说明了用户之间生理信号存在明显的个体差异性. LSTM 在非跨用户场景中取得了最高准确率, 而SVM 在跨用户场景中表现最好.

情感计算常用公开数据集

表 5 总结了常用的情感计算数据集. 其中, SEED 和 DEAP 数据集是目前基于脑电信号的情感计算中使用最为广泛的两个数据集, 下面将详细介绍.

6.1SEED 数据集

SEED (SJTU Emotion EEG Dataset)[20,29]是由上海交通大学吕宝粮教授 2015 年 10 月公开发布的基于 62 导 EEG 信号的情感计算数据集. 目前该数据集包括三个子集: SEED、SEED-IV 和SEED-VIG. SEED 是最早发布的三类情绪数据集, SEED-IV 是四类情绪数据集, 而 SEED-VIG 是一个警觉度估计数据集. 截至 2020 年 8 月, 上述三个数据集已被全球 61 个国家的 770 余所大学和研究机构 (包括哈佛大学、MIT 和剑桥大学等) 的 1,370多个实验室申请使用.

SEED 数据集中共有 15 名被试, 包括 8 名男性和 7 名女性, 平均年龄为 23.27 岁, 年龄的方差为2.37.每名被试共进行 3 次实验, 每两次实验的时间间隔约为一周. 实验所使用的视频由 6 部中文电影剪辑而成, 剪辑之后共有 15 个视频片段, 每个视频片段对应一种情绪状态. 高兴、悲伤和中性等三种情绪状态分别对应 5 个视频片段. 为保证实验获取的 EEG 信号的质量, 视频片段的要求如下:

每个视频片段的时间不能太长, 一次完整的实验约两个小时左右, 以免被试产生疲劳而影响EEG 信号质量.
视频片段的内容不需要额外解释, 受试者就能够理解.
每段视频应诱发一种情感状态, 并且每段视频的时长限制在 4 分钟左右.

SEED 数据集主要由两部分组成. 一部分是获取的被试在实验中的 EEG 信号, 采样频率为1000Hz, 采样时进行了 50Hz 陷波处理以去除工频噪声. 进一步降采样到 200Hz, 并进行 0-75Hz 带通滤波. 另外, 每名被试的眼电信号 (EOG) 和肌电信号 (EMG) 通过额外实验进行记录, 然后从 EEG 信号中剔除对应的 EMG 和 EOG 信号, 以提高 EEG 信号质量. 另一部分数据是对预处理后的EEG 信号进行的特征提取数据, 包括功率谱密度 (PSD)、微分熵 (DE)、微分熵的不对称差 (DASM)、微分熵的不对称商 (RASM) 等多种特征. 同时还通过移动平均和线性动态系统(Linear Dynamic System, LDS) 对特征进行了平滑.

6.2DEAP 数据集

DEAP (Database for Emotion Analysis using Physiological Signals)[121]是由来自伦敦玛丽皇后大学的 Koelstra 等采集并公开的用于情感计算的多模态生理数据库. 被试情绪通过观看音乐视频诱发. 共有 32 名 17-37 岁之间被试参与实验, 平均年龄为26.9 岁, 包括 16 名男性和 16 名女性. 被试观看 40 段长度为 1 分钟的音乐视频, 并填写自我评估量表(Self-Assessment Manikins, SAM). 自我评估量表包含兴奋程度 (Arousal)、效价 (Valance)、喜好程度(Liking) 和支配程度(Dominance) 等信息. 此外, 数据库中还包含了前 22 名被试在观看视频时的面部表情信息.

DEAP 数据集的采样频率为 512 Hz, 也提供了128Hz 降采样后的数据. 数据包含 40 个通道: 32 导EEG 信号, 2 导肌电信号, 2 导眼电信号 (1 导水平眼电信号, 1 导垂直眼电信号), 1 导皮肤电信号, 1 导体温信号, 1 导呼吸信号, 和 1 导血压信号. 采样时间为 63 秒, 其中前 3 秒为静默时间, 后 60 秒为音乐视频诱发时间.

每段音乐视频诱发情绪采集 EEG 信号的流程如下:

实验进度显示, 在显示器上显示接下来将要观看视频的编号信息, 时长 2 秒.
采集正常状态下的 EEG 信号, 时长 5 秒.
播放音乐视频, 每段时长 63 秒, 前 3 秒为静默时间, 之后 60 秒为音乐视频诱发情绪变化时间.
受试者自我评估打分, 完成 SAM 自我评估量表.

SAM 情绪类别评估表中, 在喜好程度上, 用数字 1-9 表示从拇指向下 (不喜欢) 到拇指向上 (喜欢) 的逐渐转变. 效价的变化范围是从不快乐或悲伤到快乐或高兴, 唤醒的变化范围是从平静或无聊到刺激或兴奋, 支配程度的变化范围是从顺从到支配.

总结与展望

本文对近年来基于生理信号尤其是脑电信号的情感计算的研究进展进行了综述. 首先介绍了情感计算的相关理论基础和常用的生理信号类型, 以及离散和连续两种情绪模型. 接着总结了情感计算任务的整体流程, 包括生理信号的采集、预处理、特征提取、特征平滑、特征融合、模型训练与测试等. 然后重点介绍了为解决情感计算任务中个体差异的迁移学习方法, 减少标注数据量的主动学习方法, 以及基于深度学习的生理信号的深层情感表示和多模态生理信号的特征融合等相关算法. 最后介绍了两个在基于脑电信号的情感计算中广泛使用的公开数据集.

基于生理信号的情感计算研究虽然已取得诸多进展, 但是依然存在下列一些需要进一步研究的问题:

情感计算基础理论研究. 目前关于情绪识别的理论基础主要有离散型模型和连续型模型. 二者之间虽然有一定的关联, 但是尚未形成统一的理论框架. 此外, 情感计算中的外显信息 (如高兴、悲伤等情绪类别) 与内隐信息 (如 EEG 信号不同频段对应高兴、悲伤等情绪类别的信号特征) 之间的联系也值得进一步研究. 挖掘出二者之间的联系对于理解生理信号表示的不同情绪状态具有非常重要的作用.
外部诱发情绪与内部诱发情绪之间的差异性问题. 目前公开的用于情感计算的数据集几乎都是采用图像、视频、音频等外部方式诱发情绪变化. 这些都是被动的情绪变化, 与现实场景中个体主动产生的情绪变化之间存在差异, 也可能导致二者的生理信号存在差异. 因此, 如何解决外部诱发情绪变化与内部主动情绪变化之间的差异也是一个值得研究的课题.
生理信号的高质量采集和预处理. 情感计算中使用到EEG、EOG、EMG、HVP、GSR、皮肤温度等多种生理信号, 所需设备繁多, 实验中需要尽量减小信号采集过程中的噪声. 其中脑电信号的采集较为复杂, 并且脑电信号十分容易受到外界因素的干扰, 实验需要耗费一定的时间和精力. 能够高效、高质量地采集脑电信号等生理信号是情感计算任务中的一个重要环节. 对原始生理信号的预处理也非常重要. 有效的预处理可以去除原始生理信号中的噪声, 提高信号质量, 有助于特征提取.
生理信号的特征提取、选择和融合问题. 不同生理信号有不同的特征提取方式. 以脑电信号为例, 其特征有功率谱密度、微分熵、微分熵的不对称差、微分熵的不对称商、离散小波分析、经验模态分解−样本熵 (EMD-SampEn)、统计特征 (均值、方差等) 等. 如何提取合适的特征或融合不同特征等都会对情感计算模型产生重要影响.
个体差异性问题. 由于不同被试个体之间在生理、心理等方面都存在差异, 对于同一个情绪诱发视频, 不同个体所诱发的情绪不一定完全相同. 即使产生相同的情绪, 由于个体间生理上的差异, 所产生的生理信号一般也会存在一定差异. 有效解决个体差异问题, 从个体的角度, 可以构建个性化的情感计算模型. 但由于生理信号的采集和标注会带来较大的成本, 构建泛化能力更好的情绪识别模型是一个相对更经济的解决办法. 提高情感计算模型的泛化能力的一个有效方法是迁移学习[51].
用户隐私问题. 用户个人信息的隐私保护是互联网时代的一个重要伦理道德问题. 情感计算中采集的生理信号属于用户的私人信息, 因此也需要注意隐私保护. 目前这方面的研究才刚刚开始[122, 123].

参考资料：

权学良, 曾志刚, 蒋建华, 张亚倩, 吕宝粮, 伍冬睿. 基于生理信号的情感计算研究综述. 自动化学报, 2021, 47(x): 1−16 doi: 10.16383/j.aas.c200783

本篇文章来自于伍冬睿教授分享在科学网等人在自动化学报上的文章《基于生理信号的情感计算研究综述》，经伍教授授权转载。

不用于商业行为，转载请联系后台

若有侵权，请后台留言，管理员即时删侵！

更多阅读

11张PPT看懂中国脑机接口产业现状

CMU贺斌教授团队提出FAST-IRES技术

学习神经科学，发展人工智能

厦大教授Science发表“仿生纳流离子学”前瞻性论文！

脑电数据的Epoching处理

注意力缺陷障碍可以通过训练大脑来管理