【人脸表情识别】不得不读的重要论文推荐（2015-2018篇）

查看原文

其他

【人脸表情识别】不得不读的重要论文推荐（2015-2018篇）

Original Menpinland 有三AI 2021-07-09

收录于话题

#人脸图像

47个

前两篇专栏我们介绍了人脸表情识别的相关概念以及研究现状，并且了解了基于图片的人脸表情识别常用的数据集和预处理方法。接下来两篇专栏，笔者将从近5年基于图片的人脸表情识别的论文中推荐一些个人觉得具有代表性或创新性工作。

作者&编辑 | Menpinland

传统基于图片的人脸表情识别方法在有三AI之前的综述：《人脸表情识别研究》已经有讲解，且近些年大部分工作主要围绕深度学习进行展开，因此本专栏不再对传统方法进行介绍。

1. 分阶段微调方法

最早使用迁移学习（微调）方法进行基于图片的表情识别文章之一。Ng等人[1]的工作就是通过分阶段的微调方法进行对比不同的微调组合以找到效果最好的方法。

推荐指数：✦✦✧✧✧

图1｜[1]中提出的分阶段的微调方法

[1] Ng H W, Nguyen V D, Vonikakis V, et al. Deep learning for emotion recognition on small datasets using transfer learning[C]//Proceedings of the 2015 ACM on international conference on multimodal interaction. 2015: 443-449.

2. 决策级特征融合方法

Kim等人[2]使用不同的网络提取多种深度特征，随后再进行多个级别的决策级融合以实现人脸表情的识别。

推荐指数：✦✦✧✧✧

图2｜[2]中提出的特征融合方法

[2] Kim B K, Lee H, Roh J, et al. Hierarchical committee of deep cnns with exponentially-weighted decision fusion for static facial expression recognition[C]//Proceedings of the 2015 ACM on International Conference on Multimodal Interaction. 2015: 427-434.

3. 手工特征作为网络输入的方法

针对光线变化可能对表情识别造成影响的问题，Levi等人[3]考虑先将原始的RGB图转化为LBP特征，然后再将LBP投影到三维空间转化为神经网络的输入，从而实现表情识别的任务。

推荐指数：✦✦✦✧✧

图3｜[3]将原始RGB图（左）转化为LBP特征（中），再投影到三维的空间（右）作为输入

[3] Levi G, Hassner T. Emotion recognition in the wild via convolutional neural networks and mapped binary patterns[C]//Proceedings of the 2015 ACM on international conference on multimodal interaction. 2015: 503-510.

4. 融合未对齐和对齐人脸的表情状态方法

在现实场景中，拍摄到的人脸图片会存在着（头部）姿态偏转的情况，无法校正/对齐的人脸并不利于直接训练表情识别算法模型。针对此问题，这篇CVPR2016 workshop的文章[4]提出融合未对齐人脸和对齐人脸的表情状态方法（无法对齐的人脸则构建相对应的网络进行估计），可有效提升现实场景中表情识别的准确率。

推荐指数：✦✦✦✧✧

图4｜[4]提出的方法架构

[4] Kim B K, Dong S Y, Roh J, et al. Fusing aligned and non-aligned face information for automatic affect recognition in the wild: a deep learning approach[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2016: 48-57.

5. 模型设计的方法

Zhang等人[5]想要重点解决的问题也是表情识别中存在的人脸姿态问题，不过论文的重点更多是围绕模型设计提出针对性的方法。

推荐指数：✦✦✧✧✧

图5｜[5]提出的模型结构

[5] Zhang T, Zheng W, Cui Z, et al. A deep neural network-driven feature learning method for multi-view facial expression recognition[J]. IEEE Transactions on Multimedia, 2016, 18(12): 2528-2536.

6. 设计更深层的网络结构

简单粗暴，多个Inception module串行连接形成一个较深的网络，随后在所有主流的人脸表情图片数据集中进行了相应的实验，在2016的时候，Mollahosseini等人的论文[6]算是表情识别领域中，实验最丰富的一篇文章。

推荐指数：✦✦✦✧✧

图6｜[6]提出的网络结构

[6] Mollahosseini A, Chan D, Mahoor M H. Going deeper in facial expression recognition using deep neural networks[C]//2016 IEEE Winter conference on applications of computer vision (WACV). IEEE, 2016: 1-10.

7. RAF-DB和Locality-Preserving Loss

CVPR2017的一篇文章，最主要的贡献点有2个：（1）提出了一个大规模的自然状态下基于图片的表情识别数据集RAF-DB，除了有基本的七类基本表情标签外，还提供有十一类复合表情标签（图7）；（2）提出Locality-Preserving loss以减小类内之间的距离，使同类特征在空间上的分布更加紧凑（图8）。

推荐指数：✦✦✦✧✧

图7｜复合表情标签实例

图8｜[7]中提出Locality-Preserving loss实验效果

[7] Li S, Deng W, Du J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2852-2861.

8. 人脸表情识别中引入身份感知的概念

在表情识别中很有可能出现像下图存在的问题，样本转化为同样的特征空间后，相同表情的样本（图9(a)中的I1和I3）之间的距离D2大于不同表情但身份一样的样本（图9(a)中的I1和I2）之间的距离D1。造成这一现象的主要原因在训练过程中学习到了跟身份有关的特征，分类器容易把具有相同身份特征的样本归纳为同一类。因此如果能区分出身份特征跟表情特征，并依据表情特征减小相同表情样本在特征空间之间的距离（即图9(b)的效果），表情识别效果也会大大提升。Meng等人的方法[8]（图10）就是输入样本对到不同的网络中（卷积层权重共享），通过设置两组对比损失函数学习身份特征以及表情特征，多个损失函数加权求和进行训练，验证/测试的时候只需输入到一个网络即可。同年CVPR workshop另一篇文章[9]也是在表情识别中加入身份感知（identity-aware）的概念，整体思路差不多，具体的实现方法有差异。

推荐指数：✦✦✦✧✧

图9｜复合表情标签实例

图10｜[8]中提出的方法示意图

[8] Meng Z, Liu P, Cai J, et al. Identity-aware convolutional neural network for facial expression recognition[C]//2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017). IEEE, 2017: 558-565.

[9] Liu X, Vijaya Kumar B V K, You J, et al. Adaptive deep metric learning for identity-aware facial expression recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017: 20-29.

9. 基于人脸领域先验经验进行微调

Ding等人的工作[10]主要的两个贡献点在于：（1）基于人脸领域的先验经验进行微调（区别于以往都是在ImageNet等大型图像分类进行预训练再微调），后面的研究证明这点确实很有用；（2）提出了分阶段进行微调、训练的方法并应用到人脸表情识别。

推荐指数：✦✦✧✧✧

图11｜[10]中提出分阶段训练法

[10] Ding H, Zhou S K, Chellappa R. Facenet2expnet: Regularizing a deep face recognition net for expression recognition[C]//2017 12th IEEE international conference on automatic face & gesture recognition (FG 2017). IEEE, 2017: 118-126.

10. Island Loss

Cai等人的文章[11]旨在通过优化损失函数来提升分类的准确率，文中提出的Island Loss是Center Loss的一个进阶版。图12(a)表示的是只使用交叉熵作为损失函数的分类结果；图12(b)是交叉熵+Center Loss作为损失函数的分类结果，Center Loss的作用就是在特征空间中每个类别寻找到一个中心，然后减少同类别样本与对应类别中心的距离；图12(c)是交叉熵+Isand Loss作为损失函数的分类结果，Island Loss除了减少类内之间的距离，通过增大中心之间的距离来增大类间差距。

推荐指数：✦✦✦✧✧

图12｜三种损失函数的对比

[11] Cai J, Meng Z, Khan A S, et al. Island loss for learning discriminative features in facial expression recognition[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018: 302-309.

11. 获取人脸表情中的表情成分进行训练

Yang等人[12]发表在2018年CVPR的文章。文章将人脸表情理解为中立人脸成分跟表情成分的组合，因此先利用GAN基于原始人脸表情图片生成相对应的中立人脸，再利用残余表情成分进行表情的识别。这种方法最大的优势就是仅利用单张图片就可以减少人脸表情识别中身份相同但表情不同的人被误分为同一类（身份相同可能很多特征很相似）。

推荐指数：✦✦✦✦✧

图13｜[12]中提出的方法示意图

[12] Yang H, Ciftci U, Yin L. Facial expression recognition by de-expression residue learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2168-2177.

12. 解决人脸表情数据集标注不一致问题

一般的图像分类任务，其标注往往具有客观依据，如是否是同一样物体（物体识别）或者是否为同一个人（人脸识别）。但在人脸表情识别中，表情的标签很可能受到标注者主观性的影响。如下图14(a)中左边相似的两组表情，两个不同的数据集提供的标注不太一样，从而导致基于不同数据集训练出来的模型在识别右边未标注的其他数据，识别结果也不太一样，图14(b)则是通过数据展示了上述的差异。针对不同数据集标签不一致问题，Zeng等人[13]提出了从不一致标签中挖掘出潜在真实标签的框架，框架主要分三步（图15）：（1）基于数据集A(B)训练出模型A(B)；（2）用模型A(B)预测数据集B(A)生成伪标签，以及用模型A和B在一个无标签数据集上进行预测；（3）将所有的数据以及他们对应的两个标签共同放到一个网络进行训练生成潜在的真实标签（这一步是整个框架的核心，由于涉及到较多的公式推理，不详细展开，感兴趣的小伙伴可结合代码做深入理解）。

推荐指数：✦✦✦✦✦

代码：https://github.com/dualplus/LTNet

图14｜不同数据集标注不一样，导致实验结果也不太一样

图15｜[13]中提出的方法示意图

[13] Zeng J, Shan S, Chen X. Facial expression recognition with inconsistently annotated datasets[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 222-237.

13. 解决人脸表情识别头部姿态偏转问题

在自然状态下，人脸出现头部姿态偏转是一件很正常的现象。但在人脸表情识别任务中，算法很难辨别人脸是否发生姿态的偏转，因此很难用统一的模式去识别相同的表情（如果人脸发生偏转的话）。与此同时，不同偏转角度也会对表情的识别造成不同程度的影响，当前的数据集并没有足够的人脸偏转数据让训练模型理解人脸偏转的表情。针对上述问题，Zhang等人[14]利用GAN对每个样本生成不同人脸偏转角度的新样本，通过增加不同偏转角度人脸的数量实现数据增强，再进行训练（参考图16）。同年在国际自动人脸和手势识别会议（IEEE International Conference on Automatic Face & Gesture Recognition）上，也有另外一篇针对人脸姿态偏转的文章[15]，该文章提出一个多任务网络，在利用GAN生成的同时正面人脸的同时能利用姿态特征识别具体的表情（如图17）。

推荐指数：✦✦✦✧✧

代码：https://github.com/FFZhang1231/Facial-expression-recognition

图16｜[14]中提出的方法示意图

图17｜[15]中提出的方法示意图

[14] Zhang F, Zhang T, Mao Q, et al. Joint pose and expression modeling for facial expression recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3359-3368.

[15] Lai Y H, Lai S H. Emotion-preserving representation learning via generative adversarial network for multi-view facial expression recognition[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018: 263-270.

总结

2015年左右，基于图片的人脸表情识别这个领域也开始由大部分传统方法完成任务转向使用深度学习方法，所以早期的工作更多是改改模型或者简单的迁移；但随着这个领域的发展，可以看到，到2018年，研究的方法也越来越有针对性以及变得更加复杂。下一篇专栏我们将分享2019-2020的一些创造性或代表性工作。

有三AI知识星球

知识星球是有三AI的付费内容社区，里面包括各领域的模型学习，数据集下载，公众号的付费图文原稿，技术总结PPT和视频，知识问答，书籍下载，项目推荐，线下活动等资源，了解详细请阅读以下文章：

【杂谈】有三AI知识星球一周年了！为什么公众号+星球才是完整的？

【杂谈】万万没想到，有三还有个保密的‘朋友圈’，那里面都在弄啥！

有三AI秋季划-人脸图像组

人脸图像小组需要掌握与人脸相关的内容，学习的东西包括8大方向：人脸检测，人脸关键点检测，人脸识别，人脸属性分析，人脸美颜，人脸编辑与风格化，三维人脸重建。了解详细请阅读以下文章：

【CV秋季划】人脸算法那么多，如何循序渐进地学习好？

转载文章请后台联系

侵权必究

往期精选

反向激励，在加速这个社会的黑化

Wealth | 中国成本轮金价涨势的前沿和中心

“Green & IntelligentManufacturing” Chinese Bridge Online Program

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！