查看原文
其他

独家解读 | ExprGAN:基于强度可控的表情编辑

孙裕道 人工智能前沿讲习 2022-05-21

论文链接:https://arxiv.org/abs/1709.03842
作者:孙裕道

引言

人脸表情编辑是在不影响身份属性的前提下,将给定人脸图像的表情转换为目标图像的表情。它在人脸动画、人机交互、娱乐等领域有着广泛的应用,受到学术界和工业界的广泛关注,人脸表情编辑是一项具有挑战性的任务,因为它需要对输入的人脸图像进行高层次的语义理解。传统的方法要么需要成对的训练数据,要么合成的人脸分辨率低。在现实中,面部表情的强度往往表现在一定范围内。例如,人类可以用一个巨大的笑容或一个温柔的微笑来表达快乐的表情。因此,如果能同时控制表达的类型和强度,这是很有吸引力的。



核心思想

作者在该论文提出了一种表情生成对抗性网络(ExprGAN),用于表情强度可控的照片真实感面部表情编辑。除编解码器网络外,还专门设计了一个表情控制器模块,用于学习表达性强、结构紧凑的表情代码。这种新颖的结构使得表达强度可以从低到高连续调整。ExprGAN可以应用于其他任务,如表情传递、图像检索和数据扩充,以训练改进的人脸表情识别模型。



论文的贡献

本文的贡献可以分为以下四个部分:
  • 作者提出了一种新的模型ExprGAN,它可以将人脸图像转换成具有多种风格的目标表情,并且可以连续控制表情强度。

  • 合成的人脸图像具有较高的感知质量,可以用来提高表情分类器的性能。

  • 身份和表情表示被显式地分离开来,可用于诸如表情传输、图像检索等任务。

  • 本文提出了一种增量训练策略,在相对较小的数据集上训练模型,而不需要对样本进行严格的要求。



FxprGAN模型详解

4.1 FxprGAN网络结构

给定一个表情标签为  的人脸图像  ,目标是编辑人脸使其以不同的强度显示一种新的表情。本文的方法是根据原始图像  和表达式标签  训练ExprGAN,FxerGAN的网络结构如下所示。
ExprGAN首先应用编码器  将图像  映射为保持身份隐特征表示的  。然后,采用一个表情控制器模块  是将one-hot表情标签  转换为一个更具表达力的表情代码  。为了进一步约束  的元素以捕捉表情的各个细节,利用正则化器  最大化  与生成图像之间的条件互信息。最后,解码器  结合  和  的信息生成重构图像  。为了进一步提高生成的图像质量,解码器  使用鉴别器  来细化合成图像  具有照片逼真的纹理。此外,为了更好地捕获人脸流形,在编码器  上使用了一个鉴别器  ,以确保学习到的身份表示被填充。

4.2 表情控制网络  ,  

在以往的条件图像生成方法中,条件变量通常采用二进制的one-hot向量,这足以生成对应于不同类别的图像。然而,需要对合成的面部表情进行更强的控制:除了生成不同类型的表情之外,还想改变表情强度。为了实现这一目标,设计了一个表情控制器模块  ,以确保表情代码  能够描述除类别信息外的表情强度属性。此外,还提出了一个正则化器网络  来增强  的元素,以全面捕捉表情强度的多个层次信息。   为了增强描述能力,  通过以下操作将二进制输入  转换为连续情绪特征  :
其中输入是表情标签  和均匀分布的  ,而输出的表情代码  ,  是类的数目。如果存在  类表情,即  ,  为0和1之间的正向量,而  为  在-1到0之间有负值。因此,在测试中,可以操作  的元素来生成所需的表情类型。这种灵活性大大提高了  在合成不同风格和强度的面部表情时的可控性。

4.3 表情代码Q的正则器

如果表情代码  的每个维度都能学习到表情强度变化的不同因素。通过操纵相应的表情代码来生成具有特定强度级别的人脸。为了加强这个约束,通过使生成的图像  和表情代码  之间的条件互信息  。最大化来施加一个正则化,这确保用  编码的表情类型和强度在解码器生成的图像中得到反映。因此,下界是通过变分推断得到的,如下所示。

为了简单起见,  的分布是固定的,因此  被视为常数。这里辅助分布  被参数化为一个神经网络,因此最终损失函数定义如下:

4.4 生成器 G

生成器网络  采用自动编码器结构,其中编码器  首先将输入图像  转换为隐特征表示,该特征表示尽可能多地保留身份信息。在获得身份代码  和表情代码  之后,解码器  生成与  相似的合成图像  。为此,使用像素级图像重建损失如下所示:
为了保持  和  之间的人脸同一性,利用一个预先训练的深度人脸模型来增强特征空间中的相似性:
其中 ϕ 为人脸识别网络的第  层特征映射,β 为相应的权值。

4.5 判别身份  

为了确保在任意身份表示之间插值生成的人脸图像不会偏离人脸流形,对  施加均匀分布,迫使其均匀填充隐特征空间。这是通过对抗性训练过程实现的,其中训练目标是:


实验结果

5.1 人脸表情编辑

FxprGAN可以对人脸表情图像进行编辑。如下图所示,人脸图像被转换成不同强度等级的新表情。第一行包含具有原始表达式的输入,其余行是合成结果。每列对应一个新表情,从弱到强有五个强度级别。也可以生成训练数据中不存在的中性表情。

5.2 人脸表情迁移

FxprGAN可以对不同人脸的表情进行迁移。如下图所示,中间列中的人脸表情传输到左列中的人脸中,并且结果显示在右列中。

5.3 人脸图像数据增强

FxprGAN可以对人脸进行数据增强,如下图所示,每列显示同一个人的不同的表情。可以看到合成的人脸图像看起来很逼真。此外,由于表情控制器模块的设计,为同一类生成的表情也是多种多样的。比如说开心,有咬紧牙关的大笑和闭着嘴的微微的微笑。


总结交流

本文提出了一种用于表情编辑的FxprGAN模型。这是第一个基于GAN的模型,可以将人脸图像转换成一个新的表情,表情强度可以连续控制。该模型可以明确地学习分离后的身份和表情表示,允许各种各样的应用,包括表情编辑、表情迁移和用于训练改进的表情识别模型的数据扩充。



Reference

[1] Goodfellow, I.; Pouget-Abadie, J.;Mirza, M.; Xu, B.; Warde-Farley, D.; Ozair, S.; Courville, A.; and Bengio, Y .2014. Generative adversarial nets. In NIPS, 2672–2680.
[2] He, X.; Y an, S.; Hu, Y .; Niyogi, P .; and Zhang, H.-J. 2005. Facerecognition using laplacianfaces. IEEE TPAMI 27(3):328–340.
[3] Huang, R.; Zhang, S.; Li, T.; and He, R. 2017. Beyond face rotation: Globaland local perception gan for photorealistic and identity preserving frontalview synthesis. ICCV.
[4] Ioffe, S., and Szegedy, C. 2015. Batch normalization: Accelerating deepnetwork training by reducing internal covariate shift. In ICML, 448–456.




历史文章推荐



你正在看吗?👇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存