其他
【源头活水】关于talking face generation两篇论文解读
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://zhuanlan.zhihu.com/p/429965015
01
Diffcults:
Robust generation: 模型需要适应不同角度、不同姿态的驱动人脸输入,不同噪声条件下的音频输入,甚至跨语言合成 音视频之间的一致性问题:如何准确地保证唇形、头部姿态、面部表情和语音内容的一致性?语音信号其实很难去映射头部姿态、面部表情等信息 生成的视频的逼真度:1) 视频帧的逼真度(高分辨率、高保真度); 2) 视频序列的逼真度
02
2、DAVS: Talking Face Generation by Adversarially Disentangled Audio-Visual Representation (AAAI 2019)
2.1 Motivation
2.2 Learning Joint Audio-Visual Representation(本质上都是音频信号学习)
2.3 Adversarial Training for Latent Space Disentangling (全文亮点)
2.4 Inference: Arbitary-Subject Talking Face Generation
帧级别重构损失:
序列级别的GAN loss(时序GAN):
2.5 Abalation Study
GAN loss作用:
wid训练中各个loss作用:
Feature disentangle作用:
Results
2.6 小结
3、MakeItTalk: Speaker-Aware Talking-Head Animation (SIGGRAPH 2020)
3.1 Motivation
方法整体框架图如下:(主要分成4个步骤)
3.2 人脸关键点预提取
利用预训练的人脸关键点检测模型提取68个人脸的3d关键点坐标
3.3 音频特征分离
音频特征分离需要用到voice conversion (VC):将一个人的声音变成另外一个人的声音(变声器),该模块需要把音频内容信息和说话者身份信息完全剥离开来。
VC其中的一种训练方式(对抗训练)
本文采用的是另外一种做法,speaker Encoder是使用的预训练好的voice vertification模型,通过重构损失训练content Encoder。
3.4 人脸关键点偏移量学习
3.4.1 基于语音内容的关键点偏移量学习
3.4.2 基于说话人信息的关键点偏移量预测
3.5 关键点到人脸图像生成
Discriminator loss
Generator loss
3.7 小结
03
DAVS作者在CVPR2021上PC-AVS(Pose-Controllable Talking Face Generation by Implicity Modularized Audio-Video Representation)
makeItTalk在训练过成中其实只利用到了音频信息,忽略了训练数据本身的视频信息。通过分离音频信息中的说话者特征去预测姿态相关的关键点偏移量,其实说明了说话者信息可以预测出姿态信息。而结合PC-AVS通过视频源编码姿态向量的方式,将二者结合起来。利用训练数据集本身的视频信息去编码姿态(显示或者隐式),音频信息分离出说话者信息同样编码姿态信息,让二者在训练中对齐。 预测的时候,直接输入音频信息,通过分离的出的说话者身份信息隐含的姿态编码,直接生成speaker-aware的讲话人视频
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
一个具有隐私保护学习的图联邦架构
图上的边信息怎么办:GNNs与edge feature
一行核心代码提升无监督/自监督模型特征表达
车辆意图预测中一种基于因果时间序列的域泛化方法
因果关系检测提高强化学习效率
基于GNN的层次人脸聚类
CLUES:用于NLU的少样本学习评估
全新视觉 Transformer:高分辨率图像复原新SOTA——Restormer
GRI:通用强化模仿学习,用于视觉自动驾驶
UMBRELLA:不确定性-觉察、利用规划的基于模型离线强化学习方法
Devign: 基于GNN的源代码漏洞检测
DriverGym,一个强化学习用于自动驾驶的开源平台
GRASSY | 利用图神经网络和几何散射方法优化分子图的生成
Very Deep VAE
更多源头活水专栏文章,
请点击文章底部“阅读原文”查看
分享、在看,给个三连击呗!