查看原文
其他

腾讯优图ACM MM2021 | 视频DeepFake检测新范式:学习空间与时间不一致性

来源:腾讯优图实验室

近年来,“AI 变脸”特效风靡全球,近期爆红的 “蚂蚁呀嘿” 再次掀起体验和讨论的热潮,这种源自人工智能人脸生成的新技术,能够利用深度学习技术识别并替换图片或视频中的原始人像,不仅制作过程逐渐简单化,而且逼真度惊人,几乎能达到以假乱真的效果。


Deepfake作为一项技术工具,有着广泛的应用空间。语音合成能让计算机用人类的声音说出上百种语言,视频合成能让《速度与激情》里的 Paul Walker 复生,但若被滥用,也将带来巨大的风险,给身份识别和社会信任带来挑战,虚假视觉信息的应用与传播还会给人们造成隐私安全等多方面的困扰。


图像来源:

https://github.com/iperov/DeepFaceLive


随着DeepFake等人脸生成技术的发展,伪造的人脸越来越逼真,有些甚至达到人眼也难以区分真假的地步。对此,腾讯优图实验室提出了一种全新的鉴伪方法,该方法同时从时间和空间不一致性入手, 对视频人脸伪造进行鉴别,这将有助于鉴别社交网络上传播的虚假视频,守护人脸安全。目前,该方法在四个学术基准数据集上均取得领先结果,相关论文已被多媒体领域会议ACM MM 2021收录。


 

论文下载地址:

https://arxiv.org/pdf/2109.01860.pdf



01

背景分析


当人脸编辑方法无法对某一帧进行逼真地编辑时,该帧会出现一些脸部特征不自然的情况,我们称之为空间不一致性(Spatial Inconsistency, 如下左图中, 伪造人脸的侧脸面颊和五官等处出现了明显的瑕疵和伪影。此外,由于伪造方法通常是逐帧编辑的,没有充分考虑到帧与帧之间的连续性,伪造视频播放时往往能观察到面部区域细微的不自然震荡现象, 我们称之为时序不一致性(Temporal Inconsistency)


为了更直观地展示这一震荡现象, 如下右图所示, 我们将视频中每帧图像在固定横坐标位置切片后按时间顺序堆叠起来, 并对比展示真人人脸(左)和伪造人脸(右)的这一堆叠图像, 可以发现真实人脸整体运动比较平滑, 而伪造人脸上出现了明显的毛刺。我们认为这两种不一致性对视频人脸鉴伪均起着重要作用。为此,我们提出了视频DeepFake检测新范式STIL

(Spatiotemporal Inconsistency Learning)该范式在网络学习的过程中同时抓取空间以及时间的不一致性。


空间不一致性

时序不一致性



02

模型框架


特别地,我们将视频DeepFake检测问题定义为空间与时间不一致性学习过程并设计了相应的STIL单元插入ResNet网络中。STIL单元将输入特征按照通道均分,分别抓取空间与时序不一致性信息,并探究其互补关系。具体模型架构如下图所示:



STIL单元主要包括三个关键部分:空间不一致性模块(SIM),时间不一致性模块(TIM),信息补充模块(ISM)。


01

空间不一致性模块: 该模块重点关注空间上的伪造痕迹,采用具有残差结构的注意力机制,通过对每一帧进行水平方向卷积( K₁,卷积尺寸为1x3)与竖直方向卷积( K₂,卷积尺寸为3x1)来提取不一致性信息(S),从而对伪造区域进行强调:

02

时间不一致性模块: 该模块重点关注时序运动中的伪造痕迹,分别从水平和竖直两个方向对时序不一致性进行建模。首先将输入特征的空间维度沿着时间维度进行reshape操作,然后在水平以及竖直方向沿着时间维度进行相减来刻画时序运动信息,并使用残差网络结构对该差值特征进一步提取不一致性特征。最后将两个方向的注意力(VTIE和HTIE)权值相加作为最终的强调部分:

03

信息补充模块:该模块使用类似SENet的结构来促进空间不一致和时序不一致信息间的信息交互。通过消融实验,我们最终选择在时序不一致分支中引入空间不一致分支的信息,最终网络使用加性融合并进行卷积来结合时空不一致信息:



03

实验结果


为充分体现STIL方法的有效性,我们选取人脸伪造检测的最新方法以及时序建模常采用的方法进行对比,在FF++,Celeb-DF,Wild-DF以及DFDC数据集上测试,STIL方法在绝大多数设置下都达到了SOTA性能。结果如下表所示。




进一步我们也对模型进行了泛化性测试。相较于之前的SOTA方法,STIL在跨数据集测试中也展现了较大的泛化性能提升。




04

可视化展示


基于Grad-CAM可视化方法,我们将模型对于不同人脸编辑方法DeepFake,Face2Face,FaceSwap,

NeuralTextures的关注区域进行可视化。由下图可见,STIL能够较好地关注到不同编辑方式的伪造区域。



同时我们将STIL中各个模块的输出进行了可视化。由下图可见,SIM关注到了较大的空间伪造区域,TIM关注到了较小的时间不一致性区域,ISM通过促进信息交互引导模型关注到了更整体更全面的编辑区域。



技术在不断进步,只有“用 AI 对抗 AI”,才能让技术的安全应用走得更远。腾讯优图实验室始终秉承科技向善的使命,持续在人脸安全领域深耕,在算法研究层面持续打磨,同时通过腾讯云输出相关技术服务,从而防止 Deepfake 的恶意滥用,进一步守护人脸安全。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存