佳文选读|基于图像分割网络的深度假脸视频篡改检测

胡永健、高逸飞等电子与信息学报 2022-07-02

基于图像分割网络的深度假脸视频篡改检测

来源：《电子与信息学报》/第43卷第1期

摘要

随着深度学习技术的快速发展，利用深度神经网络模型伪造出的深度假脸(deepfake)视频越来越逼真，假脸视频造成的威胁也越来越大。文献中已出现一些基于卷积神经网络的换脸视频检测算法，他们在库内获得较好的检测效果，但跨库检测性能急剧下降，存在泛化能力不足的问题。

该文从假脸篡改的机制出发，将视频换脸视为特殊的拼接篡改问题，利用流行的神经分割网络首先预测篡改区域，得到预测掩膜概率图，去噪并二值化，然后根据换脸主要发生在人脸区域的前提，提出一种计算人脸交并比的新方法，并进一步根据换脸处理的先验知识改进人脸交并比的计算，将其作为篡改检测的分类准则。所提出方法分别在3个不同的基础分割网络上实现，并在TIMIT, FaceForensics++, FFW数据库上进行了实验，与文献中流行的同类方法相比，在保持库内检测的高准确率同时，跨库检测的平均错误率显著下降。在近期发布的合成质量较高的DFD数据库上也获得了很好的检测性能，充分证明了所提出方法的有效性和通用性。

关键词

1假脸视频

根据所使用的特征，现有的假脸视频检测技术大致分为3大类：基于传统手工特征、基于生物特征和基于神经网络提取特征。第1类方法主要借鉴了图像取证思想，对单帧图像进行分析，典型做法包括使用图像质量测度和主成分分析以及使用局部二值模式(Local Binary Pattern, LBP)特征。第2类方法主要利用了人脸特有的生物信息。第3类方法主要通过构建卷积神经网络对人脸进行学习，提取较高维度的语义特征进行分类。

2图像分割网络

分割网络首先借助诸如VGG-16的分类网络作为骨架网络提取特征，然后利用跨层架构将来自浅且精细网络层的表象信息与来自深且粗糙网络层的语义信息相结合，即表征图像内部结构差异的低水平特征和表征边缘不连续的深层特征相结合，逐像素地对图像进行来源判断，最终输出值在0–1之间的篡改区域预测掩膜概率图，其尺寸与输入图像大小一致。

3人脸交并比

在传统的分割问题中，交并比是以真实篡改区域为基准(即参考信号)，衡量预测区域的准确性。人脸篡改大部分都在视频人脸区域，该文借此构建信任机制。对落在人脸区域外的预测篡改像素进行惩罚，降低人脸交并比。

4信任机制

该文针对常识：篡改人脸一定集中在人脸区域。所以预测篡改像素落到了人脸之外就不合适了，该文对此进行了约束，根据人脸交并比惩罚落在人脸之外的预测像素以获得更好的性能。

5泛化能力

该文直接从图像像素出发，认为假脸篡改是一种特殊的拼接篡改问题，根据换脸主要对部分人脸区域进行操作而未修改其他图像内容的事实，提出了利用预测篡改区域和人脸框的交并比作为是否发生换脸的依据进行检测的方法。提高了泛化能力。

算法介绍

1利用深度分割网络得到篡改区域的预测掩模概率图

该文将换脸篡改认为是一种特殊的拼接篡改问题，借助像素级的精确标签让神经网络按纹理差异区分真假脸像素点，从而将来源不同的两种图像分割成两类不同的图像区域。分割网络首先借助诸如VGG-16的分类网络作为骨架网络提取特征，然后利用跨层架构将来自浅且精细网络层的表象信息与来自深且粗糙网络层的语义信息相结合，即表征图像内部结构差异的低水平特征和表征边缘不连续的深层特征相结合，逐像素地对图像进行来源判断，最终输出值在0–1之间的篡改区域预测掩膜概率图，其尺寸与输入图像大小一致。

2去噪与二值化处理获得预测的篡改区域

为了获得准确的预测掩膜概率图，便于机器自动计算篡改面积，本文利用传统的图像去噪方法对概率图去噪，利用邻域信息抑制孤立噪声点，得到去噪后的预测掩膜概率图。本文将二值化处理和篡改判断相结合，提出一种等错误率最小时获取最优二值化门限的方法。设所得到的二值化阈值为T1，当预测概率大于T1时置为1(即篡改)，否则置为0(即未篡改)。公式如下：

3人脸交并比Face-IoU的提出

(a)、(b)和(c)分别展示包含人脸框的待检测区域示例图、对应的实际篡改区域示例图和对应的预测篡改区域示例图，图1(d)是一张广义的示意图。其中黑色方框为整体待检测区域；绿色方框代表人脸框，记为S1；蓝色线条包围的区域为预测篡改区域，记为S2；红色线条包围的区域为实际或称真实的篡改区域，记为S3。

考虑到换脸篡改的前提是图像中存在人脸区域S1，若不存在S1就不会存在及其预测。因此，将作为参考信号无论对篡改图像还是未篡改图像均合理，在盲检测中能够提供有效的计算。据此，该文直接将人脸区域替代得到Face-IoU计算式为

去噪滤波器的选取和惩罚因子p的确定

1利用深度分割网络得到篡改区域的预测掩模概率图

二值化预测掩膜上每一点处的{0,1}值都会影响交并比的计算，因此，必须对预测掩膜概率图进行去噪预处理，排除噪声点引起的交并比计算误差。下表列出未滤波和分别采用均值、中值以及高斯滤波这4种情形下检测模型的平均错误率。滤波器核的大小分别为3×3和5×5。

2信任机制中惩罚因子p的选取

本文信任机制是由式(3)分母中的惩罚项来体现，惩罚强度会直接影响分类的性能。本小节将惩罚因子分别设置为0(无惩罚)，0.5, 1.0和1.5进行实验，结果如下表所示：

结果分析

上图进一步给出基于FCN-8s分割网络模型FaceForensics++数据库上检测结果示例图。第1行为针对换脸视频的检测结果，从左到右依次为：假脸视频帧，输入图像的正确热力图，通过FaceForensics++库训练模型后得到的预测热力图(即库内检测热力图)，通过TIMIT训练模型后得到的预测热力图(即跨库检测热力图)。

可以看到，本文算法无论在库内还是库外都能够较精确地检测出输入图像的篡改区域。第2行为针对真实为篡改视频的检测结果，从左到右分别为：真脸视频帧，输入图像的正确热力图，通过FaceForensics++库训练模型后得到的库内检测热力图，通过TIMIT训练模型后得到的跨库检测热力图。

上图显示，该文算法无论在库内还是库外都能正确判断输入图像中的篡改区域，证明该算法的有效性。尤其在假脸图像中，能够有效区分篡改区域和真实区域，通过像素级的精确标签让网络学习到纹理像素点之间的差异而降低对内容信息的依赖，进而降低了在单一数据库上训练造成的过拟合现象，提升了跨库测试的性能。

作者简介

胡永健：男，1962年出生，华南理工大学电子与信息学院教授、博士生导师。研究方向为数字图像处理及其应用。

高逸飞：男，华南理工大学电子与信息学院。研究方向为数字图像处理。

刘琲贝：女，1980年生，华南理工大学电信学院，现任讲师。研究方向为信号检测、多媒体处理技术。

廖广军：男，华南理工大学模式识别与智能系统方向硕士。主要在刑事技术领域展开科研及教学工作。

本文系《电子与信息学报》独家稿件

内容仅供学习交流

版权属于原作者

欢迎大家关注转发！

END