AI被滥用，如之奈何？

Original 天枢实验室绿盟科技研究通讯 2021-03-12

近日，一款名为ZAO的APP火爆网络。ZAO的出现使得合成虚假视频的技术门槛降低了很多。AI被滥用已经无法避免。那么，我们该如何应对？

近日，一款名为ZAO的APP火爆网络。2019年8月31日，这款APP突然爆红。至当天上午九点，与其相关的话题已经进入微博热搜前10位。同时，这款APP的下载量也猛增，在iOS商店的下载量攀升至娱乐类APP的第二位。那么，这个ZAO究竟为何物？

一、ZAO为何物？

“仅需一张照片，出演天下好戏。使用顶尖AI技术的换脸神器，仅需一张正脸照，让你体验史上最潮的新奇玩法！让你发现更多面更有趣的自己！”——ZAO的官方宣传文字

ZAO是一款基于人工智能技术（AI）的脸部替换APP。用户无需会使用各种视频编辑软件，只需上传一张正脸照片，就可以利用后台的AI功能将目标短视频中的演员的脸替换为自己的脸，然后分享到朋友圈。即利用AI功能“ZAO（造）”出来一段视频，然后号称“和自己的偶像同框”，“过足戏瘾”。

也就是说，ZAO是利用AI强大的图像处理能力合成视频的一款APP。而AI合成视频并非一项全新的技术。早在2018年初，一款叫做DeepFake的基于深度学习的图像换脸软件被公布。DeepFake采用编码器和生成式对抗网络（generative adversary networks, GAN）技术，通过对目标人脸图像进行学习，然后利用学习好的模型替换给定视频中的人物脸部，制造出逼真的换脸视频。ZAO背后的技术是否为DeepFake我们暂且不去讨论。

但是可以肯定的说，ZAO的出现将这类技术的实际应用进程推进了一大步，但同时也把这类技术的风险提升到了一个更高的层次。过去，虽然DeepFake可以生成极其逼真的换脸视频，但是其门槛相对较高。用户需要对AI技术有一定了解，同时还需要足够的计算能力（包括CPU，GPU等）才能够将视频中的人物面部替换。而ZAO的出现表明，通过大公司的支持，该技术的门槛急剧降低。用户需要做的事情只是上传一张照片，然后等待5-10秒的时间。显然，该技术的发展给当前的人脸识别系统，视频监控系统带来了巨大的威胁，同时也使伪造虚假视频，例如假新闻等变得更加容易。因此，针对虚假视频的检测方法的研究变得越来越重要。

二、如何鉴别“ZAO”出来的图像？

目前已经有很多针对虚假视频检测的研究。总体来说，检测方案包括基于多次图像压缩的方法，基于图像噪声的检测方法，基于深度学习技术的检测方法。

1 基于多次图像压缩的检测方法

该方法最初应用于对伪造的JPEG图像进行检测。JPEG图像采用有损压缩的方法进行存储，其压缩存储的流程如下：

在以上步骤中，对DCT系数进行量化的过程是有损的，会引起图像的失真，其失真程度取决于所选择的质量因子。如果一幅JPEG图像经过了多次不同质量因子的压缩，其生成的最终的图像会含有之前多次压缩的痕迹。通过对压缩痕迹的检测，可以判断一幅图像是否被篡改。实际上，该方法不仅可以对伪造的JPEG图像进行检测，也可以对大部分伪造的视频进行检测，只需要将视频中的每一帧转化为一幅JPEG图像，然后针对JPEG图像进行检测。

2 基于图像噪声的检测方法

任何摄像机拍摄的图像（包括图片和视频）中都包含有噪声信号。噪声信号由多种因素导致，包括传感器热噪声，信号读取噪声，传感器公差引起的噪声等。对于摄像机生成的原生图像来说，一些种类的噪声是随机分布的。如果采用深度学习技术或者其他例如Photoshop等编辑软件对图像进行编辑与修改，则会破坏噪声的随机性，使得噪声的分布发生变化。因此对图像进行滤波，并对得到的噪声信号进行分析，可以检测图像是否被篡改。

以上两种方法都可以检测图像是否是摄像机生成的原生图像。但是其局限性在于这两种方法只能检测图像是否被篡改，而不能给出是否是经过AI算法生成的换脸图像。例如采用Photoshop对一幅人像照片进行多次编辑，但是不替换图像中人物的面部，那么该图像经过上述两种方法的检测以后都会被判断为虚假图像，尽管该图像中的人物面部仍然真实。因此，基于多次压缩的检测方法和基于图像噪声的检测方法的输出结果是判断图像是否为AI生成的换脸图像的必要条件，而非充分条件。

3 基于深度学习技术的检测方法

采用AI技术可以生成虚假视频，那么研究人员自然会想到采用AI技术来检测这种虚假的换脸视频，即根据图像中的特征，训练一个新的深度神经网络模型，用该模型来检测图像的真伪。目前主要采用的检测特征如下：

01 眨眼检测

采用DeepFake等深度学习技术生成伪造视频的过程中需要用大量的图像对模型进行训练。由于很多的训练集中缺乏人物眨眼和闭眼的训练数据，导致用训练好的模型生成的伪造视频中人物没有眨眼行为，或者眨眼行为非常不自然。采用深度学习模型对正常视频和伪造视频中的眨眼频率和眨眼时间等特征进行学习，用训练好的模型就可以检测视频是否真实。但是通过在DeepFake的训练集中加入更多的眨眼图像，可以有效提高生成图像中眨眼动作的质量。这使得基于眨眼特征的检测方法的准确率逐渐下降。

02 色彩特征

对于采用GAN生成的视频，由于神经网络内部参数的归一化，同时神经网络对红，绿，蓝三通道彩色图像处理的过程中使用的权值与数码摄影机使用的权值差距较大，导致GAN模型最终生成的图像与数码摄影机拍摄的图像的色彩之间存在差别。采用神经网络模型对这些差别进行特征提取，再使用分类模型来判断图像的真实性。这种检测方法同样可以通过在DeepFake的训练集中加入更多的对抗样本来被绕过。

03 仿射变换特征

由于DeepFake生成的图像的分辨率的限制，在合成图像的过程中，需要对生成的图像进行仿射变换以匹配目标图像中的相关区域。因此在合成以后的图像中会存在仿射变换的痕迹。这些痕迹可以被深度神经网络捕捉到。与前面的方法相比，该方法的训练集不需要DeepFake生成的伪造视频，只需要正常图像和经过仿射变换的图像，因此检测模型训练集的获取较容易。

04 其他特征

除了以上几个特征，还可以通过提取图像的轮廓，灰度，纹理，五官位置等特征，根据特征采用深度学习模型进行判断与分类。

基于深度学习模型的伪造图像的检测方法可以准确地识别图像中的人物面部是否被替换。但是这类方法的局限在于其检测效果严重依赖算法的训练集。如果检测模型的训练集中缺少特定的被换脸人物的训练数据，那么针对该人物的换脸检测的准确率也会降低。同时，通过在DeepFake的训练集中加入足够多的伪造图像的样本，可以有效的规避这类检测方法。

三、总结

以上主要的检测技术的特点如下表所示。

检测方法	基于多次压缩的方法	基于噪声的方法	深度学习方法
是否需要训练集	否	否	是
是否容易被规避	否	否	是
是否可以检测特定人物脸部的真实性	否	否	是

通过以上分析可知，目前针对图像中人物的换脸检测还没有一套完美的解决方案。已有的方案都是针对特定场景或者特定人物才能够达到较好的效果。正如前文所说，ZAO的出现显著降低了对图像中人物换脸的技术门槛，但是相应的检测技术并没有实质的提高。可以说，当前“攻击者”已经领先于“防御者”了。为了减少这些虚假视频带来的不利影响，除了需要出台相应的法律规范以外，针对虚假视频的检测技术也需要提升。在这场AI的博弈中，只有攻守双方达到均衡，AI技术才能真正的发挥积极作用。

内容编辑：天枢实验室吴子建责任编辑：肖晴

往期回顾

本公众号原创文章仅代表作者观点，不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权，严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用，转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新中心负责运营，绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一，与清华大学进行博士后联合培养，科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向，从实践出发，结合公司资源和先进技术，实现概念级的原型系统，进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码，即可关注我

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

瘦皇被指“爱C女主播”！破防诅咒“小SS父母”：煤气厂爆炸！鱼皇下场开喷！

斗鱼老板已经“Q保H审”？多家知名媒体爆料！律师预计进去五到七年！