鉴别真假,Face X-Ray技术给换脸图像“照X光”
俗话说“耳听为虚,眼见为实”,如今在人工智能技术的影响下,“眼见也不一定为实”。在近日热播的英剧《真相捕捉(The Capture)》中,各种视频里的人都可以被换脸,即使是实时的监控录像也能被篡改,只要拥有一个人的声音或面部图像数据,就可以制造假视频作为假证据。虽然剧中的故事只是虚拟的剧情,但细思极恐,人工智能技术的突飞猛进,让人们意识到我们必须警惕伴随 AI 技术发展而产生的 AI 技术被滥用的问题。
《真相捕捉》里的场景从技术角度看并非遥不可及,此前 DeepFake 事件已经给了人们一次提醒,人类必须正确地掌控 AI 技术,而这将关系到整个人类社会的未来。微软总裁 Brad Smith 也在其新书《工具,还是武器?》中呼吁大家直面这些人类科技最紧迫的争议性问题。微软亚洲研究院计算机视觉组一直试图从技术角度去鉴别人脸图像、视频的真假,Face X-Ray 便是微软亚洲研究院在这一领域的最新突破。该技术的相关论文已被 CVPR 2020 收录。
Face X-Ray:可解释、且可信赖
Face X-Ray, 顾名思义就是要给人脸图像、视频做“X 光检测”,因为如果是被替换过的人脸图像,那么一定会留下痕迹,被 X-Ray “照”过之后,便会露出狐狸尾巴。微软亚洲研究院常务副院长郭百宁表示,“X-Ray 最大的突破在于:无论换脸图像是采用已知还是未知的换脸算法,它都可以有较高的识别率,平均达到95%以上;而且还能告诉你为什么,这个方法在某种程度上解决了 AI 模型的传统‘黑盒’问题,可解释、且可信赖。”
此前业内的主流换脸鉴别算法,包括微软亚洲研究院提出的上一代算法,都是训练 AI 分类器,让 AI 模型去“学习”大量的换脸图像,从而具有初步的鉴别能力。但这类算法的局限在于,只有换脸图像采用的是已知换脸算法,如 DeepFake、FaceSwap、Face2Face 等生成,鉴别才有可能达到较高的识别率(99%以上),因为 AI 模型就是通过大量学习这些算法生成的人脸图像去提升识别能力的;一旦换脸图像采用了未知算法,其鉴别的识别率会大幅降低至70%。在实际的生活中,我们看到一张换脸图像或视频时,显然未必知道它是否一定由已知算法合成,可见,此前主流的换脸鉴别算法不具备通用性。
对此,微软亚洲研究院视觉计算组的研究员另辟蹊径,在 Face X-Ray 中通过一种全新的方式去判断一张人脸图像是否被更换过。简单来说就是,图像只要被换过的脸,一定会存在一个换脸的边界,而 Face X-Ray 可以检测并画出这个边界,就像照 X 光一样,让这个边界清晰可见(如下图所示)。
算法预测出的融合边界。BI 表示人工合成人脸。DF、F2F、FS、NT 分别表示 DeepFakes、Face2Face、FaceSwap、NeuralTextures 算法生成的人脸。
或许有人会问,如果这个人脸乃至整个头部、身体都是用算法生成的话可以被检测出来么?研究员们表示,现阶段的生成技术还达不到这样的水平,也许可以单独生成一张世界上并不存在的脸,但这张脸的生成还是要借助真实照片里的其他头部和身体信息,因此一定会有换脸时候“切割”的痕迹。
由于 Face X-Ray 不是通过“学习”大量换脸图像去提高识别率的,所以该方法不必在乎换脸图像采用的是何种换脸算法,因此,Face X-Ray 更加具有普适性和通用性。而且它还能标出换脸的边界在哪里,不再像以往的算法那样,是个只显示识别结果,却无法说出为什么的“黑盒”。
传统的 AI 换脸一般分三步走:第一步检测目标图像的面部区域;第二步,利用 AI 换脸算法生成新的面部及一部分周围区域;第三步,将生成的新面部融合到原图像中,替换原图像中的面部。
此前的换脸鉴别方法主要从第二步入手,通过检测换脸过程中产生的瑕疵,确定图像的真伪。但是,这一瑕疵并不唯一确定,不同的换脸算法合成时造成的瑕疵大相径庭,因此针对一种换脸算法进行训练后,难以应用于另外一种算法上,这就是已有换脸鉴别算法不具通用性的原因。
而微软亚洲研究院的 Face X-Ray 换脸鉴别算法,主要针对换脸算法的第三步:图像融合过程。换脸的图像必然是至少两张图像叠加而成,而且可以确定合成图像的中间面部是来源于一张图像,面部周围来源于另外一张图像;研究员们还发现,每一张图像都有一个来自于硬件或软件的特殊噪声标记,这些噪声就像指纹一样,每个都是独一无二的。因此,Face X-Ray 通过确定图像是否包含两种不同的噪声,就能判定一张人脸图像为合成图像的机率。
(a)行是真实图像,(b)行是合成图像,中间一列为噪声分析,右侧一列是误差水平分析
除此之外,Face X-Ray 的训练数据也不依赖特定的换脸技术所生成的图像,它可以直接采用普通的人脸照片进行训练,因此它在模型的训练上也更容易、更通用。
Face X-Ray 的可解释性
用 Face X-Ray 来鉴别合成图像,就像人体照 X 光片一样。透过 X 光片我们能够清晰地看到骨头是否有异常,同样透过 Face X-Ray,即使再天衣无缝的合成图像,也能看到合成的痕迹所在。
Face X-Ray 明确指出合成图像的合成边界,让普通人也可以更加容易地理解这一方法的鉴别过程,同时,也将 AI 技术的可解释性又向前推进了一步。
对未知换脸算法,检测精度高达95%以上
Face X-Ray 鉴别算法依然基于 FaceForensics 数据集进行了测试,但采用了与之前的换脸鉴别算法不同的方式。FaceForensics 数据集中所包含的图像数据分别由四种换脸算法所合成,此前的换脸鉴别算法均采用四种换脸算法生成的人脸图像进行分别训练,最后在 FaceForensics 数据集上的测试,可达到99%以上的精准度。
而 Face X-Ray 只在其中一种算法(例如 DeepFakes)合成的图像上训练,然后再在另外三种数据上测试,测试结果都可以达到95%以上的识别率。这在“通用”换脸鉴别算法中,无疑是一大创新突破。
测试结果表明,Face X-Ray 的识别率均达到95%以上
包括换脸在内的安全问题,将是一场长期的战斗
《工具,还是武器?》一书说到,即使是最好的科技,也可能带来意想不到的后果;人类需要认真观察后视镜,以便能够利用过去的经验,去预测转弯之处的问题。书中还强调,人工智能的道德问题将不可避免地从一般性讨论转变为具体议题。而现阶段,换脸图像便是具体议题之一,与此同时,文字、语音、视频的虚构、嫁接问题也会接踵而至。
从技术上看,文字、声音属于一维信号,图像属于二维信号,视频则是三维信号,维度越高,识别难度就越大,因此图像的鉴别是一个攻坚课题,如果它有所突破,便意味着鉴别技术的整体进步。Face X-Ray 的通用性和可解释性的提升,也让换脸图像的鉴别距离真正的应用越来越近。
郭百宁表示,在研究换脸图像/视频鉴别的同时,微软亚洲研究院也在研究真假语音的鉴别。对微软亚洲研究院来说,这只是一个开始。本质上这些都属于安全问题,就像 PC、互联网时代的病毒和杀毒软件一样,实际上是一场猫与鼠之间的较量,而这也将是计算机科学领域科研人员的一场长期战斗!
你也许还想看: