南开“大创”项目：智能合成音视频的方法及对法律、证据法的冲击（附技术专家点评）

中外刑事法学研究司法兰亭会 2022-10-02

司法兰亭会六周年特别推送

电子数据，人工智能，量子计算，大数据，区块链，网络安全，信息权利；法医、物证、生化、DNA等鉴定科学；心理学、经济学、管理学、统计学、侦查学等对刑事程序的分析；公检法管理；证据法新进展；辩护研究、辩护方法。

（感谢太原理工大学文法学院教师、盈科太原所刑事重案部首席专家郭恒博士为司法兰亭会六周年题篆）

作者：南开大学、天津市大学生创新项目组“人工智能合成音视频对证据法的冲击”成员：南开大学法学院本科生曾馨悦、苏梦宇、苏颖、谢雅娴

指导教师：南开大学法学院副教授朱桐辉

首发于中国政法大学国家法律援助研究院《刑事法学研究》集刊官方公众号“中外刑事法学研究”，原题为“人工智能合成音视频对证据法的冲击”。

摘要：近年来，使用人工智能通过wavenet、deepnet等技术合成音频及通过深度伪造技术篡改、伪造视频的越来越多，也越来越能骗过大众的眼睛。尤其，人工智能造假技术的面纱也被日益揭开，甚至很多网购平台也出现了相应的技术购买渠道。

现有技术虽然也可对此进行鉴定，但鉴定精度及发展速度很难与造假技术匹敌。人们对其防范意识也不够，很易受到欺骗。

这不仅对人们的生活造成了困扰，也对法律造成了冲击，侵犯公民的人格权、隐私权、财产权等。

同时，也有一部分流入了司法领域，对证据的真实性、关联性等造成冲击：对真实性的冲击主要体现在对司法鉴定理念和技术的冲击上；也让合法性审查的规则与程序不足为继；对关联行动冲击主要体现，让本不联系的内容与案件出现强行联系，捏造出表面的、虚假的关联。

要实质性解决这一问题，需用法律方式进行规范：首先，转变证据审查原则，对音频推定为假，并采更严格审查标准；其次，再次审视并重视电子数据的“最佳证据规则”；再次，除加强相关司法人员培训外，更要强化和变革司法鉴定，引进更先进技术，或是与更专业鉴定机构合作；最后，加强立法，从源头对伪造行为进行规制。

关键词：人工智能；深度伪造；推定；鉴定

引言

人工合成音视频的技术经过许多年的发展，时至今日已经成为了一个较为成熟的技术。2019年3月，杨幂朱茵换脸视频走红网络。朱茵的视频片段中换上杨幂的脸，以假乱真，看不出什么破绽。网友们纷纷表示，这段视频“毫无违和感”，而且“从未见过杨幂如此生动有灵气的表演”。这是AI换脸技术第一次大范围引起关注。

同年9月，ZAO换脸软件再一次进入了人们的视野，许多人在社交圈中玩起了换脸游戏。人工合成音频也小范围地在互联网上流行。人工智能技术的发展给人类世界带来了诸多前进的可能，也带来了潜在的风险。

在许多人的固有认知中，这些技术是存在于科技研究者手中的。但是，目前已经有一些不法分子利用这些技术挑战法律。合成的诈骗电话语音甚至可以细致到口音、语调，并捕捉到原说话人的停顿习惯，成功骗走德国公司经理22万欧元。

2020年初，在英国某法庭的儿童监护权案件中，一方当事人就使用了深度伪造之后的录音证据。随着技术的发展，人工伪造音视频技术将会越来越成熟，其技术获得门槛也会越来越低。届时，法律也将面临巨大挑战。

一、人工智能合成音视频的逼真性和难以鉴定性

（一）人工智能合成技术简述

1.合成音频的技术

当前的语音合成技术分为两大类：参数语音合成法和拼接语音合成法。从技术发展过程中看，拼接合成技术出现在语音合成的最早期，主要利用人力完成，相较于当下的深度学习领域的快速发展已经过于落后，因此在本文中不再进行赘述。

下文中只涉及参数语音合成法，其中包括四种主要的具体合成方法：基于统计参数（HMM）的语音合成、基于WaveNet的合成、基于DeepVoice的合成、以及“端到端”的语音合成。

（1）基于HMM的语音合成

基于统计参数的语音合成方法解决了拼接式合成方法中无法避免的在边界处产生人工痕迹的问题，具体而言可以分为两个步骤，即训练流程和合成流程。

在训练流程中，首先对输入的训练语音进行参数分解，然后进行声学参数建模，建立文本参数与声学参数之间的映射模型，生成训练模型库。

在合成流程中，首先通过对目标文本的分析，在模型库的指导下，生成目标文本的语音参数，然后将参数输入声码器试合成目标语音。

（2）基于WaveNet的合成

当前业内最热门的技术就是Google主导开发的WaveNet引擎，其对应的MOS值达到了4.5+，而真人录音的MOS值在4.4+左右，因此利用WaveNet技术合成的虚假语音的逼真程度极其可观。

Wavenet是由DeepMind团队提出的完全基于深度神经网络的语音合成技术，具有卷积神经网络的可以分别学习部分和全局的特征、以及计算量小的特点。同时，拥有自回归方法带来的可以捕捉不同语音发出者的特征的优势。

（3）基于DeepVoice的合成

DeepVoice是由百度研发院发布的一系列实时语音合成神经网络系统，由深度神经网络搭建而成，将传统参数合成系统的各个模型均替换成了神经网络，并且让每个网络自主进行训练。

目前DeepVoice已经有三代技术，Deep Voice 3不仅保持了二代系统学习速度快的特点，而且，总共可以同时“掌握”2500种声音，因此可以同时应用于很多场景或者非常大规模的录音数据集。

（4）端到端的语音合成

端到端学习是指，可以将内部模块全部统一到一个模型中，并直接连接输入端和输出端。它可以说是将这些模块都隐藏在幕后，我们不用花费大量的时间去了解需要用的模块或者相关领域知识，直接用深度学习的方法训练得到一个模型，然后给定输入端，就能得到相应的结果。

其中较为主流和前沿的是Tacotron2技术，即声谱预测网络。它不仅能有效学习单词的发音，还能捕捉到特定人说话时的各种细微差别，包括音量、速度和语调等。

2.合成视频的技术

当前合成虚假视频技术的最根本依托是深度伪造技术，主要有四种类型：第一种是借助软件更换面部，也是目前为止用得最多的；第二种是操纵人脸动作，重塑表情、口型和速度，让其发表非其真实意图的言论；第三种是借助深度学习技术，创建在现实生活中并不存在的面部图像；第四种是将面部表情与声音结合，借助深度学习，创建声音模型。

应用于“换脸”的深度伪造的过程就是将图片、视频等数据“喂”给“换脸算法”,然后由算法在训练的基础上自动完成换脸操作。

具体而言，“换脸”包括视频转换图片、提取脸部、训练模型、人脸替换、合成视频的步骤：

首先，将视频转换为一帧一帧的图像，在后续操作中实际上是对每一帧图像进行篡改，这种逐帧操作在纯人力的时代是不可想象的，但是利用人工智能技术就能够完成对于人工而言体量过巨而成为不可能的任务。

其次，将图像中需要进行针对性篡改的脸部进行局部提取。

再次，通过深度学习技术训练出相的人脸拟合模型，并得到相应的虚假脸部图像结果。

接着，将虚假图像替换到原图像中的相应位置，并且在每帧图像中重复进行上述操作，得到组成虚假视频的每帧虚假图像后合成虚假视频即可。

3.人工智能合成虚假音视频的学习模式

合成虚假音视频的技术从最初完全依靠人手动修改完成，到现在利用人工智能技术达到更加逼真完善的效果，期间主要的进步在于人工智能代替人力完成了大量的、重复的和细微的工作。

因此，人工智能技术中最具里程碑意义的两个技术突破就是用于大数据自主学习的无监督学习模式，以及用于对细微数据特征进行分析处理的深度学习模式。

（1）深度学习模式

深度学习 (deep learning) 是机器学习研究领域中的一个分支, 本质上是训练深层结构模型的方法,也是对于通过多层来表示对数据之间的复杂关系进行建模的算法。由Hinton等人发表的具有革命性的深度信念网引领着后人对深度学习的研究, 其主要思想包括：

a) 从底往上的非监督学习,就是用无标签数据进行每一层的预训练,而每一层的训练结果作为其高一层的输入,这是与传统神经网络相比最大的区别,这个过程可看做是特征学习的过程。

b) 从顶向下的监督学习,就是用有标签的数据调整所有层的权值和阈值,按照误差反向传播算法自顶向下传输,对网络进行微调。

简言之，深度学习网络就像人类大脑的学习机制一样, 在面临大量的感知信息时,通过低层特征的组合形成更加抽象的高层特征,并且得到数据的分布式特征, 从而可以像人脑一样通过对输入信息的分级表达来体现信息的属性或类别。

相比浅层结构的机器学习, 深度学习模式提取特征的过程是靠网络自动完成的, 不需要人工参与。同时由于深度学习的第一步不同于传统神经网络的随机初始化, 而是通过学习数据的结构得到, 所以这个初值更接近全局最优, 进而取得更好的结果。

（2）无监督学习模式

无监督学习是一种旨在通过奖励智能体（即计算机程序）来创建自主智能以便在不考虑特定任务的情况下学习其观察到的数据的范式。

无监督学习的一个关键特征是，虽然传递给学习算法的数据拥有很丰富的内部结构（如图像、视频和文本），但用于训练的目标通常都非常简易（例如，标签「狗」指的是尤其多变的物种，标签「0」或「1」表示游戏中的「失败」或「成功」）。

这表明算法学到的大部分内容必须包括对数据本身的理解，而不是将这种理解应用于特定任务。

一般认为，该模式不需要过多的人工干预，尤其适合以一般公众为服务对象的应用。知名的科技网站“主板”在2018年曾经预测“深度伪造”技术在寻找“源数据”方而的自动化至少需要一年时间，但事实上，这个自动化迭代只花费了一个月时间。

由于所有相应的人工智能系统都可以在无监督学习模式下利用海量的网络资源不断“无监督”地自我迭代与优化，使得深度伪造技术在整体上呈现出一种加速发展的态势。

（二）人工智能合成技术的突出特点

1. 技术上的先进性

（1）音频合成技术的先进性

具体而言，当前语音合成方面最大的突破就是语音中的情感甚至其他更微妙因素的体现。当合成语音的自然度、灵活度等基本满足人们要求时,需考虑的是改变基频建模,使之能够调整基频来合成情感语音，让合成语音表现出个性生理、心理等特点。通过情感语音合成的方法，计算机可以合成惊奇、喜悦、愤怒、厌恶等各种情绪。

当生成的语音有了更加丰富细腻的情感和音色变动时，其与原始语音之间的差距也就会越来越小，至少对于普通人来说，通过耳朵对其加以分辨是具有一定困难的。已有学者提出建立多视角情感描述模型, 描述认知、心理、生理等影响因素之间的关联性, 并通过语音频谱特征表现出来。

在Facebook最新发布的用语谱表示的生成模型MelNet中，能够合成包含“微妙的一致性”的音频。这种想法已经在Facebook最新发布的用语谱表示的生成模型 MelNet 中得到实现。当 WaveNet 和其他模型使用音频波形进行训练时，MelNet 已经可以使用包含更丰富信息的密集格式：频谱图。

Facebook的研究人员指出，虽然 WaveNet 生成更高保真的音频，但 MelNet 在捕捉“高层结构”方面更胜一筹——说话者的声音中包含了微妙的一致性，这虽然几乎无法用文字描述，但是人的耳朵能够很好地辨别出来。

他们表示，这是因为频谱图中捕获的数据比音频波形中的数据“更紧凑”。这种密度使得算法产生更一致的声音，而不是被波形记录的极端细节分散。

（2）视频合成技术的先进性

当前最先进的合成虚假视频的模型是基于深度伪造技术的“对抗生成网络”（简称为GAN），通过自我修正不断提高影像的逼真性。与传统深度学习技术单链条相比，GAN引入了“对抗”机制，由两组神经网络共同进行。

其中一组神经网络的算法定位为“生成器”，它负责基于“源数据”创建目标图像模型，从而生成伪造的图像;另一组神经网络的定位为“鉴别器”，它负责基于真实的目标图像对“生成器”生成的伪造图像进行验证。每一种算法都在对另一种算法进行改进，从而提高训练的速度，进而生成高逼真度的虚假视频内容。

实现顺序及示意图如下：一，计算机获得目标人物的视频和图像，形成“源数据”；二，生成器生成伪造数据；三，鉴别器对生成的数据进行检测；四，当鉴别器认为生成数据具有与原数据的高度相似性，则输出数据，反之，返回生成器；五，选择目标视频，将生成的图像转化过去。

图1 “技术GAN模型逻辑示意图”

基于GAN技术和无监督学习模式的结合，只要有足构的数据集和运算速度，随着运行时间的增加，它会不断自我迭代完善，难以想见在这种技术环境下未来得到的伪造模型会达到何种水平。

2.可以混淆视听

在当前的技术背景下，已经出现不少利用伪造技术进行的骗局，在音频领域中多为电话诈骗：

正如引言中提到的那样，德国一公司的总经理接到“老板”的电话，令其汇款给“匈牙利的供应商”，否则公司要支付违约金，由于该通电话中的语音和老板的独特口音、音调以及说话中的停顿习惯完全相同，该经理就将22万欧元汇入了该账号。

在视频领域也已经出现骗子利用AI将自己在视频中的形象替换为王源，在直播平台上行骗的案例。徳国和意大利科学家的联合研究小组测试了1000段“换脸术”视频后发现，普通人必须通过特殊训练，才能鉴别真伪。

不仅在日常生活中普通人无法分辨虚假音视频，甚至有些造假技术已经可以“骗过”鉴别技术。瑞士科学家尝试用最前沿的人脸识别系统去识别“换脸视频”，结果错误率高达95%。

3.人工智能技术的普适性

目前已经出现大量可取得的合成音视频软件，在音频方面，谷歌的WaveNet、Lyrebird语音合成软件，Adobe的 Project VoCo，以及百度的Deep Voice，科大讯飞、腾讯等等都提供语音合成的开源应用。

在视频方面，网上可供下载的换脸软件有FakeApp、Faceswap、DeepNude等，这些软件都是只掌握一般计算机技术的人就可以使用的。如前所述，2019年ZAO软件走入了大众的视野，并且获得了许多年轻人的青睐。一时之间，互联网上出现了许多换脸视频。

此外，在淘宝等购物平台上，就有很多商家提供AI换脸视频制作服务，只需要不到百元。

在技术特征方面也能明显看到今后类似软件将会愈加普及的趋势：

首先，任何算法一旦被公开后传播成本几乎为零，因此传播速度极快，传播范围极广，制作相关产品的成本和门槛也在不断降低。

其次，基于目前互联网的覆盖和开放程度，大量数据的获取已经不再是困扰个人进行模型利用的难题。

最后，由于无监督学习模式下不需要专业人员对数据进行标注等处理，克服了一般公众不具有对海景数据实时精准标注的条件和能力。

（三）道高还是魔高——人工智能识别技术的发展

1.现存识别技术的分析

（1）声纹鉴定

伴随着音频伪造技术发展的，还有音频识别技术。声纹鉴定技术是目前所采用的较为专业的识别技术，其所利用的就是电声学仪器显示的携带言语信息的声波频谱。

这些声波频谱会受到不同的人的发音方式、语音、语调、方言口音等的影响，因此具有一定的复杂性和个体差异性。声纹鉴定就是利用声音声学的特征，将各声音区分开来。

我国在上世纪80年代就建立了声纹鉴定实验室，开展声纹鉴定技术的研究工作。音频的伪造利用的是原始说话人的语音语调，声纹鉴定利用的同样是原始说话人的说法方式和特点。

因此，二者的博弈本质上是技术的博弈。就目前的情况来看，声纹鉴定技术还需要依赖鉴定人个人的能力，导致鉴定结果会包含有相当的主观因素。

（2）视频鉴定

目前的视频鉴定方面主要依据一些细微生理特征，如眨眼、脉搏、微表情等，有研究团队表示，基于有效预测眨眼状态的“反AI换脸”技术，其准确率、可靠性高达99%。

MIT 电机工程与计算机科学系教授 William Freeman 与研究团队研发出一种“动作显微镜”的技术，通过放大视频片段，观察像素的颜色变化，就可以查看出一些细微动作，例如脉搏的微小变化。

由此可以检查视频中人脸的色彩差异，去对照这个人是否有脉搏，借此判断是真人还是计算机生成的。

但是这种微表情的差异并非造假技术不能克服的，在将来的技术发展中必将出现更深层次的造假与鉴别技术的博弈。

另外，也有研究人员从其他技术方面进行突破，例如斯坦福大学计算机科学专业的学生Nikhil Cheerla和Rohan Suri采用的另一种方法，令内容创建者可以使用深度神经网络在他们的媒体中嵌入不可擦除的数字水印。

恶意攻击者可以修改视频、扭曲音频、交换另一个人的脸等等，但无论他们做什么改变，都无法删除在内容中嵌入的数字水印。这个水印始终指向原始的、未修改的内容。

但是这种技术只能从内容创建者或者是视频源头进行单独防范，无法做到万无一失，在当前计算机技术和互联网极大普及的社会中，视频源头的数量过于庞大，无法保证所有源视频均已经加入数字水印。

2.问题的实质性解决

在人工智能技术造假的问题上，利用鉴别技术是无法完全解决的。

一方面造假技术不断更新完善，要求鉴别技术必须始终保持能够比造假技术更加先进几乎是不可能的。例如，一旦新的AI换脸视频解决了“自发的、无意识的生理活动”细节问题，那么现行的视频识别技术就不再有效。

另一方面由于这些被依托的技术往往同时能够应用于对立的两个领域，相比较而言，鉴别技术往往处在“防守”的立场上，更加被动，而造假技术在利益的驱使下更加具有主动性。

因此，在科技自由发展的环境中，识别技术往往和造假技术同步发展，甚至低于造假技术的研发水平。

但是由于已有的造假技术已经具有相当的普适性，并产生足以引起社会重视的危害结果，在除了以技术对抗技术的方法外，利用其他手段缩小造假技术的危害，防范其带来的风险势在必行，例如提高社会警惕意识，出台相关法律法规等。

二、对社会和法律的冲击

如前所述，人工智能伪造的音视频资料具有逼真性，利用人工智能伪造音视频的途径也易于获取。而广泛民众对于该技术还不具备普遍性的认识，这样的信息差使良好的法律环境受到了来自于人工智能伪造音视频技术的冲击。

首要的法律冲击展现在公民的合法权益中。在人格权方面，由他人伪造的、在一般人眼中极具可信度的音视频资料，可能侵犯当事人的肖像权、名誉权以及一般人格权等。

另外，当代利用面部及声纹等个人信息进行识别的技术增多，例如支付宝的人脸支付技术，因此一旦个人信息能够被人工智能伪造，公民的财产权也可能会受到影响。

其次，更为严重的利用人工智能伪造音视频的犯罪行为发生在刑法领域。利用逼真的虚假音视频，当事人可以进行诽谤、诈骗，或作伪证。

2019年9月，江苏警方就发布了一则《【警方提示】AI诈骗，换脸、声音模仿如何防范》的文章,警示利用人工智能伪造音视频以进行诈骗的犯罪行为。

（一）人工智能合成虚假音视频对公民权利造成侵犯

人工智能制作音视频所造成的侵犯是紧紧围绕着公民的声音和肖像展开的，在人工智能合成音视频的技术发展之前，公民只需要担忧自己的肖像有没有被不合理或非法应用。

而随着此项技术的发展，公民更多地开始担忧自己的肖像是否被不法地伪造，或是被用于替换其他人的肖像，对于公民肖像权侵犯的途径拓宽，同时也连带造成了对公民的其他权利的侵害。

1.侵犯公民人格权

法律上，为保护人为人的尊严，以伦理上的人格观念为基础限制了对于公民人格的侵犯。根据《中华人民共和国民法总则》第一百一十条的规定，“自然人享有......肖像权、名誉权......等权利。”除以上具体人格权外，一般人格权也在我国得到承认。根据《最高人民法院关于确定民事侵权精神损害赔偿责任若干问题的解释》，自然人的人格尊严也受到保护。

人工智能伪造视频可能侵犯公民肖像权。法律规定，侵犯肖像权的行为是指以营利为目的，未经公民同意利用其肖像做广告、商标、装饰橱窗等行为。但亦有部分学理观点认可，侵犯肖像权无需以营利为要件。

朱庆育先生认为，对于肖像，他人不得未经同意而以制作、散播、公开或扭曲等方式使用，否则就侵犯了公民的肖像权；王泽鉴先生也认为，传播他人肖像亦得成立对肖像权的侵害。

以人工智能伪造技术制作的视频，往往是未经相关人同意而利用了与原本视频完全不相关的人的面部特征制作新视频，并散播在公众的视野中。若以营利为目的，此举必然当事人的肖像权造成侵犯；若不以营利为目的，则根据学理观点也可能侵犯当事人肖像权。

该行为会对两个当事人的肖像权造成侵犯，其一是原本出现在视频中的当事人，因其原本的肖像被替换，因此其肖像遭到了扭曲；其二是替换原本的当事人、出现在伪造视频中的当事人，其肖像被制作、散播。

目前，已有侵犯肖像权的案例出现。例如，现任阿根廷总统Mauricio Macri在一则讲话视频中的肖像，即被替换为某一电影中希特勒的形象，该视频由一名上传者上传至YOUTUBE上。这种扭曲、制作、散播的行为侵犯了阿根廷总统与电影中希特勒扮演者的肖像权。

除了肖像权这一人格权以外，人工智能合成视频还可能会侵犯公民的名誉权。以上文中的案例为例，如果用人工智能合成不实的音视频，如利用他人来“说”一些会产生不良影响的言论，或者将他人的脸合成到一些不雅的视频上，再利用网络广泛流传出去，就会侵犯他人的名誉，使他人的形象受损。

尤其是在当今的网络环境下，这样的不实的音视频可以传播得更加广泛，影响的力度和范围也就更大。

2.侵犯公民的隐私及个人信息

人工智能合成音视频首先是利用深度学习，可以学习人类给予的知识，也可以在网络上进行自主学习。

而人工智能利用网络进行检索的速度和深度都远高于人类，也就是说，可以挖掘到一般人无法搜索到的他人的信息，在这一过程中就可能会侵犯到他人的隐私和个人信息。

3.侵犯公民的财产权利

人脸和声音是用于区别人的标识，尤其是在当今的信息时代中，人脸和声音更是作为了重要的财产标识。比如现在的很多支付软件都采用面容支付的方式，而很多的面容支付为了防止盗用，设定为仅有动态人脸可以解锁，而静态的人脸如照片等则不能进行解锁或支付的操作。

但是有了人工智能合成的虚假音视频后，就可以利用人工智能合成的视频进行面容解锁或支付的操作，会让现有的支付防线功亏一篑。

当然对于普通人而言这样的损失可能会较小一些，美国的研究人员合成了前总统奥巴马的视频，而选择他的是由于他的曝光度，他的视频不仅数量大，而且质量也很高，使训练神经网络的过程变得轻松起来。

而对于普通人而言，可能不能获得那样大数量的视频用于训练人工智能，但是用于迷惑面容支付也不是没有可能，因为人工智能合成的视频虽然有瑕疵，但是仅仅依靠人的肉眼进行分辨也是有困难的。

因此，假如人工智能伪造的视频被用于面部解锁、面部支付等领域内，公民的财产权可能会受到侵犯。

（二）人工智能合成虚假音视频造成犯罪

除了上文提到的对公民权利的侵害，人工智能合成的虚假音视频还可能被别有用心的不法分子利用来实施犯罪。

首先，会出现诈骗罪行为，如上文提到的对公司的财物进行诈骗。据专家称，传统网络安全工具无法发现欺骗性的声音，而单纯利用人的肉耳对这样的声音也无法进行辨别。

从这一案例中也可以看出，现在合成虚假音视频的成本并不高，而技术也是在社会上广为流传的，尤其是上文中提到的，已经出现了一些以此技术为主要业务的公司。因此，利用这一技术来欺骗他人的可能性就大大增加了。

其次，还可能产生诽谤罪，如利用人工智能合成的虚假音视频，捏造他人曾经实施的行为或者发表的言论，实施上文提到的侵犯公民名誉的行为，从而达到抹黑他人的目的。

最后，还有可能会造成下文将重点叙述的利用人工智能伪造证据而产生的伪证罪，为法庭审判带来困难，也对证据秩序造成极大的冲击。

而由于人工智能合成音视频的技术的日益发展，一些别有用心之人获取此类技术的途径也越来越广泛，而合成音视频的逼真程度也在大大提升。

因此，如果不对及时对其进行规范，将会造成越来越多的社会问题，对于司法实践的冲击也会日益加剧。

人工智能视频对于法治社会各个方面带来的冲击不容小觑。一旦由人工智能伪造的音视频进入司法领域，则会撼动司法公正的根基，扰乱法治社会的进程。

三、对证据真实性、合法性、关联性的冲击

对证据的收集、审查判断过程是一个辨别真伪的过程。在这个过程中，判别证据真伪的方式通常通过考察证据的真实性、合法性及关联性来完成。

我国法律上为视听资料、电子数据所设置的法律法规，在面对人工智能伪造视频时显得不够充分。接下来将分别阐述人工智能伪造音视频在三性的审查中的不足。

（一）让证据的真实性难以判断

1.司法鉴定的理念受到冲击

从一方面而言，司法机构对音视频的信任度较高，因此对其审查不够严格。在可以利用人工智能技术伪造音视频之前，音视频资料的修改、合成、篡改是十分困难的，假如需要修改视频中的人物，则需要对于每一帧进行反复地人工修改，因此，耗时巨大，最终呈现的效果也不一定真实。

因此，在传统的音视频作为证据的范畴下，一般考察的是音视频的完整性，例如音视频是否被剪辑等，而不考虑其中人物可能遭到替换的情况。相对于物证、书证等证据，司法机构及当事人对于音视频持有高度信任的心理。在这种心理的影响下，人工智能伪造的逼真的音视频极有可能逃过法眼，仅仅接受相对宽松的审查即成为审判的依据。

音视频可以按其来源分类，有直接在公安系统管控之下的，也有不在公安系统之内的。而这样的规定对于刑事案件中一些原始材料不在公安系统管控之下的音视频的真实性将会造成比较大的冲击。

举例来说，监控录像是非常重要的视听资料证据之一，因为其能够最客观、全面地记载犯罪现场的情况，也是公安机关在侦破案件时经常会用到的视听资料之一。虽然并不经常作为定案依据，但是也是侦查机关查找线索，最终侦破案件的重要手段，同时也是法院定案的证据链中的重要一环。

监控录像有直接在公安机关控制之下的，对于与公安系统相连的天网系统中所提取的音视频资料，即境内多数监控摄像中提取的录音、录像等，采取上述方法保障从提取到最终作为定案的依据都没有经过修改，从而最终证明证据的真实性是可行的。

但也有不在公安机关的掌管范围之内的监控录像，如一些商场、居民楼内的监控录像，以及行车记录仪记录下来的内容等。如果犯罪嫌疑人利用这些途径来伪造虚假的监控录像，那么由此产生的证据链就会有所疏漏。

原本监控录像的证明力不足也是因为其图像模糊且获取渠道比较广泛，对于监控录像进入证据链条的要求也较高，但是如果加以篡改，也可能会对司法造成一定的困难，需要利用如印证、专家鉴定等方式对其进行比对和排除，也会造成司法资源的浪费，冲击视听资料证据的可信性和真实性。

这类不能够追溯来源的监控视频之所以要严加审查，是因为从现有的技术来看，人工智能伪造音视频易于为普通民众获取，生成虚假音视频的操作简单，呈现出低成本、低投入的特性。

虚假的视听资料可以在原视频的基础上对一整段视频进行修改，从而使得生成的视频更加完整，而不会出现原有的造假方式中，仅仅删改一段音视频而造成的音视频空缺问题，使得产生的虚假证据更加完整。并且，可以通过这样的方式使视频前后内容保持一致，用人工智能比人类修改得更加细节化和具体化。

同时，人工智能伪造的证据混杂在繁多的视听资料之中，且随着人工智能技术的发展，会具有越来越高的隐蔽性，更加难以甄别，将会给案件审理和证据审查带来巨大的麻烦。

人工智能合成的视频很有可能会呈现出为视频原件的特性，而合成的内容也可能会越来越精良，而很难判断是否存在剪辑或是删改的痕迹，制作的时间和地点也可以加以伪造。

因为之前造假音视频的技术总会留下人工修改的痕迹，但是人工智能则可以生成一个全新的视频，更加便捷地对整个视频的内容进行修改，而非对于视频的某个画面进行修改，或是选择一段视频进行剪切，对原有的规范造成了极大的冲击。

因此，对于这类音视频证据，考察设备工作状态、制作过程的证明、是否是原件等与音视频内容无关的要件，是不能够完全认定视听资料真实性的。

原因在于，对于源头无法考察的、原件不存有备份的、由当事人提出的视听资料，当事人为成功使伪造的证据成为定案依据，必然选择伪造以上有关设备的工作状态等相关的证明，而这些证明的伪造也完全不具有难度，公检法机关进行查证也相当困难，因此，该方法不能够起到控制虚假视频流入的作用。

所以，考虑到人工智能伪造音视频所呈现出的逼真以及易伪造的特征，就要求现在及未来在审查音视频证据时必须采用较现在更加严格的审查标准。

例如，在该音视频的收集程序上，除了采用收集原始介质的方式外，如何确保该音视频是原始证据；在该音视频的保存过程中，如何保证它不被以各种方式篡改；在音视频的司法鉴定程序上，举证规则的变更以及采取何种鉴定方式对其进行鉴定。

这些审查的标准和程序都已经远远超过了法条所规范的内容，急需更多的法律来解决这些问题。

2. 司法鉴定的技术受到冲击

目前，视听资料的检验在检察院主要由检察院内设“检查技术部”等机构完成；声像资料类证据在法院的鉴定主要由当事人提出申请，由有资质第三方完成鉴定。

鉴定主要针对于是否为当事人本人的面部特征与声纹特征（不特别关注面部特征及声纹特征本身是否被替换过），以及是否剪辑等。例如陕西省人民检察院检察技术处副处长霍卫国在鉴定音频资料的过程中主要采用“大量对比”的方式，确认是否剪辑以及是否是同一人语音的问题。

鉴定方法上，基本采用简单的科技手法以及人工比对的方式，例如在2015年上海市人民检察院处理韩某某等三人故意伤害致人死亡案件时，鉴定人“运用图像检验技术，在经放大、调整、清晰化处理后，对监控录像画面进行反复观察”。

可见，在鉴定方式上，这种偏向于主观、人工的鉴别方式难以鉴别人工智能伪造出来的逼真的音视频。人工智能伪造音视频需要更加先进、同样也利用深度学习的鉴别技术。

因此，人工智能伪造音视频在鉴别方式、鉴别目的等方面造成了一定冲击，使证据真实与否的鉴别结果产生错误的几率增大，从而影响判决的公正。

另外，人工智能伪造音视频由于易于为普通民众获取，生成虚假音视频的操作简单，造就了人工智能伪造音视频呈现出低成本、低投入的特性。

虚假的视听资料可以在原视频的基础上对一整段视频进行修改，从而使得生成的视频更加完整，而不会出现原有的造假方式中，仅仅删改一段音视频而造成的音视频空缺问题，使得产生的虚假证据更加完整。并且可以通过这样的方式使视频前后内容保持一致，用人工智能比人类修改得更加细节化和具体化。

最后，人工智能伪造的证据混杂在繁多的视听资料之中，且随着人工智能技术的发展，会具有越来越高的隐蔽性，更加难以甄别，将会给案件审理和证据审查带来巨大的麻烦。

3.真实性的出路——最佳证据规则

最佳证据规则是指为证明书面文件、录音录像或照片等文书中的内容,当事人应当提供文件内容的原始证据(文书)的一种诉讼证明规则。

而在实践中，该规则往往应用于书证领域。上文提到，音视频具有电子数据的属性，而在信息时代下，电子数据也可能会对最佳证据规则造成一定的冲击。

这是因为在人为因素下，电子数据非常容易被篡改。如果仍然保留原有的思路，仅仅对书证适用最佳证据规则是显然不够的，在信息条件下更要注重保持电子数据的完整性。

而电子证据的完整性指的是电子证据载体能够包含全部信息的完整状态。以最佳证据规则的规定推理，可以说只要电子证据能够精确复制，拥有生成时的全部信息的完整状态，即可以视为最佳证据规则中的“原件”。

由此，再对电子数据进行进一步的数据克隆、原始数据的数据识别、时间认证技术的审查，从而将最佳证据规则适用于电子数据领域。

虽然在上文中提到的如上文所述，人工智能可以合成一个完全原始的、全新的音视频，而并非仅仅是对原有的、已存在的音视频进行篡改和删减。

所以，仅仅是简单地出示原件可能对于一些高精度的音视频也无济于事，但是目前技术尚未达到极致，所以采用最佳证据规则也可以对其起到一定的规制作用。

（二）让证据的合法性难以判断

根据《刑诉解释》第九十二条的规定，审查视听资料的合法性需要重点审查视听资料的来源、制作过程有无威胁或引诱当事人违法、是否写明制作人的姓名以及制作的时间等信息。这些程序上的审查，能够一定程度上保障视听资料不受篡改，从而保障其完整性与真实性。

然而，针对于人工智能伪造的音视频而言，由于利用人工智能技术对音视频资料进行修改相当便捷，因此收集、存储过程中的任何一个漏洞都可能导致原始的资料被修改，或直接伪造出一份新的音视频资料。

因此，针对人工智能伪造的音视频，必须建立从源头开始、直至作为定案依据为止的全程性程序监督，才避免此类音视频在程序上出现漏洞，并避免这类证据遭受修改。可见，目前有关证据程序合法的规定显得过于简略。

（三）让证据的关联性难以判断

证据的关联性，是指证据事实与案件事实存在着客观上的内在联系性，从而能起到证明作用。经人工智能伪造的音视频，本与案件不存在内在联系，但因为将本案相关人的面部特征或声纹信息替换至本不相关的音视频中，致使音视频存在表面上的、虚假的关联性。

四、如何应对人工智能合成虚假音视频的法律冲击？

（一）证据审查原则的转变：音频推定为假，视频一定条件推定为假

要在证据方面对人工智能合成音视频进行规制，则必须转变证据审查原则。首先，对于更易于伪造的音频而言，应当首先推定它为假，再考察是否有证据判断其为真；其次，对于不能追溯来源的视频，也应当首先推定它为假。

由于视听资料的特性，目前在司法实践中，司法人员往往会选择相信视听资料为真，除非有证据可以证明该证据为假，但是这样的审查原则，在面对人工智能合成虚假音视频泛滥的问题时，就显得不够合理。

如果要求提供证据证明为假，由于其真伪难辨，对于提出异议的一方来说，提出证据就显得尤为困难。此外，正如上文所提，由于司法鉴定的不够完善，提出司法鉴定的要求也可能很难对人工智能合成的音视频进行证伪。

所以，要首先转变审查的思路，将优先推定为转变为优先推定为假，只有在于其他证据相互印证、形成了完整的证据链或者可以证明视听资料为真的情况下，才将其作为定案依据予以使用。

也就要求司法人员在对待视听资料时更加严谨，避免为了尽快定案、结案而出现的草率应用证据的情况。

（二）强化、变革司法鉴定

正如上文所述，利用人工经验逐帧鉴定已经很难应对人工智能合成的虚假音视频了，所以要引入更为先进的司法鉴定技术。

从2017年“深度伪造”产生巨大影响开始，世界上有大量科研团队投入到深度伪造视频的鉴别技术中。该技术经过近两年的发展，现已取得了一定的进展。现阶段能够达到识别率90%左右的技术成果包括 “软性生物识别”、XceptionNet 算法、“动作显微镜”技术、 Deeptrace 系统等。

其中，研究最多，进展最大的技术还是卷积神经网络技术，许多团队依据该技术取得 85至98%的识别率。

例如，2019年6月，在斯坦福大学“深度伪造研究小组” 的会议上，两名成员介绍了根据集成卷积模型开发的检测工具 Sherlock AI，在“深度伪造”的大数据集上达到 97% 的检测精度。

证据鉴定本身由于高度依赖于科技，具有科学性和非绝对性，现在针对深度伪造的视频能够达到95%及以上的检测率，其鉴定结果完全可以被司法系统所认可，并作为形成判决的依据。

此外，还可以考虑更多与社会专业鉴定机构进行合作，因为虽然可以看到鉴定技术紧跟伪造技术不断发展，鉴定出视频造假的可能性已经被满足，但是这些技术仍然在不断发展，并且较为尖端，如果想要将当前的鉴别系统引入司法系统的鉴定部门，不仅要考虑技术专利购买，还有对技术部门人员的培训、后期及时更新等支出，对于司法系统而言负担过重。

同时，当前实践中对鉴定视频真实性的需求并不大，相对于巨大的技术引进成本而言，这种选择显然不合理。

而专门的营利性社会鉴定机构会出于逐利性的考虑，及时更新甚至自行研发鉴别技术，并且只有在个案中产生相关费用。相较于一次性引进技术产生大额支出，这样可以直接由特定方承担相关费用，而不是统一对该类司法鉴定进行定价，更有利于法院将该费用成本转移给诉讼双方承担。

（三）其他方法

针对人工智能合成虚假音视频的政策，目前已经有可借鉴的先例，美国在2019年6月发布了《深度伪造责任法案》，主要有深度伪造内容制作者具有披露义务，受害主体享有私人诉权，假冒行为应包括采用深度伪造技术实施的冒充身份的行为，政府应采取措施开发相关检测识别技术等内容。虽然法案也遭到了社会广泛质疑，但是仍然为我们提供了借鉴的经验。

而我国目前也已经注意到了“深度伪造”带来的法律风险，《网络信息内容生态治理规定》第23条明确规定：“不得利用深度学习等新技术从事法律、行政法规禁止的活动”。

因此，可以采取措施，从源头规制人工智能合成虚假音视频的行为，政府也可以加大科研投入，研究相应的技术，以解决人工智能合成音视频对社会和司法造成的冲击。

注释与参考文献：

1.https://www.thenational.ae/uae/courts/deepfake-audio-evidence-used-in-uk-court-to-discredit-dubai-dad-1.975764
2. 通信术语--Mean Opinion Score 平均意见值，衡量通信系统语音质量的重要指标。
3.苗争鸣:《可怕的“深度伪造”技术》，载《世界知识》,2019年第22期。
4.吕俊延.：《人工智能视频换脸技术的法律困境》，载《中国社会科学报》,2019年。
5.频谱可以表示一个信号是由哪些频率的弦波所组成，也可以看出各频率弦波的大小及相位等信息，是分析振动参数的主要工具.
6.王禄生：《论“深度伪造”智能技术的一体化规制》，载《东方法学》,2019年第6期。
7.宣晶:《视频“换脸术“走近大众.引爆亿级流貳后为何令人担忧》，载《文汇报》，2019-2-27，第1版
8.熊洁：《声纹鉴定理论与实验》，载《电声技术》,2018年。
9. 刘弘胤：《AI赋能下的声纹识别技术在公共安全领域的深度应用》，载《中国安防》,2019年第6期。
10.沈臻懿：《AI视频换脸术》，载《检察风云》,2019年第16期。
11.公众号“江苏公安微警务”发布文章《【警方提示】AI诈骗，换脸、声音模仿如何防范》，2019年9月2日。
12. 参考朱庆育：《民法总论》，北京大学出版社，2016第二版，第401页。
13.《最高人民法院关于确定民事侵权精神损害赔偿责任若干问题的解释》第一条　自然人因下列人格权利遭受非法侵害，向人民法院起诉请求赔偿精神损害的，人民法院应当依法予以受理：（一）生命权、健康权、身体权；（二）姓名权、肖像权、名誉权、荣誉权；（三）人格尊严权、人身自由权。违反社会公共利益、社会公德侵害他人隐私或者其他人格利益，受害人以侵权为由向人民法院起诉请求赔偿精神损害的，人民法院应当依法予以受理。
14.《最高人民法院关于贯彻执行中华人民共和国民法通则若干问题的意见（试行）》第139条：以营利为目的，未经公民同意利用其肖像做广告、商标、装饰橱窗等，应当认定为侵犯公民肖像权的行为。
15.参考朱庆育：《民法总论》，北京大学出版社，2016第二版，第408页。
16.王泽鉴：《人格权法》，北京大学出版社2013年版，第138页。
17.刷脸支付的安全性，从静态人脸识别和动态人脸识别说起，https://baijiahao.baidu.com/s?id=1629576191961620193&wfr=spider&for=pc ，最后访问：2020-3-7
18.利用人工智能合成假视频,川普竟然能一本正经宣布美国与加拿大合并?|潮科技，https://36kr.com/p/5083512 ，最后访问：2020-3-4
19.欧洲首例AI诈骗：用CEO声音骗走22万，逼真语音合成只需1分钟录音，https://36kr.com/p/5243392 ，最后访问：2020-3-7
20.AI语音诈骗173万！模仿老板声音让科技公司上当，追捕嫌犯犹如大海捞针，科技评论，http://www.mittrchina.com/news/4219，最后访问：2020-3-7
21. 陈光中：《刑事诉讼法》，北京大学出版社，2016年第六版，第165页。
22.《中华人民共和国刑事诉讼法》第五十条：可以用于证明案件事实的材料，都是证据。证据包括：（一）物证；（二）书证；（三）证人证言；（四）被害人陈述；（五）犯罪嫌疑人、被告人供述和辩解；（六）鉴定意见；（七）勘验、检查、辨认、侦查实验等笔录；（八）视听资料、电子数据。证据必须经过查证属实，才能作为定案的根据。
23. 程勇.：《论视频监控图像证据的证明力》，载《湖北警官学院学报》，2017年4月。
24. 陈光中：《刑事诉讼法》，北京大学出版社，2016年第六版，第165页。
25.纵博，公共场所监控视频的刑事证据能力问题，《环球法律评论》，2016（6）。
27.《必看！宝鸡市人民检察院全新内设机构来了！》，载陕西省宝鸡市人民检察院网，见http://www.sn.jcy.gov.cn/bjsjcy/dwjs/ztjy/
28.“【视听技术】声音就是一张‘人体身份证’”，载微信公众号“电子物证”，2017年9月29日。
29.《鉴定人出庭纪实01|上海市院高峰视频图像资料鉴定出庭》，载微信公众号“检查技术与信息化”，2017年5月2日。
30.崔雪丽,基于互联网下电子证据中的最佳证据规则,《上海政法学院学报》，2019（3）
31.王永全、齐曼：《信息犯罪与计算机取证》，北京大学出版社2010年版，第187页。
33.曹建峰，方龄曼：《人工智能时代下的“烦恼”：美国国会听证会探讨“深度伪造（deepfake）”风险及对策》[EB/OL]. (2019-7-2). https://mp.weixin.qq.com/s/EvnDfX8m13p9dETp_kCOsQ
34.《网络信息内容生态治理规定》第二十三条：网络信息内容服务使用者和网络信息内容生产者、网络信息内容服务平台不得利用深度学习、虚拟现实等新技术新应用从事法律、行政法规禁止的活动。

北京市公安局网络安全警官王崇鹏看到此文后的点评：

“人工智能合成音视频”这个定义还是很不错的，取证也需要结合电子数据的相关规范，最终还是要结合刑事证据法的程序。总之，当前人工智能技术在各行各业都有适用而且在快速发展，利用人工智能技术做违法的事就需要结合传统取证技术了，不过会新增取证方向。

举个例子，前十几年伴随计算机系统和网络发展，催生了木马和病毒技术，写木马的技术员并不犯罪，但利用木马和病毒做坏事就违法了，认定犯罪的核心技术是需要对程序功能进行分析，程序功能分析也是现在取证技术的一个专门方向。

人工智能技术也大有这个趋势，人工智能合成音视频利用网上公开模型加上自己的调参，就能生成目标样本，而取证就需要针对这个样本进行逆向模型分析，具体方法与技术终究会成立体系，最终演化成一个具体的取证方向。

中国政法大学电子数据鉴定人与中科院杭州院副院长、大数据固化系统总工程师傅周跃看到此文引发的部分讨论后的答复：

从目前我们了解的鉴定技术看，对基于深度学习算法的AI合成视频和音频真伪鉴别，难度比较大。

中外刑事法学研究特别鸣谢

北京市尚权律师事务所

作为国内首家专注刑事辩护的律师事务所，尚权始终致力探索刑事业务的专业化、品牌化，在刑事辩护领域具有深厚的理论与实务积淀，享有业内广泛赞誉。

中外刑事法学研究

公众号投稿邮箱：sundaocui@sina.com

辑刊投稿邮箱：xingshifaxueyanjiu@163.com