大数据系列 | 强烈推荐 | 卫晨曙：论刑事审判中大数据证据的审查

司法兰亭会 2023-10-09

收录于合集

#大数据证据 9 个

#大数据 18 个

#证据 62 个

#电子数据 75 个

（题字：南开大学法学院校友安尧）

卫晨曙

中国政法大学证据科学研究院博士研究生

发表于《安徽大学学报（哲学社会科学版）》2022年第2期，注释从略，如需引用，请参照原文。来自公众号“刑诉理论工作坊”。

当前，大数据、人工智能技术催生出的“大数据证据”已经出现在庭审实践当中。

尽管这种新的证据形式提高了事实认定者的认知水平，但同时也隐含着人为偏误与证据失真的证据风险，司法实践需要一套针对于大数据证据的审查体系。

大数据证据浸润在数据社会这一外部环境当中，同时又因机器学习的内部技术原理，而呈现出以电子数据为表现形式和以专家证据为证据内核的证据属性。

这决定了大数据证据的审查，一方面要根植于电子数据的规则传统进行证据鉴真，另一方面要对机器学习的源代码进行可靠性评估，以完成大数据证据的相关性判断与可靠性评价。

同时，应当以调整证据种类制度、完善电子数据鉴真制度以及构建大数据证据质证机制作为大数据证据审查的配套机制。

问题的提出

达马斯卡认为：“站在20世纪末思考证据法的未来，很大程度上就是要探讨正在演进的事实认定科学化的问题。”然而，科学技术的迭代变革，已经远超出达马斯卡在20世纪末的设想。

近年来大数据、人工智能技术迅猛发展，许多以大数据、人工智能技术生成的证据材料逐渐从“幕后”走向“台前”，事实认定已经逐步呈现出自动化、智能化的趋势。

大数据证据便是在这一新技术革命背景下诞生的一种新的证据形式。大数据证据是指运用大数据技术，对海量数据进行收集、存储、分析所形成的能够证明案件事实的证据信息，这些数据难以凭借人类经验进行分析和处理，因而大数据证据呈现出以海量数据为基础，以智能算法为核心，以自主判断为表征的特点。

当前，大数据证据已经出现在国内外司法实践当中，例如，在美国康涅狄格州的一起杀妻案中，一位男子声称其妻子是在躲避入侵他们住宅的罪犯时被杀害，但是妻子所佩戴的FitBit却显示当时她正在外散步，与该男子所描述的事实有所出入，该男子随后被指控谋杀。在我国，有法院在司法证明中运用人脸识别系统的运行结论，例如一份法院判决书载明“根据海康系统人脸识别高级运算法则，人脸相似度大于95%，可以认定为同一人，确定本案的嫌疑人为王某某。”

但是，大数据证据在事实认定过程中蕴含着风险，主要包括：

第一，人为偏误。大数据证据的真实性取决于生成该证据的机器学习程序代码，但该程序代码是需要人类程序员进行设计与训练的，它们执行的是人类程序员的指令，因而它们反应的是程序设计者的事实预设和价值取向。例如在智慧司法领域经常被提及的美国COMPAS量刑程序软件，其所暴露的种族歧视风险被社会所诟病。

第二，算法失真。由于机器学习技术具有自主性，会对其所处理的数据进行再加工，从而导致原始事实失真，例如有科技界人士曾评论称，华为P30Pro手机拍照，可能存在AI软件对照片进行加工的可能，这可能导致以音视频形式呈现的大数据证据的准确性降低，这些证据风险很可能成为事实认定错误的诱因。

因此，为了规范大数据证据的适用，降低事实认定错误的风险，本文首先分析大数据证据的技术原理，明晰大数据证据的证据属性，在此基础上构建大数据证据的审查体系和配套机制。

大数据证据的技术原理

（一）大数据技术的原理描述

当前，大数据、人工智能技术往往同时出现在人们的视野当中，这是因为二者之间存在着紧密的联系：一方面，当前的人工智能建立在海量数据基础之上，数据越多，人工智能的行为结果就越近似于人类行为，另一方面，大数据技术为人工智能提供了强劲的数据存储、计算能力。

因而，有论者又将大数据证据称之为人工智能证据。为了保持与既有大数据证据学术讨论的一致性，本文不特别区分大数据技术与人工智能技术，统一称作大数据技术。

大数据技术离不开数据与算法的支撑，前者是大数据技术的“燃料”，后者是大数据技术的“引擎”，二者共同构成了大数据技术的架构：

一方面，从算法的角度而言，算法（algorithm），是数学或计算机科学领域的专用术语，本质而言是解决某一特定问题的步骤，而且该步骤具有有限性与明确性。不同的算法采取了不同的数据处理路径，因而一项大数据技术的目标或功能是由算法决定的。

另一方面，从数据的角度而言，与目前的大数据技术相比，传统的数据分析技术并不具备智能化、自反应性与自适应性的特点，申言之，传统数据处理程序仅能处理人工输入的数据，而不具备对数据的自动选取、清洗以及筛除功能。

而当前大数据技术凭借“机器学习”这一技术关键，实现了数据的自动提取、挖掘、碰撞与分析，其中深度学习（deep learning）是机器学习的重要分支，当前绝大多数的大数据、人工智能技术主要采取这一技术路径。本文关于大数据技术原理的介绍主要围绕深度学习技术展开。

深度学习模仿的是人类的神经元网络，从生物学意义而言，在人脑中，细胞体、轴突和树突构成一个神经元，多个神经元构成相互联结的神经网络，一个神经元得到信息输入后，单个神经元会把计算负担分摊到整个网络上进行“并行处理”，并由整个网络负责信息输出，这为工程学意义上的神经网络奠定了生物学结构基础，所谓深度学习就是用很多层神经元构成的神经网络达到机器学习的功能。

其中，数据就相当于“神经元”，算法就相当于“神经元的联结方法”。具体而言，一项深度学习任务的完成一般分为两步：

第一是设立深度学习的目标或任务，比如图像或面部识别、数值预测、语音转录文本、机器翻译，等等。

第二是在此基础上进行数据训练，以人脸识别为例，程序员先将某人的面部特征数据化并将其输入机器，这些数据被称为“训练数据”，程序员在训练数据的基础上引导机器学习、挖掘面部特征数据与特定人之间的关系，这一过程被称为“监督学习”。

如果机器经过监督学习能够对该人的面部进行识别，那么程序员会将其放入一个数据测试集中进行测试，调试机器识别的准确率直至达到所预期的精度水平，该机器便可在更大范围的环境内进行人脸识别。

（二）大数据技术的程序实现

在计算机学科中，算法、程序、软件是三个联系紧密又有所区别的概念。概而言之，算法是解决某一问题的思路，而程序是将算法转化成能够被计算机执行的命令语言，是算法在计算机上的实现，软件则是一个或多个程序的集合。因而，上文所描述的大数据证据的技术原理，需要一整套具有机器学习功能的计算机程序予以实现，而计算机程序以代码为载体。

一般而言，计算机程序代码的编写主要包括，源代码编写和由编译器将源代码转为机器代码前后相继的两部分。源代码（source code），是指计算机程序的源生代码，是由程序员边编写的原始文件，而机器代码又被称为目标代码（object code），是源代码经过编译器转化输出的二进制形式的机器指令。就二者关系而言，源代码在计算机程序中发挥着基础性作用，如果需要对目标代码进行修改的话，必须先行修改源代码。

以上文所述的“人脸识别”功能为例，计算机程序员首先确定程序代码欲以实现的人脸识别目标，在此基础上运用C、C++、Java以及Python等计算机程序语言进行源代码编写，然后运用“调试器”对已经编写好的源代码进行测试，观察能否达到最初的功能预期并进行优化调试，之后再通过“编译器”将源代码转译为由“0”和“1”组成的二进制代码，该二进制代码是能够被计算机识别的机器代码。至此，一套具有人脸识别能力的计算机程序代码才得以完成。

大数据证据审查体系的构建

（一）大数据证据审查的前提：证据属性分析

构建大数据证据审查体系的前提是辨明证据属性。在证据法理论中，不同的证据属性要求特定的审查规则，例如言辞证据侧重于证人的可信性（credibility）审查，主要审查证人的作证能力以及诚实性，而包括电子证据在内的实物证据则注重对证据进行鉴真，保障证据的同一性与真实性。当前学界关于大数据证据的属性之争尚无定论，有论者将之视为类鉴定意见，有论者认为其属于实物证据，有论者主张应当将大数据证据作为一项独立的证据种类。

这些观点普遍采取了单一化视角，忽视了大数据证据内部证明机理和所处的外部环境对证据属性产生的多元化影响。具体而言，大数据证据的证据属性主要表现为以下两方面。

首先，从内部证明机理而言，大数据证据以专家证据为证据内核。在证据理论中，意见证据是指作证人发表对案件事实的评论、判断、推测等意见性主张，根据作证主体的不同，意见证据可以分为普通证人意见证据和专家证人意见证据。从证人作证的一般原理而言，证人应当根据自己的亲身感知或第一手知识进行陈述，不能在此基础上作出对案件事实的意见性论断，因为普通证人的意见证性评论可能会存在谬误，误导事实认定者，并且有可能僭越本应由事实认定者所享有的对证据进行评价和判断的权力。因而，为了保障事实认定的准确性，证据规则会对普通证人意见证据予以排除。

但专家证人意见证据与之相反，因为专家证人具备事实认定者缺乏的专业知识或技能，能够有效弥补事实认定者的认知短板，因而面对案件中的专业性问题，专家证人根据专业知识、技能经验所作的推论或意见能够有效弥补事实认定者的专业鸿沟，从而能够进入事实认定者的视野。

大数据证据遵循与专家证人意见证据相同的证明机理。大数据证据依赖深度学习技术，这就决定了大数据证据是生成性质的，换言之，大数据证据是通过数据挖掘与数据碰撞产生了不同于既有数据的“新”的信息，这是与当前电子数据这一法定证据种类的本质区别。

一方面，大数据证据的海量数据已经远超法官的专业范畴或技能范围，数据的提取、固定以及处理模型的构建均需借助专业知识。大数据技术能够破除法官所面对的专业壁垒，辅助事实认定者进行事实认定。

另一方面，与传统专家意见不同的是，大数据技术是通过从数据海洋中提炼数据经验并形成自主判断，发现难以通过人工方式总结的客观规律以及隐藏的、人类难以发现的客观联系，例如运用深度神经网络对相关数据特征进行提取，发现犯罪组织的资金转移规律。

这一知识发现过程主要依靠的是具有机器学习功能的程序代码，机器学习技术在大数据证据的生成过程发挥着更具基础性的作用，人类专家的主体地位在此过程中不断式微，程序代码甚至反过来“控制”着人类专家，可以说程序代码才是生成大数据证据的“专家”。所以，大数据证据可以看作是由人工智能程序代码生成的新型专家证据。

其次，从所处外部环境而言，大数据证据以电子数据为表现形式。大数据证据虽然衍生于以大数据、人工智能为代表的新技术革命，但并非横空出世的一种证据形式，依然植根于信息社会的历史脉络之中，电子数据载体仍然是其存在方式。

根据现行刑事诉讼法，电子数据作为一种法定的证据种类，具有独立的证据地位。但是，电子数据作为一种信息的载体或媒介，任何证据形式都可以电子数据的形式表现出来，有学者甚至认为“电子数据实际上就是传统证据电子化”。

大数据证据同样也难以摆脱电子数据的形式外衣。一方面，从当前数据社会的角度而言，万事万物都浸润在数据海洋之中，大数据证据即是在这种数据化环境之中凝练出的“数据经验”，会以电子化数据的形式呈现出来；另一方面，从证据制度的演进视角而言，有论者称大数据证据是电子数据的高阶形式，“只是在数量级和复杂性上与前者（电子数据）存在差别。”

因而，电子数据作为大数据证据的载体或媒介，在构建大数据证据审查体系时不能脱离电子数据的审查规则，鉴于电子数据自身的技术性、依赖性以及无痕性等特点，仍需将电子数据的提取、固定、审查和认定等规则考虑在内。

这种证据审查方式在当前的规范层面上已有规定，例如，在以电子数据形式呈现的言词证据审查问题上，《电子数据规定》第1条第3款规定：“以数字化形式记载的证人证言、被害人陈述以及犯罪嫌疑人、被告人供述和辩解等证据，不属于电子数据。确有必要的，对相关证据的收集、提取、移送、审查，可以参照适用本规定。”

该条款明确了以数字化形式呈现的言词类证据不属于电子数据，要适用言词证据的审查规则，但同时表明了数字化形式可能会对该类证据形式的真实性和完整性产生影响，因而在必要情况下也可适用电子数据审查的有关规定。

总而言之，大数据证据具有以电子数据为表现形式，以科学证据作为证据内核的证据属性，是一种重叠着传统与现代、实物证据与意见证据的证据形式。

所以，大数据证据审查体系的构建需要考虑其多元化的证据形式，既不能脱离电子数据审查的传统，同时也应当根据专家证据证明特点设置相应的审查规则。

（二）大数据证据的审查铺垫：证据鉴真

鉴真（authentication），是指证据提出者必须用证据充分证明（sufficient to support）所提出的特定证据确实是其所主张的证据。鉴真是审查实物证据证据能力的重要环节，鉴真不仅能够对实物证据的真实性进行鉴别，同时也能保证实物证据的相关性。

证据鉴真作为大数据证据审查的第一步，是因为大数据证据以电子数据为存在方式，由于电子数据的虚拟性与依赖性，其遵循不同于一般实物证据的鉴真机制，有学者将之称为电子数据的双重鉴真模式。概而言之，一方面要审查电子数据的物理存储介质，例如计算机、手机、硬盘等，另一方面要审查能够使电子数据以证据事实的形式为人感知的载体，例如声音、图像、数字、代码等。

在大数据语境中，大数据证据一方面需要依托有形的物质载体，例如计算机、智能手机、运动手环等一系列智能终端；另一方面，生成数字、图像以及音视频的内部数据或代码，是大数据证据能够为人们所感知的主要媒介。因此，大数据证据的鉴真也主要从以下两方面展开。

首先，需要对大数据证据的物质载体进行鉴真。物质载体的鉴真主要分为两种情况，第一，如果物质载体属于特定物，具有与众不同的特征，容易辨认，那么直接对该物质载体进行辨认就能达到鉴真的目的；第二，如果物质载体是种类物，不具有区别于其他物体的独特特征，则适用保管链证明。具体是指从侦查机关搜查、扣押证据开始到法庭出示证据这段区间内，物质载体保管、流转的完整性。

大数据证据的外部载体鉴真与一般实物证据鉴真并无二异，应当着重审查证据保管链条的主体是否合法、是否尽到证据保管义务、证据流转是否连续完整等。

另外，还需要注意的情况是，在原始介质无法封存、不便移动时，根据2020年底颁布的《最高人民法院关于适用<中华人民共和国刑事诉讼法>的解释》（下文称《新刑诉法解释》）第110条第1款的规定，需要审查有无说明原因，以及是否有对电子数据的收集、提取程序，存储介质原始存放地点以及电子数据来源等情况予以说明。大数据证据物质载体的封存以及大数据证据内部数据和代码的收集和提取，同样适用于该条规定。

其次，大数据证据内部数据或程序代码的鉴真。第一，计算机程序代码和数据与之生成的大数据证据的同一性审查。上文已述及，不同的计算机程序代码具有不同的功能指向，因而需要对涉案大数据证据所对应的特定的计算机程序软件进行同一性审查；第二，生成大数据证据的数据或代码的完整性审查，防止数据或代码被调换、裁剪或编辑。

同时，需要注意的是，生成大数据证据的数据库内的在线数据不仅数量巨大，并且处于实时变动之中，可能导致在不同的时间节点下生成不同的大数据证据，从而影响大数据证据的同一性或完整性。

针对此问题，在鉴真时，一方面应当运用电子数据冻结措施，例如，《电子数据规定》第11条、第12条分别规定了电子数据冻结的情形和方法，通过电子数据冻结保障大数据证据的实时性和同一性；另一方面，可以凭借新兴的技术手段保障大数据证据的完整性，例如及时通过完整性校验、哈希值校验以及当下的区块链技术等防止数据篡改的技术手段固定数据。

（三）大数据证据的可靠性评估：源代码审查

如果说专家证人的资质和可信性是影响专家证言的关键，那么生成大数据证据的源代码的可靠性则是决定证据可靠性的核心因素。

一方面，源代码作为计算机程序的通识语言，具有可识读性。源代码是由通用的程序语言编写的，其他编程人员也能够进行读写与理解。

另一方面，如上文所述，源代码是主导大数据证据生成的核心，证据的可靠性与源代码紧密相关，因为源代码的准确性是计算机程序正常运行的最根本保障。

大数据证据的可靠性依赖于计算机程序的准确性，而充分理解计算机程序的唯一途径（only way）就是阅读程序的源代码，有论者曾言“如果不对源代码进行审查，就发现不了程序的错误。”

首先，监督学习过程中源代码的“训练数据集”审查。根据上文所述的技术原理，机器学习的前提是要有一套训练数据集，以此为基础训练算法，使其具备根据目标任务自主抓取、挖掘、分析数据的能力。训练数据集作为机器学习的开端，在审查大数据证据时，应首先对训练数据集的数据质量进行审查。

第一，在数据收集阶段。大数据技术离不开数据的“喂养”，“垃圾进，垃圾出”表明了数据收集是影响大数据技术可靠性的首道关口。数据收集一般可以分为数据源和收集方式两部分，数据源一般是指各类系统、网站以及传感设备，数据源是否运行稳定、是否经过篡改、是否被网络黑客所攻击等因素是评估数据源可靠性与真实性的主要标准。

与此同时，大数据的收集方式也是影响数据真实性与完整性的重要因素，比如，互联网数据爬取是当前数据收集的主要方式之一，而爬取互联网数据爬虫软件的时间设置则是影响原始数据收集范围与时效性的重要因素，在证据审查时应当着重关注；

第二，数据预处理阶段。数据预处理主要是对所收集的数据进行“清洗”或“标注”。监督学习型的大数据技术，在这一阶段一般需要大数据技术工程师人工介入进行处理，因而人为因素是影响这一阶段数据质量的主要因素。

对此可以从以下几方面进行审查：（1）数据标注是否有统一的行业标准，对数据采集点、采集内容以及采集频率等数据标注流程是否有明确的操作规定；（2）数据标注过程中数据工程师的综合素质，他们是否专业化、能否中立地进行数据标注、工作态度是否认真、是否在数据标注过程中为达到某一数据处理目的而数据造假等因素。这是评估数据预处理阶段训练数据集的主要标准。

其次，大数据证据源代码的可靠性审查。传统专家意见证据的可靠性审查，重心在于专家所依赖的理论或技术的可靠性和准确性，美国多伯特案件为专家证据的可靠性审查提供了标准，主要包括四方面：（1）专家证言所依赖的理论或技术能否以及是否能够经过测试或检验；（2）该理论或技术是否经过同行评议；（3）该种理论或技术已知以及潜在的错误率是多少；（4）该理论或技术是否为相关领域所普遍接受。这四项标准为大数据证据源代码的可靠性审查提供了思路。

第一，源代码的可重复性测试。根据上文所述，源代码是一套预先设置的解决某一问题的固定步骤，这使得源代码的处理结果具有可预测性，不受反复无常的主观化个人的影响，因而，对源代码进行可重复性测试，并且评估每次测试结果的一致程度便可以评估源代码的可靠性，这同时也规避了算法黑箱的技术难题。

美国纽约上东区法院在审理一起案件时发现，纽约州警局犯罪实验室未对STRMix这一DNA分析软件进行任何内部验证（internal study），法院因此排除了这一软件生成的DNA报告。

第二，源代码的同行评议。计算机程序语言的两个顶级会议 POPL和PLDI发布了有关计算机程序语言论文的严格评审流程，因而，法官可以通过评估有关源代码程序语言的论文发表刊物级别，会议层级，是否有严格的同行评议机制等因素对源代码的可靠性进行审查。

第三，源代码的错误率。由于错误率对计算机程序的稳定运行十分关键，计算机科学家也总结出了许多评估计算机程序代码错误率的方法，概括而言，可以从源代码的使用年限、复杂性以及源代码的历史故障率等方面进行评估。

第四，源代码在相关领域的普遍接受度。由于不同的源代码所实现的程序功能不同，关于源代码的接受度不能一概而论，因而应当从特定的源代码适用领域出发来评价其普遍接受度，比如人脸识别、数字金融、智慧健康医疗领域等等。在此基础上，可以通过相关源代码的行业声誉、适用范围、适用时长、用户满意度等要素对其普遍接受度进行评估。

大数据证据审查的配套机制

上文所构建的审查体系是大数据证据审查的应然范式，将这种理想样态落实到实践中仍然需要一系列配套的体制机制，主要包括以下三方面。

（一）突破法定证据种类的藩篱

法定证据种类是我国证据规则构建的逻辑前提，但是这种法定的证据种类制度难以应对日新月异的社会进步以及纷繁复杂的司法实践，例如在《新刑诉法解释》颁布之前，广泛存在于司法实践之中的价格认定报告、会计审计报告等证据形式，均因不属于法定证据种类而难以纳入证据审查体系。

当前新技术革命催生出的大数据证据也不例外，面临着相同的证据种类归属难题。因而，为了破解这一问题，需要突破当前法定证据种类的制度约束，探求契合司法实践的大数据证据审查路径。

首先，应当注重证据审查规则的构建和完善，避免过度纠缠大数据证据的证据种类问题。为了实现这一目标，可以大陆法系证据理论中的证据方法为进路。在大陆法系的证据理论中，证据包括证据资料与证据方法，证据资料是指可能与待证事实相关的所有的资讯内容或速素材，而证据方法则是调查证据资料内容的手段。

因而，在证据法中，“法定”的不应当是某类证据类型所携带的证据信息，因为任何一种人、地、物，都有可能是与待证犯罪事实直接或间接相关的咨询内容或素材，而应当是审查各类证据的调查方法，例如，欧陆刑事诉讼中法定的证据方法主要包括五种，即人证（询问）、勘验、鉴定、文书（宣读）以及被告（讯问）。

对于我国的法定证据种类制度，有学者批评道：“就是没有充分认识到证据法的基本功能在于对诉讼中运用证据的行为进行规范。”因而，面对大数据证据，在明晰证据属性的基础上应当注重具体审查规则的构建和更新，不应当过度纠缠其到底属于何种法定证据种类。

同时，“证据方法具有一定的开放性，并不必然对应某一种证据形式，”同一证据可以组合多种证据方法予以审查，这也契合了大数据证据兼具电子数据与专家证据的多元证据属性。

其次，可以通过司法控制的方式为大数据证据审查规则提供规范路径。大数据证据审查可靠性的审查要深入至机器学习的源代码，而当前的证据审查规则尚未对机器学习源代码审查有完善的规定，这可以通过司法解释或指导性案例的方式予以实现。

这种通过司法调控的方法确立证据审查规则的方法在我国当前的司法实践中并不鲜见，例如，《新刑诉法解释》第100条规定：“因无鉴定机构，或者根据法律、司法解释的规定，指派、聘请有专门知识的人就案件的专门性问题出具的报告，可以作为证据使用。”这条规定赋予了专门性问题报告在审判中的证据资格地位，同时也明确了其审查规则，回应了我国司法实践中大量存在的“价格鉴定报告书”“会计审计报告”等证据材料的法律地位和证据审查难题。

又如，最高人民法院2020年12月29日发布的第26批指导性案例中明确了专门性问题报告的证据地位。这种通过司法解释或指导性案例的方式，能够疏解法定证据种类制度的封闭性和滞后性，也可以有效应对当下大数据证据审查规范依据阙如的困境。

当然，借由司法解释的路径将审查大数据证据规则规范化，是应对当前新技术革命的权衡之策，因为通过司法解释创设证据审查规则，会侵蚀证据规则体系的合法性与融贯性。造成这种困境的原因，在于我国证据制度中证据种类与证据审查规则的联结过于紧密，证据审查规则完全依照证据种类展开，而证据种类划分又不周延，导致一些新兴证据形式难以归入既有的证据审查规则进行审查。

因而为了实现证据种类与证据审查规则的适度分离，可以通过整合我国当前的法定证据种类，将之归纳为言词证据、实物证据和派生证据这种证据范畴容纳性更高的证据类型，实现证据审查规则的灵活适用。而这一过程并不是一蹴而就的，其有赖证据规则体系化的宏大进程，仍然需要立法、司法以及理论界的持续努力。

（二）完善电子数据鉴真机制

根据上文所提及的大数据证据与电子数据的关系可知，大数据证据的鉴真镶嵌于电子数据的鉴真机制当中，因而完善电子数据鉴真机制，对于保障大数据证据的真实性与同一性具有十分重要的意义。

在2010年两高三部颁布的《关于办理死刑案件审查判断证据若干问题的规定》（下文称《关于死刑案件证据规定》）中，开始出现了对电子数据的鉴真规定，之后的刑诉法解释吸收了死刑案件证据规定关于电子数据鉴真的规则，一套关于电子数据鉴真的规则体系初见雏形。

但是，2013至2014年间引发巨大争议的快播案暴露出了我国电子数据鉴真的严重问题，之后2016年两高一部《电子证据规定》的出台。这是我国首次以单独一部司法解释就某一特定证据种类进行规制，其中鉴真规定占比达三分之二，这无疑是我国电子数据鉴真体系的一大进步，但仍然存在着诸多有待完善之处，比如鉴真规则体系不完善，鉴真方法单一，鉴真程序依赖笔录类证据等。

大数据证据的鉴真要求，可能成为进一步完善电子数据鉴真鉴定规则的“证据法时刻”。

首先，丰富电子数据的鉴真方法，实现证据鉴真实质化、高效化。

一方面，从鉴真实质化而言，我国当前的物证鉴真实践中，笔录类证据是进行鉴真的主要途径，由于该类证据主观性较强、易于修改且难以完整还原物证提取、收集以及固定等过程的原貌，导致鉴真流于形式。有鉴于此，应当丰富电子数据的鉴真方法，逐步脱离对笔录类证据的依赖。

比如，知情人鉴真。知情人鉴真是物证鉴真中较为常用的方法，一般是指对物证的外部特征、收集、固定以及保管程序有亲身知识的人进行的作证。就大数据证据而言，知情人可以分为大数据证据数据或程序代码的设计者或制作者，大数据证据所存在的载体或终端的使用者以及大数据证据的收集、固定和保存者，他们可以对案件中大数据证据的同一性进行作证，实现鉴真目的。

再如，推定鉴真。推定鉴真是专门针对电子数据鉴真而提出的鉴真方法，因为在产生电子数据的程序或设备中会产生关于该电子数据的附属信息，例如时间、地点、设备名称等，这些信息产生于系统或设备的运行之中，受人的主观性影响较小，可以根据这类附属信息对电子数据的完整性和同一性进行推定鉴真。

另一方面，从鉴真高效化而言，可以凭借智能技术进行鉴真。随着人工智能技术的发展，知情人、技术专家可能也难以辨识人工智能算法对证据的修改，因而在一些图像智能化处理领域，有论者主张运用AI技术对人工智能算法加工的图像进行鉴真。

此外，可以尝试引入自我鉴真规则。自我鉴真（self-authentication），是指物证、书证等展示性证据的真实性已经得到证明，无需外部证据进行证明。美国联邦证据规则902条款列举了包括带有签章的国内公文、官方出版物等在内的12种自我鉴真的情形。

在大数据证据的鉴真过程中，可以设立自我鉴真规则，例如由政府机关收集的数据或认证的源代码生成的大数据证据，或由独立第三方评估过的程序代码生成的大数据证据等可以纳入自我鉴真的情形。

其次，平衡新技术发展与司法鉴定管理制度之间的关系。鉴真是鉴定的前提与基础，鉴定是鉴真的延伸与补充。当大数据证据因专业技术问题而存在着鉴真难题时，法官可以将证据审查诉诸司法鉴定。

但是，与美国由法官裁量评估新技术可靠性的方式不同，在我国是借由国家标准或行业标准等规定对新技术进入司法鉴定领域提供门槛，并且当前的鉴定机构并不具备自行制定有关技术规范的权力。这种司法鉴定管理体制意味着大数据证据的鉴定仍然要严格依照规范化的国家标准或行业标准，但是目前关于大数据证据鉴定的标准依旧付之阙如。

因而，应当寻求新技术发展与司法鉴定管理制度之间的平衡路径，树立技术自治的理念，恢复司法鉴定机构技术规范制定的自主性，可以通过向司法行政部门进行事前报备、事后评估监管的方式释放新技术在司法鉴定领域的效能。

在此基础上，应当加快相关技术国家标准或行业标准的制定步伐，为大数据证据鉴定提供规范化的制度标准，为大数据证据鉴定创造制度空间。此外，办案机关应当探索高效灵活的大数据证据审查机制，破解当下大数据证据的鉴定困境。

例如北京市海淀区检察院探索出的“检察官+数据审查员”新型办案模式，通过招录具有计算机背景和法学背景的人才，将具有计算机专业知识的检察员作为数据审查员，并吸收本院具有鉴定资质的专业人员，在不脱离各自岗位的情况下对电子数据进行审查分析，为专业鉴定机构先行锁定了海量电子数据中的“重点鉴定范围”，提高了电子数据的鉴定质效。

（三）构建大数据证据质证机制

我国《新刑诉法解释》第71条规定：“证据未经当庭出示、辨认、质证等法庭调查程序查证属实，不得作为定案的根据。”由于大数据证据特殊的证明机理，主导证据生成的源代码应成为证据质证的焦点。从域外的讨论来看，主张被追诉人获知（access）用作指控的机器证据的源代码并对其进行对质已经成为了共识。

具体而言，在我国的司法语境中，大数据证据的质证机制应当从以下两方面展开。

首先，大数据证据源代码的开示。因为源代码在生成大数据证据的过程中发挥着核心作用，源代码的准确性与可靠性决定着大数据证据的可靠性，甚至有论者主张将源代码的公开作为大数据证据可采性的条件之一。

但是，源代码一般涉及相关企业的商业秘密保护等权益，在国外的司法实践中，以商业秘密保护为由拒绝披露源代码的上诉请求得到了法院的支持。但是，多数学者认为在刑事审判中对商业秘密保护赋予证据上的特免权地位有过度保护的倾向，为了保障证据裁判的正当性，应当对源代码进行开示。

鉴于源代码特殊的商业秘密价值，源代码开示的关键在于开示的情形、程序与方式：

第一，从公开情形而言，当大数据证据是证明案件要件事实的关键证据时，源代码应当公开；当大数据证据充当的是间接证据、补强证据时，源代码可以公开，如果被告人及其辩护律师申请公开并担负保密义务的，应当向其公开；

第二，从公开范围而言，大数据证据的源代码公开仅限于经过鉴真的源代码，与该案无关的源代码禁止公开；

第三，从公开对象而言，大数据证据源代码应当主要向辩护律师公开，未聘请辩护律师的，可以向被告人及其近亲属公开，为了维护源代码的商业秘密价值，在向其公开的同时应要求保守秘密；

第四，从公开的方式而言，方式可以通过口头解释或者通过可视化的动画演示，以当事人的理解为标准；

第五，从公开的阶段而言，可以主要集中于庭前会议阶段。

其次，适用专家辅助人制度。因为大数据证据的专业性程度较高，这种知识上的不对等加剧了控辩之间的不平等关系，导致证据质证难以进行，为了缓解这一难题，可以借助专家辅助人制度。

在我国的诉讼语境中，专家辅助人又被称为“有专门知识的人”。我国2012年修改的《刑事诉讼法》第192条规定：“公诉人、当事人和辩护人、诉讼代理人可以申请法庭通知有专门知识的人出庭，就鉴定人做出的鉴定意见提出意见。”

尽管从文本上看，专家辅助人的作用仅局限于对鉴定意见进行质证，但是在司法实践中，在一些情况下专家辅助人已经超越了规范文本所规定的角色功能，例如就专业问题提供意见等，并且并未带来庭审失控的后果。

因而，第一，应当适度扩大专家辅助人的功能定位，不再局限于对鉴定意见提出意见，也可就相关专业问题提供意见。2020年颁布的《新刑诉法解释》明确了有专门知识的人就专门性问题出具的报告的证据地位，这为专家辅助人有效介入大数据证据质证提供了合法依据。

第二，明晰专家辅助人的法庭准入标准。可以综合考虑专家辅助人的执业经验、职称、行业知名度以及专业对口程度等因素，聘请专业化的计算机程序工程师等专业人员对源代码进行识读分析，判断计算机程序源代码的准确性和可靠性。

第三，明确专家辅助人质证的程序细节。从质证对象而言，专家辅助人应当仅能对与本案有关的程序代码发表意见；从权利义务角度而言，专家辅助人在享有发表专业意见的权利之外，同时也要担负独立客观以及对非开源源代码保守秘密的义务；如果专家辅助人出庭作证，为了保障其专业性与客观性，应在其发表完专业意见并接受询问后退庭，不得旁听案件的其他庭审环节。

结语

证据法学家达马斯卡在上世纪末展望证据法的未来时断言：“越来越多的对诉讼程序非常重要的事实，现在只能通过高科技手段查明。随着人类感官察觉的事实与用来发掘感官所不能及的世界的辅助工具所揭示的真相之间鸿沟的扩大，人类感官在事实认定中的重要性已经开始下降。”

当前，大量涌现在庭审中的科学证据，诸如DNA测序、血液酒精浓度测试等，都让位给超出人类感官经验的机器代码，事实认定者主要依靠一系列“真相机器”来查明案件事实，因而在传统司法证明过程中人类的主体性认知，逐渐演变成了数据社会背景下的人机分布式认知。

大数据证据就是在这种认知模式转型的背景下所诞生的一种证据形式，它通过机器学习技术在海量数据中凝练的“数据经验”进行自主判断，这种超越人类感官，凭借程序代码生成的证据，在当下的司法实践中成为了一种新的专家证据。

我国尚处于发展完善阶段的证据制度，面对这种诞生于新技术革命的证据形式，不得不面对旧的问题尚未解决，新的疑难已经诞生的窘境。这种新旧问题交叠的现实难题要求我们对大数据证据审查体系进行调整和创新：

一方面，大数据证据不可能脱离当下的电子信息社会而真空存在，与电子数据之间的紧密关联要求既有电子数据审查制度的完善更新；

另一方面，机器学习等新技术对司法证明领域的渗透不可避免地存在着大数据证据失真风险和技术伦理困境，又要求我们对机器学习源代码的审查体系，以及证据种类、证据开示以及法庭对质等一系列证明机制进行反思与创新，最终为大数据证据的可靠性审查确立一套完善的审查体系。

“刑诉理论工作坊”欢迎投稿欢迎建议

283683350@qq.com

■ 排版 | 张嘉源

■ 编辑 | 张嘉源

以下点击可读：新媒首发 | 马明亮、王士博：论大数据证据的证明力规则 | 强烈推荐