大数据X证据:认知与认定
编者按:大数据已经逐步走入并且深刻影响着我们的日常生活。那么大数据能否作为一种实物证据来左右司法裁判呢?如果可以,则又应当如何对其实现有效的审查呢?本文作者针对这些问题给出了自己的答案。相信读完本文您一定会有一些不一样的收获!
作者简介
陈粤闽,中国政法大学刑事司法学院2019级本科生。
Ps:因排版需要,注释已略去。
【摘要】大数据证据的内部构成包括海量数据、算法以及大数据报告。从外部来看,大数据证据和鉴定意见存在主体和性质上的根本不同,而与实物证据共同具备高度客观性、可展示性和间接性等重要性质,应具备“三阶实物证据”属性。进入法庭时,大数据证据应通过数据合法性、算法客观性以及大数据报告关联性三道排除性校验的门槛。数据审查可参照《电子数据规定》,算法审查应从透明度和可解释性两个维度出发,大数据报告审查则通过数值刻度和贝叶斯定理进行数值证明力的区分。从宏观的角度出发,以认罪认罚从宽、口供轴心以及在线诉讼为例,大数据证据能为司法程序的前进提供驱动力。但由于技术与制度尚不成熟,应当谦抑地使用大数据证据。
【关键词】实物证据 大数据证据 算法透明度 数值刻度 在线诉讼
一、问题的提出:大数据证据何以适用?
以大数据技术为主导的第四次工业革命正在以肉眼可见的方式改变我们的生活。世界的本质变成了数据,我们打开手机,浏览网上商城,产生了“浏览记录”;我们前往远方,打开导航软件查找最优路线,后台就能收集“行程记录”。2014年的巴西世界杯,德国队通过数据建模,为每个球员制定了细腻的作战方案,最终一举夺魁,大数据也被称为德国队的“第十二人”。“数据为王”的时代里,拥有数据就拥有了一切,司法也不例外。2020年全国公布的1260253件刑事审判案件中,将近60万起案件采用了人脸识别报告、资金流转记录分析等大数据证据。2021年,大数据证据与司法连接愈发紧密。最高人民法院出台了人脸识别司法解释,审理了人脸识别第一案,各级检察机关起诉网络诈骗等犯罪达28.2万人,同比上升98.5%。高检报告还指出,“要深化司法体制改革,以大数据战略赋能法律监督。”大数据如同锦囊妙计,在司法中大显神通。
然而,有个重要的问题在二者融合的热潮中被掩盖了——我国部门法大多未对大数据证据做出系统性法律规制。计算机和网络的发展为大数据的火箭式上升提供了充足的技术条件,立法机关难以预知短短几年内发生的翻天覆地的变化。因此,四年前《刑事诉讼法》修改并未将大数据证据写入证据章节中。当前,出于应对案件的需要,司法机关对于大数据证据进入法庭秉持“来者不拒”的态度,只要与大数据相关,对案件的侦破起到帮助的证据都可称为大数据证据。证据是案件的灵魂与核心,“沾边即认”的态度会导致证据准入门槛虚置,法官的工作量不减反增。大数据证据进入法庭不仅没有起到推动智慧司法建设的作用,反而降低了法官的办案效率。
事实上,早有学者就现行法律框架下如何适用大数据证据展开了讨论,包括大数据证据的属性、大数据证据的规制等问题。但由于大数据证据出现时间短、内部构成复杂、存在技术鸿沟等缘故,问题的讨论仍然处于“蓝海”阶段,参与讨论的学者也大多避开“大数据证据”概念本身的构建,直接大谈特谈其适用。笔者认为这种思考进路在逻辑上存在本末倒置的问题。盖楼需先打好地基,只有先厘清“大数据证据”这个概念,才能有的放矢地对其适用问题进行研究。
因此,笔者提出“大数据证据是什么”这个问题,从大数据证据的内涵与外延两方面出发来构建大数据证据的概念。在大数据证据的内涵分析上,笔者先对“大数据”进行定义,然后进一步构建“大数据证据”的概念,提出大数据证据应由海量数据、算法以及大数据报告构成。因大数据证据与鉴定意见作出主体不同、可复现性等重要性质不同等根本差异,笔者否定了“鉴定意见说”,并发现大数据证据与实物证据共同具备客观性、可展示性以及间接性等相同本质,笔者将大数据证据归类为实物证据,并根据大数据证据的内部构成提出了“三阶实物证据说”。
基于相关关系的大数据证据无法完全适用因果关系审查规则。因此,笔者从其“三阶实物证据属性”出发,提出应确立数据合法性、算法客观性、大数据报告关联性三重反向排除性校验门槛。在数据合法性的审查阶段,大数据证据与电子数据仅存在量上的区别,因此可以参照《电子数据规则》进行审查,但大数据技术对信息的收集更加彻底,为避免个人信息权被过度侵犯,笔者提出还应当进行数据收集的比例原则审查。算法客观性审查应从算法的透明度和可解释性出发。对于透明度审查,应根据代码的公开情况分别进行黑盒测试或白盒测试。当代码处于不透明的状态时,应由法官进行公开算法与证明案件之间的个案裁量;可解释性是目前科学技术无法解决的问题,只能通过构建解释模型与函数,观察可视化外部结果的方式进行排除性校验。大数据报告的关联性则需要进行形式与实质的双重审查。前者针对大数据报告的结论与案件事实是否存在关联,后者则针对结论数值的证明力问题。笔者借鉴刻度盘理论,通过分别总结同类案件作为实质证据与辅助证据的大数据报告数值,用“数值刻度”的方式人为划定高中低三个标准进行结论的证明力判断。根据不同的数值,相应的证据进行相应的适用,或是采用贝叶斯定理进行进一步检验。
在微观层面进行讨论后,笔者将目光转向宏观领域,开始思考大数据证据对司法程序产生的影响。大数据证据与人工智能不同。人工智能主要从外部出发进行建设,而大数据证据更多从内部改进司法程序,这部分的讨论是“蓝海中的蓝海”。笔者以认罪认罚从宽、口供轴心以及在线诉讼为例展开论述。大数据证据能够贴合“认罪”、“认罚”、“从宽”中的每一部分,通过人脸识别报告等让当事人主动认罪,对当事人的信息、心理等数据采集后进行分析,从而出具量刑建议与人身危险性评估报告,使认罪认罚从宽制度产生新形态的适用。对于口供轴心体制,大数据证据能够完成原本只有口供才能完成的工作。不仅如此,算法能够提供验证言词证据合法性的路径,倒逼公安机关减少刑讯逼供,落实人权保障。对于新兴的在线诉讼,大数据证据的证据规则能够为确立新的证据规则提供经验与指引。但需要注意的是,当前技术与制度都尚不成熟,谦抑地适用大数据证据,才能更好地发挥大数据证据的功能。
二、大数据证据的内部构成与外部属性
2018年7月1日,刘某与同事在同一时间、同一地点下单了同一家外卖的相同食品,因两人价格不同,刘某状告美团“大数据杀熟”。此案过后,大数据证据逐渐进入了公众视野。大数据证据是什么?实务界与理论界从不同的认知角度出发对这个问题展开了讨论。实务界大致可以分为数据载体、数据本体或副本、大数据报告、数据本体和大数据报告的组合四种观点,学界则从“言词证据与实物证据”这对周延概念出发,提出了“鉴定意见说”“特别书证说” “独立证据类型说” “证人证言说”等,不一而足。其中,呼声最高的当属“鉴定意见说”。那么,大数据证据能否认定为鉴定意见?如果不能,那么大数据证据又当属何种证据?笔者从大数据证据的概念构建出发,先讨论大数据证据的内部构成,之后由内及外,进行大数据证据的属性讨论。
(一) 大数据证据的内部构成
国际社会公认的“大数据”定义有三个,一是顶级咨询公司麦肯锡(McKinsey)提出的“比较定义”,点明了大数据体量巨大的特征;二是国际数据中心(IDC)提出的“属性定义”,指出了大数据高效获取信息价值的能力;三是美国国家标准和技术研究院(NIST)基于处理速度、数据规模以及分析原理提出的“架构定义”。三种定义方式各有千秋。笔者将其进行横向对比后认为,“大数据”至少具备三个重要特征,即“信息量巨大”、具备“信息挖掘能力”和“经济价值”。
厘清大数据的外延与内涵后,“大数据证据”的概念不言自明。“大数据证据”是“大数据”与“证据”两个语词组合形成的概念。对于此种复合型概念,一般通过着重解释核心语词进行界定。例如,刑事诉讼法的核心语词是“刑事诉讼”,因此界定时自然将民事关系排除在外;实物证据的核心语词是“实物”,因此归类时就会将鉴定意见等不具有实物特征的证据排除在外。以此类推,“大数据证据”的核心语词应当是“大数据”,大数据证据的内涵也应与大数据的基本特征一一对应,即“信息体量巨大”对应海量数据本身,“具备信息挖掘能力”对应作为工具的算法,“具有经济价值”的可视化结果是大数据报告。一言以蔽之,大数据证据的内部构成至少兼具海量数据、算法以及大数据报告三者。
(二) 大数据证据的实物证据本质
在明晰了大数据证据的内部构成后,笔者以“鉴定意见说”为切入,将大数据证据与鉴定意见进行对比,讨论大数据证据的本质属性。
1. 大数据证据与鉴定意见关系辨考
与鉴定意见相似,大数据证据的形成过程无法直接展示,结论也需要专业人员运用科学知识解释后方能为法庭理解。例如骨龄鉴定,鉴定人需要运用生物知识对比骨骼大小、骨骼形状等相关特征来出具载有被鉴定人年龄或年龄区间的鉴定意见;再如资金流水记录,证据提供者需要对海量记录进行分析,来判断P2P平台是否存在“爆雷”现象,而这个判断的过程需要专业人员做出说明与解释。大数据证据以鉴定意见的形式进入法庭,具有运用上的合理性。
不可否认,“鉴定意见说”缓解了立法欠缺与司法实践迫切需要的尴尬处境。然而这种归类方式存在“重外观,轻内在”的弊端,仅关注大数据证据外在运用上的便宜,忽视其与鉴定意见的本质区别——鉴定意见的出具主体是鉴定人,大数据证据的生成主体是人工智能。尽管后者发展迅速,但当前的伦理道德尚未承认人工智能与人类的同等性。将大数据证据视为鉴定意见意味着将人工智能与人类在一定程度上等同,“在由专家作出判断的司法鉴定体制中也是一个过于超前的突破”。
此外,鉴定意见无法复现。鉴定意见是鉴定人依靠专业知识在经验主义的指引下做出的比较与推测,得到的结果是特称命题而非全称命题。鉴定过程不可避免地会受到鉴定人自身因素的影响,例如鉴定人的心情、对鉴定物的熟悉程度等,这些影响因素导致由同一鉴定人出具的鉴定意见无法被重复呈现,因此控辩双方对鉴定意见提出异议时需要鉴定人出庭并说明情况。而被司法人员直接感知的大数据报告是海量数据经过特定算法“清洗、筛选、加工、比对、碰撞”得到的结果。在算法控制的前提下,只要本体的海量数据不被污染,大数据报告就可以在司法程序的任何一个阶段予以复现。
综上所述,“鉴定意见说”能够满足归类便宜与司法效率的需要,但大数据证据与鉴定意见存在作出主体和诸多重要性质不同的本质区别。因此,大数据证据不应被认定为鉴定意见。
2. 大数据证据与实物证据具备共同属性
在大数据证据不能认定为鉴定意见的前提下,因其与实物证据共同具备高度客观性、可展示性、间接性等重要属性,将其认定为实物证据存在合理之处。
(1) 实物证据客观性
高度客观性是实物证据最重要的属性,可以解释为固定性、稳定性和价值无涉性。首先,实物证据形成后,在不受外力干扰的前提下,其内在属性、外部形态、空间位置等将会保持形成时的状态,当且仅当外力介入才会导致状态发生变化,例如嫌疑人作案后擦去指纹,司法人员搜集凶器等。其次,案件的形成不是瞬发的,犯罪嫌疑人必然要与周遭的环境存在接触,即“接触—产生物质交换—留下痕迹”的过程是不可逆的。案件一经发生,实物证据就能稳定存在。执法人员收集、扣押并妥善保全后,实物证据就可以长期稳定地保持原有形态,在需要用以证明案件事实时进行提取。最后,实物证据保持价值中立。实物证据自身不会彰显愿意或不愿意被采用的意图,也不会因为喜恶而刻意隐藏信息。它仿佛无时无刻不处于正午的烈阳下,没有影子,忠诚地将自己的一切予以展示,等待聪明仔细的人去发现与案件相关的内容。这种客观性是言词证据无法媲美的。
大数据证据同样不缺乏此种宝贵的性质。大数据证据的优势在于抹去证据提供者在收集、出示证据时带有的情绪与偏见,让审判者能够从运算法则的角度出发更加客观地认定事实。在启动算法控制的前提下,只要作为本体的海量数据被固定,大数据报告的内容也会被固定。环环相扣的形成过程彰显了大数据证据内部紧密连接的固定特征。此外,大数据证据能够稳定存在。大数据报告不会出现言词证据“朝三暮四”的反复。证据形成后经过妥善保全,能够稳定存在并发挥作用。同样,大数据证据能够保持价值中立。机器不会对海量数据中的任意信息产生“厌恶”的情绪而刻意过滤。不同于人类的“无意识心灵”,机器始终保持着纯粹理性,机器在进行分析时不会进行价值判断,因此得到的大数据报告不会携带数据的“主观偏见”。
(2) 实物证据可展示性
实物证据与言词证据区分的重要标准之一是证据载体的表现形式。实物证据能够在“实”的载体上呈现其内容与性质,这种特征笔者称之为“可展示性”。相对的,言词证据只能承载于“虚”的载体,即便是写于纸上的证人证言也不会被认定为实物证据,更直白地说——言词证据不存在载体。有些实物证据可以为司法人员直接感知,有些则需要运用技术手段进行提取后方能表现为司法人员直接感知的形式,例如通过鲁米诺反应提取被清理过的案发现场的血脚印。这个过程的实质是通过人为操作将实物证据的“隐性”内涵进行展示,因此也被称为“显化”。
大数据证据同样具有可展示性。不论是出于人力物力抑或是审判效率的考虑,司法人员不可能对海量数据进行逐条浏览判断,这意味着数据本身不具有被感知的可能性。但经过算法处理,海量数据可以“显化”为司法人员能够直接感知的形式——大数据报告。算法得出的可视性结论承载于大数据报告上,司法人员通过大数据报告提取案件事实,由此完成了大数据证据的展示。
(3) 实物证据间接性
如果案件是一台戏,实物证据就是戏中一句重要的台词,而言词证据就是这出戏本身。无论当事人、证人等是否见证过案件的全过程,都能根据自己的记忆“描述”出案件的时间、地点、人物、起因、经过、结果等因素。“描述”不同于“还原”,当事人、证人不可避免地会对事实添油加醋,因此言词证据在全面反映事实或事实主张的同时带有较强的主观性。实物证据虽无法反映事实全貌,但能够不偏不倚地具现片段,将该片段同其他片段进行拼凑,才能形成完整的案件图景。从实际情况来看,实物证据对事实的证明基本上都是间接的。在法官进行自由心证时,这种间接性表现为某种程度的可能性。当这种可能性增大到排除合理怀疑时,法官将依照法律规定,遵循法律程序对被告人作出有罪判决。
大数据报告反映的同样是案件的事实片段。例如某首饰店的贵重物品被盗窃,某甲被指控为犯罪嫌疑人,控方通过人脸识别技术得出的报告上写明:在该贵重物品丢失的时间段里,某甲与影像中站在柜台前,盗走珠宝的人的相似度为95%。人脸识别报告不会直接作出“某甲犯了盗窃罪”的结论,而是通过比对某甲与嫌疑人的相似度进行反映。法官进行心证时,大数据报告呈现的结果能更加直观地证明案件的事实片段。举轻以明重,大数据证据应同样具备间接性。
(三) 大数据证据的三阶实物证据属性
总结前文,大数据证据在形式上具备高度客观性、在运用上具备可展示性、在内容上具备间接性。除此之外,大数据证据还具备检验上的可复现性、认知上的可选择性等重要属性。以上属性均直指实物证据的核心特征,因此在现行框架下将大数据证据作为实物证据予以适用恰到好处。
当然,大数据证据具备异于其他实物证据的独特属性。具体类型的实物证据大都不能被进一步拆分,例如物证里的一把刀,视听资料里的一个视频等。大数据证据作为实物证据的下位概念,与物证、书证是同级概念,但其本身仍能够划分出海量数据、算法和大数据报告三个子项,因此用“组”来计量大数据证据比“个”更加恰当。有学者将大数据证据划分为大数据集与大数据分析报告,由此提出大数据证据的“二元实物证据属性”。这个观点清晰地指出了大数据证据的独特之处,“二元性”的实质是电子数据和书证两种法定证据之组合,但尚未反映出大数据证据的核心——算法。从因果关系到相关关系的生成机理转变才是大数据证据的核心,通过算法得出的结果是传统的因果关系无法理解的。例如美国的Target公司能够通过女性购买婴儿礼物的消费记录精准地预测其预产期。如果没有算法,凭借人类的经验和逻辑几乎不可能发现。
以算法为核,笔者将大数据证据的内部构成视为三个台阶——海量数据是第一个台阶,没有数据就不会产生大数据报告;算法是第二个台阶,海量数据需要经过算法计算才能变成具有经济价值的结果,大数据报告是该结果的载体,因此算法处于承上启下之地位;大数据报告是第三个台阶,它的出现使得海量数据和算法能够“鱼跃龙门”,共同构成大数据证据,从而大数据证据拥有了“三阶实物证据”属性。
三、作为实物证据的大数据证据之特殊审查规则
与十年前的电子数据相似,大数据证据的出现撕开了封闭证据形式的一道口子。然而电子数据和大数据证据存在“质”的区别。电子数据与传统的物证、书证等实物证据的最大差别在于其体量庞大,因此对其确立的审查规则仍基于因果关系。大数据证据则不同。体量庞大只是其特征之一,相关关系的形成机理才是大数据证据最大的特点。因此,传统证据审查规则对大数据证据只能起到部分作用。要想把握好大数据证据的准入门槛,必须转变观念,对大数据证据确立特殊的审查规则。
当然,物品要成为证据,必须满足客观性、关联性、合法性的要求。大数据证据也不例外。有学者指出,大数据证据的审查应基于反向排除的立足点,即什么情况下不能适用大数据证据。在三阶实物证据属性的指引下,笔者提出以“海量数据——算法——大数据报告”这种由表及里的逻辑顺序进行大数据证据可采性的判断,每道排除性校验都应有侧重之处。
(一) 数据合法性
“问渠那得清如许,为有源头活水来。”作为大数据证据的地基,数据的重要性不言自明。没有海量数据作为支撑,算法就无法借据充足的物质基础形成精准的大数据报告。此外,增加进入法庭的证据的信息量也是庭审实质化改革的具体要求。但庞大的数据量、交叉的数据形式、复杂的数据内容使得法庭对数据不可能做到逐条审查,只能通过对整体进行形式审查的方式予以实现。笔者认为,审查过程应着眼于其收集的合法性及合理性。
从价值论的角度出发,海量数据与电子数据的原始价值并无不同,它们的区别在于“量”而非“质”,因此援引电子数据审查规则对大数据证据中的海量数据进行审查并无不妥,即依照《电子数据规定》审查数据载体、数据收集过程、数字签名等内容(第22条),通过观看录像、比对完整性校验值等方式判断数据是否被污染(第23条),以及着重审查数据的获取是否达到合法性标准等内容(第24条)。
相较于电子数据,大数据技术收集信息更加彻底,其运用在提高案件追溯率与侦破率的同时扩展了司法机关对个人隐私的干预广度和介入深度,因此有必要加强数据收集过程的规制。权衡利弊,笔者认为,数据的合法性审查应当在参照《电子数据规定》的同时增加数据收集合乎比例原则的主观审查。
大数据时代赋予了个人信息不一样的意义。信息的互联更加迅速,信息的爬取成本愈发低廉,信息的传播变得快速而又广泛,个人信息的保护陷入囹圄,尤其是在国家公权力面前。只有对数据的收集进行限制,才能更好地保护个人信息。比例原则就是其中的一种做法。比例原则可以划分出三个子原则,适当性原则要求侦查机关搜集、调取信息的目的是侦破特定刑事案件,而非侦破其他案件或私人目的;必要性原则要求在以其他方法实现目的的情况下不进行信息收集,例如在诈骗案中侦查机关需要核验某人身份,在人脸识别比对与身份证号比对都能实现目的的情况下,应当采用后者的方法;狭义比例原则要求对信息的收集的手段与程度不能超过信息本身对事实认定起到的帮助,例如出具嫌疑人的逃窜路线,就不需要对嫌疑人的交往对象、性取向以及与本案无关联的人员的信息进行收集。以上规则在调取第三方信息时同样适用。对于不合乎比例原则获取的证据,应当视为违反证据的合理性要求从而予以排除。
(二) 算法客观性
“代码即法律。”大数据证据的核心审查环节正是算法审查。算法问世时,设计师的初衷是使其以客观中立的姿态代替人类完成复杂的计算以及公平的决策。然而,美团大数据杀熟、淘宝精准推送、COMPAS评分中白人比黑人的再犯率低20%- 40%等现象的发生为人类敲响了警钟。看似客观的算法并没有跳出人类主观意识的边框。基于此种考虑,算法的客观性就有必要进行审查。
计算机有个著名的GIGO定律:“Garbage in, garbage out。”同理,“Discrimination in, Discrimination out”。歧视产生的重要原因之一是训练数据携带了偏差。因数据输入者刻意或未经分类地选取数据,导致算法经过训练后对某种类型的个体产生了更多特征识别点。特征识别点又称为“锚点”,是在认知上区分此物与彼物的关键所在。该算法投入应用后,此类人群就可能因为锚点更多在该项上得到更高的评分,但真实情况却不一定如此。当然,除了数据输入者刻意为之外,过程中可能存在输入者的错录、漏录等情况,以及算法自身产生的不低于1%的错误。
除了数据学习之外,开发者自身的观念、经验、技术水平以及编写算法时的优先性排序、过滤性排除等也会产生歧视。譬如输入一组犯罪案件,开发者对与当事人的年龄、性别等问题刻意进行权重的不同设定,这种歧视就被隐藏在了层层代码中,难以发现。此外,“由于存在‘验证算法结果’这一环节,验证数据经开发者筛选后具有一定的开发者的认知痕迹的数据,因此任何机器学习算法都不可避免地具有人赋予其上的内在目的和价值指向。”简单来说,算法一定会受到开发者价值判断的影响。
基于以上考虑,笔者借鉴《联邦证据规则》的四项“多伯特标准”,提出算法的客观性审查可分为透明性审查与可解释性审查。
将算法置于测试的盒子中,以代码是否透明可见为标准,可以将盒子区分为黑白二色。无论是白盒还是黑盒,出具大数据证据的一方都应提交并说明测试数据的数量、来源、算法历史错误率和机构权威性等基本情况。如果无法说明数量与来源,或是采用算法的历史错误率过高,或是该机构在行业内不具有权威性,则对该份大数据证据可以考虑整体排除。满足上述条件后,若提供大数据证据的一方允许公开算法代码,检验者直接对其内部构造进行审查,亦可以检验每个步骤的运算过程。但出于商业秘密、国家安全等原因,能够对算法进行白盒测试的情况往往占据少数。在相关机构不公开算法的前提下,应当由法院进行算法的开示与大数据证据重要性的个案裁量。如果裁定公开算法,那么获取代码后进行白盒测试;如果裁定不公开算法,那么只能隔着不透明的“黑盒”对算法进行测试,即输入一定量的测试数据,分析测试结果。只要有一方能够证明通过算法得到的是具有歧视性的结果,当这个歧视性的结果不能被修正时,即对大数据证据启动整体排除程序。这种做法实际上是一种无奈之举,只能通过不断的排除性校验来增加算法不带有歧视的可信度,无法通过正向的检测来证明算法是中立的。
可解释性审查是算法审查的难点。人类在进行选择时,无论在何种情况下,都能对自己的做出的选择进行阐释与说明。但算法不同,即便打开代码黑箱,对算法进行白盒测试,我们也只能了解算法的外部机理。输入数据时,算法会得出特定的结果,但算法不会出具如何选取数据、如何进行分析、如何得出结果的说明报告。我们人类也无法得知算法的内部运算过程。对于这种从“外部代码”到“内部机理”无法被理解的技术鸿沟,如果当中带有深层次的歧视性运算,也无法被人类察觉。这是算法在可解释性层面的“黑箱”。对于这个当前的科学技术尚无法打开的黑箱,我们只能另辟蹊径,通过构建解释模型与函数,观察可视化外部结果的方式进行排除性校验。
(三) 大数据报告关联性
大数据报告的审查重点历来有真实性与关联性之争。随着司法和技术的发展,原本占据优势的真实性逐渐落入下风,关联性的呼声则越来越高。对于大数据报告与案件事实的关联性审查,至少包括形式和实质两个层面的内容。
形式审查要求大数据报告呈现的结论应与待证要件事实存在客观联系。数据的多样性决定了大数据报告会呈现出不同方向的结论,法官需要审查证据提交者从中提取的结论是否有助于证明案件事实。当缺少上述任何一个条件时,排除该份大数据报告的适用。
需要注意的是,控辩审三方一般都并非计算机专业人员,对大数据报告的理解可能存在障碍。对于不易理解的内容,证据出示方应在质证环节向法院提请专家辅助人出庭进行解释,或是在证据开示环节一并提交相应的说明。如果因客观原因导致对方或法官无法理解大数据报告或不具有理解大数据报告的可能性,则应认定该份大数据报告不具有可解释的关联性从而予以排除。
实质审查则针对大数据报告中具有形式关联性的结论的数值证明力问题。例如,经过人脸比对后,得出某甲与凶杀案凶手身体特征相似度为95%。在这种情况下,法官能否将之作为关键证据认定某甲有罪?如果是5%,那能否认定某甲无罪?当这个数值变成51%、49%时,又该如何判断?
这种概率的思想并非无根之水,证据法研究伊始就是以“概率”来认定事实。大数据证据不过是“旧事重提”。一种做法是直接确立关于大数据报告数值的衡量标准。笔者提出,借鉴刻度盘理论,通过归纳总结同类案件中同类功能的大数据报告,用“数值刻度”的方式人为划定大数据报告的证明力数值标准。
需要注意的是,对于功能不同的大数据报告,不能一概采用相同的数值标准。大数据报告目前在司法中可以分为实质证据与辅助证据两个维度。前者主要表现为人脸识别报告等能够彰显待证事实与证据之间“紧密”联系的证据;后者主要为补强或弹劾证据,例如对证人证言的真实性的分析报告。对于实质证据,必须采取严格审查的态度,因为实质证据一旦查证属实,其对犯罪构成要件能起到定鼎之功;而辅助证据大多针对证据链条中的某一个证据进行抨击或补强,从而瓦解证据链条或是增强可信度,其作用与实质证据相去甚远。根据比例原则,对辅助证据的审查程度应当弱于实质证据。当然,在案件中实质证据与辅助证据并非完全独立,在某些情况下可以相互转换。
无论是作为实质证据还是辅助证据,大数据报告数值的证明力都能至少划分出三个维度。作为实质证据时,超过高标准线的数值具有强证明力,能够直接采用;低于低标准线的数值能够得到相反命题;介于二者之间的则划定中标准线。低标准线到中标准线之间的数值难以起到实质证据的作用,应转为辅助证据进行适用;而中标准线到高标准线之间的数值与待证事实的直接关联较弱,通过借助辅助证据的方式,将大数据报告置于证据链条中进行证明力的讨论。以贝叶斯定理为例,
假设发生一起凶杀案,某甲在凶杀案发生的时间段内经过案发地点为事件B,某甲实施了杀人行为为事件A,事件A的概率通过人脸识别报告的数值彰显,那么就有P(A|B)= P(B|A)·P(A)/P(B),P(A|B)叫做后验概率,P(B|A)/P(B)叫做标准相似度。这时需要评估的就从先验概率转变为了后验概率。原本需要评估的P(A)就能通过P(B|A)进行彰显。这种做法事实上与传统证据的“印证”非常相似。而科技的介入让计算机能够代替人类完成枯燥复杂的运算过程。贝叶斯定理的实质是将大数据报告置于证据体系中进行检验。
大数据报告作为辅助证据时,超过高标准线的数值对相连接的证据有较强的弹劾或补强作用;在一定情况下,辅助证据可以转为实质证据;例如指控某甲犯有故意杀人罪,结果通过人脸识别报告发现,某甲与监控录像中持刀杀人的嫌疑人的相似度仅有30%,但对比过程中意外发现,某乙是与嫌疑人的相似度高达95%。此时大数据报告可以转为认定某乙杀人的实质证据。随着大数据报告数值的降低,辅助证据依次拥有强证明力、中证明力以及弱证明力。在自由心证时,法官可以参照相应的证明力对与辅助证据相关联的证据的真实性与可靠性进行考虑进行考虑。
(四) 大数据证据的整体排除程序
综上,大数据证据应至少通过海量数据的合法性审查、算法的客观性审查以及大数据报告的关联性审查三道排除性校验才能予以适用。需要注意的是,由于其中涉及了诸多自然科学知识,控辩双方应充分运用鉴定人出庭和专家辅助人出庭制度,使得大数据证据具有充分的可解释性。另外,海量数据、算法、大数据报告三者连结的关键是关联性纽带。这意味着只要其中的任何一项无法通过预先设定的排除性校验,即对大数据证据启动整体排除程序。
四、大数据证据适用对司法程序运行之多重影响
从微观的角度出发,笔者对大数据证据的实物证据本质和审查规则进行了论述。然而,证据审查只是司法程序的一个缩影。司法程序转型是司法规则代码化的重要目的,但代码很难直接作用于宏观的司法程序,其“靶细胞”以证据审查规则等微观为主。基于此种思考,笔者试以认罪认罚从宽、口供轴心以及在线诉讼三大程序为例,融合本文前两部分的论述,从宏观的角度分析大数据证据适用对司法程序运行产生的多重影响。
(一) 提升认罪认罚从宽制度适用成效
认罪认罚从宽制度已经逐渐称为刑事辩护的主流。“2019年1月至2021年8月,‘认罪认罚从宽制度适用率为72.2%;量刑建议采纳率为92.7%;一审服判率为96.1%,高出其他刑事案件13.7个百分点”,而这几个数字在2021年里变成了85%、97%、96.5%和22个百分点。
认罪认罚从宽制度本质上是具有中国特色的“量刑协商制度”,可以分为“认罪”、“认罚”、“从宽”三个部分。认罪认罚是从宽的前提条件。认罪认罚指当事人认罪名、罪数、犯罪事实、量刑建议等,并有实质的悔罪表现;从宽包括程序从宽和实体从宽,前者包括变更强制措施、采用简易程序等,后者指从轻、减轻、免除处罚等降低宣告刑的行为。认罪认罚从宽的每个部分都能与大数据证据相契合。
针对认罪部分,当事人“无交代,无刑罚”的侥幸心理不再适用。大数据证据能够直截了当地揭示其与案件的关联,使百口莫辩。加之认罪认罚从宽制度带来的收益,当事人明白,坦白才是最优选择。针对认罚部分,司法人员将案涉信息收集后交由算法进行评估,快速、精准地得出量刑建议,通过智慧司法的方式缩短办案时长,提升司法效率。尤其是对于事实清楚,案情简单,能够适用简易程序或速裁程序的案件,大数据证据的适用更能大放异彩。
针对从宽部分,大数据证据的适用前景光明。认罪认罚从宽的理论基础是兼具报应刑论和预防刑论的并合主义刑法观。无论学者主张何种学说,都承认在犯罪嫌疑人、被告人需要特殊预防的必要性较低的情况下,可以以报应刑为基准判处较轻的处罚,而特殊预防的必要性则通过犯罪嫌疑人、被告人的人身危险性进行衡量。早在二十年前,我国就通过“社会调查员报告”对犯罪嫌疑人的人身危险性进行评估。但二十多年过去,我国对于人身危险性的评估发展缓慢,“仍然停留在依靠经验或者简单的评估指标进行定性分析的阶段,缺少定量分析,也缺乏统一的评估标准。”大数据证据的出现为这项工作的展开提供了新的路径。大数据技术能够查找当事人的犯罪记录、身份信息、社会评价等内容,并以生物技术的方式监测当事人的身体与心理状况,由专业人员设计个性化算法进行人身危险性的综合评估。当然,这项评估的本质应当是一种司法判断,不仅涉及经验判断,也需要进行严密的逻辑推理和价值评判,如果缺乏人的介入,可能导致评估结果的不可信甚至歧视。因此,载有评估结果的大数据报告作为“辅助性说明”进入法庭更加合适,能否认定从宽则由法官结合经验与事实进行决定。需要注意的是,这份大数据证据同样需要经过上述特殊校验规则的审查,在对算法进行客观性审查时更是要提高警惕。
(二) 助益“口供轴心体制”渐进变革
口供在证据体系中具有超然地位。纠问式诉讼时期,刑讯甚至是获取被告人口供的合法手段。目前。我国针对口供确立了口供排除、口供印证、口供补强等规则,使得口供在实现人权保障时发挥最大的作用。事实上,无论是大陆法系的纠问式诉讼、职权主义诉讼,还是英美法系的陪审团制度,都是基于口供展开的诉讼模式。以行贿和受贿这对关系为例,当行贿者与受贿者均保持沉默时,侦查机关很难取得有效证据移交检察院审查起诉,司法程序在侦查阶段可能就被迫停止。此时将行贿人与受贿人置于囚徒困境,由其中一方主动交代犯罪事实。侦查机关就可以通过口供搜集其他证据,将案件穿针引线。
口供之所以如此重要,其直指犯罪核心构成要件的特征是主要原因。口供的重要性加之天然具备的可塑性使其无时无刻不处于危险之中。大数据证据的出现为口供规则的进步提供了另一种图景。大数据证据能够替代口供,充当比口供更强有力的证据完成刑事诉讼法惩罚犯罪的目的。此外,大数据报告的结果往往在证据链条中处于关键地位,能够直指案件事实,且大数据证据的信息量相较于口供只多不少。在不同的诉讼阶段,大数据报告的可复现性有助于减少刑讯逼供、口供偏移等现象的发生,不仅有助于建立更加健康的司法生态,还能推动人权保障的落实。
除了大数据报告,算法的作用也不容小觑。以周文斌案为例,“这位南昌大学原校长利用概率论与数理统计、排列组合、误差理论,缜密地论证了指控证据的‘荒诞无稽’”,其在法庭上的精彩发言令人赞叹,最终江西高院将周文斌从无期徒刑改判为12年有期徒刑。如今,大数据技术全面进入法庭,周文斌运用的科学知识、论证过程可以通过算法来实现,算法甚至能够更加客观、更加缜密地对当事人供述、证人证言等言词证据进行鉴真,更加精细的证据审查规则倒逼侦查机关通过合理、合法的手段获取言词证据。算法对口供轴心乃至言词证据轴心体制起到了方法论上的变革作用。
(三) 完善“在线诉讼”审理模式
2021年8月1日,《人民法院在线诉讼规则》(下称《规则》)正式生效。几千年来的传统诉讼模式发生了巨大的变化:从线下转到线上,从现实空间转入虚拟空间,从翻看卷宗转为无纸化诉讼……一系列人们以前无法想象的内容正在不断冲击着认知。
在线诉讼问世的直接目的是缓解数量过多的诉讼案件与司法资源紧张之间矛盾,以免案件审理的过分拖沓,保障民众对正义的追求。疫情的到来赋予在线诉讼一个“加速度”,非接触式的工作要求为在线诉讼提供了生长的土壤。因此,只能通过在线诉讼的“权宜之计”来解决纠纷。无疑,在线诉讼的出现提升了诉讼效率;厚重的卷宗以扫描、拍照等电子方式呈现,法庭双方通过计算机网络完成质证,以电子方式完成送达等等。有学者在实证研究时发现,某地基层人民法院在疫情期间通过在线诉讼的方式审理各类案件的比例竟接近40%。然而,随着时间的推移,《规则》的生效、《民事诉讼法》的修改表明,在线诉讼在司法实践中取得了不俗的成效,“权宜之计”在后疫情时代有成为司法常态化的趋势。传统线下诉讼与在线电子诉讼可能会在未来成为司法双线并行的诉讼模式。甚至有学者断言,以在线诉讼为例外的诉讼模式在未来五年或十年会转变为“在线审理为原则,现场开庭为例外”的诉讼模式。
在线诉讼与传统线下诉讼有着诸多相同之处,在诉讼主体、诉讼程序等领域二者的共通性不可忽视。最重要的是, 《规则》明确规定,二者的效力相同。当然,在线诉讼有着一定的独立性。“打诉讼就是打证据”,证据审查与事实认定将会是二者最大的区别。线上质证的方式意味着以往的证据规则无法完全切合实践的需求。无疑,新的证据规则亟需确立。毋庸置疑的是,在线诉讼中,无论是出于便捷性还是同质性的考虑,大数据证据将会在其中大放光彩。例如对于事实认定目前,大数据证据在案情简单,事实清楚的案件中,几乎能够起到“一锤定音”的效果。将来,若在线诉讼若推广至事实较为复杂的案件,因大数据证据本就由计算机线上完成,其出示更加方便,真实可靠性也更容易进行审查。此外,大数据证据是算法的产物,其审查规则的确立应基于数学、算法等科学知识;这对在线诉讼的证据审查规则提供了可参照的经验与模板。
五、结论
几千年前,先民们处理纷争时没有完善的部门法可引用,也没有先进的大数据证据为依托,只能凭借自己的智慧解决争议。当用尽智慧仍然不能解决争议时,便将问题交给神,这就是“神判”。神判又称“折磨考验法”,中西方都存在先民们广泛运用神判的影子:中国《山海经》记载了“血迹神判”、《广东新语》记载了“乞蛇神判”;西方有“水审”、“食审”等等,不一而足。神判与现代文明社会追求真理、保障人权的精神背道而驰。然而存在即合理。神示证据展现的程序价值能够为大数据证据的适用带来深刻的启示。
神示证据具备绝对公开、共同认可、双方对等、最后手段等程序价值。神示证据的获取全过程是在众目睽睽下进行的,难以作弊,可信度高,且双方都认可这种处理方式的结果。当然,并非所有案件都有神示证据的介入。如果当事人之间自行协商就能解决争议,就无须神示证据进行定分止争。只有穷尽了所有方法仍无法解决争议时,才使用神示证据。《墨子·明鬼下》记载的“羊角断案”很好地呈现了上述价值。
大数据证据与神示证据宛如跨越千年的莫比乌斯环,一体两面。神示证据的诸多价值,正是当前大数据证据运用所追求的。大数据证据的算法难以公开,透明度低,可解释性弱。大数据证据的出示者以控方为主,往往用于证明被告人有罪。为应对实际的需求,国家花费巨额资金建立了种类繁多的比对库,代表着公权力的检察院也能够轻易调取信息与资源,而辩方却很少有能力做到。在大数据证据的获得与运用上,控方拥有绝对支配乃至垄断的地位。在这种情况下,由于算法的透明度黑箱以及可解释性黑箱,辩方难以感知算法的决策过程以及是否存在歧视等问题。这导致法庭上信息过分偏移,控辩双方不平等的局面进一步加剧。“最后手段”提醒我们,当法官不需要凭借大数据证据就能做出裁判,或者大数据证据并不能对案件的审理或裁判起到实质性作用时,应当慎用大数据证据,避免“蟋蟀论断”和“自动化自满”等不良现象的发生。一言以蔽之,在技术与制度都尚不成熟的情况下,实践中对大数据证据的使用应当抱有谦抑的态度,以免陷入工具主义和科技魅影中。
时至今日,学界讨论的问题已经从大数据证据是否应进入法庭转向大数据证据应如何进入法庭,野蛮愚昧的神示证据看似已经愈发遥远,但“正像许多聪慧的事情是在用极其愚蠢的方式向前发展一样,也有许多愚蠢的事物却是在用非常巧妙的方法向前运动。”神示证据其实并没有远去,而是像历史的幽灵一样飘荡在机器的身边,告诫我们在使用大数据证据时不要犯神示证据制度的错误,更不要因神示证据与现代社会所追求的精神背道而驰就弃之如敝履,因为“后之视今,亦犹今之视昔。”
本文责编 ✎ Zorro
青苗法鸣文末征稿启事
“青苗法鸣”微信公众号聚焦社会热点讨论与法学学术交流,为了给大家提供更好的分享-交流-争鸣平台,激励更多的青年学人思考和写作。诚请大家惠赐优稿!
一、长期征稿
稿酬等详情信息请见:全新稿酬规则,等你赐稿!赐稿邮箱:qmfmbjb@163.com。
二、建议选题如下:
1.法学院校、学科发展历史及未来
2.法学人才培养模式的反思与提升
3.论文写作与案例分析方法
4.学术研究兴趣探索与养成
5.考博经验及读博感悟
6.地方社会治理实例与法治发展
7.民商法学(含婚姻家庭法)基础性问题与前沿热点研究
8.侵犯人身权利类、妨害社会管理秩序类犯罪的基础性问题及前沿热点研究
9.其他法律部门(经济法、行政法、环境法)法典化研究
10.个人信息保护领域法治问题
11.教义学与社科法学研究方法
12.企业合规与法治化营商环境建设
13.司法改革举措、成效的实证类研究
14.社会普遍关注的热点问题
优质笔记&专业咨询
点击青苗法鸣小程序
推荐阅读
联系我们
长期收稿邮箱:qmfmbjb@163.com
社群交流请添加公共微信:
公共微信1:qmfmggwx
公共微信2:qmfmggwx2
付费咨询与讲座请添加小助手微信:qfxzsggwx
商务合作请添加微信:Fuermodian