查看原文
其他

林喜芬:大数据证据在刑事司法中的运用

The following article is from 法学论坛 Author 林喜芬

电子数据,人工智能,量子计算,大数据,区块链,网络安全,个人信息权利;法医、物证、生化、DNA等鉴定科学;心理学、经济学、管理学、统计学、侦查学等对刑事程序的分析;公检法管理;证据法、程序法新进展;辩护研究、辩护方法。

(感谢山西省法律援助研究院院长高卫庭题字)

林喜芬 | 上海交通大学凯原法学院教授、博士生导师,法学博士。主要研究方向:刑事诉讼法、刑事证据法、司法制度。发表于《法学论坛》2021年第3期,转载自公众号“法学论坛”,感谢林老师授权转载。
摘要:在数据时代,大数据应用于刑事证据已然成为理论和实务的重要议题之一。当前在刑事案件中,大数据证据主要被用于侦查破案线索、弹劾被告辩解、补强言词证据、印证性的间接证据等,在作用方式上包括了基于海量数据的数据库比对和基于算法模型的大数据分析。关于大数据证据的法律定位及运用规则,不宜囿于刑事诉讼法的现有证据种类,而应回归到证据方法的概念,对基于海量数据的数据库比对宜采取庭上展示和辩方质证的证据方法,对基于算法模型的大数据分析宜采取专家辅助人提供检验意见和出庭接受质证的方法。在大数据证据的证据能力审查上,应能经受住相关性检验和科学可靠性检验;在证明力评价层面,应结合大数据应用的信息连接点选择、算法歧视可能性、逻辑架构合理性、算法结论稳健性等判断大数据证据的可信性以及对待证事实的证明程度。关键词:大数据证据;证据方法;相关性;可采性;严格证明;证明力
《法学论坛》2021年第3期(第36卷,总第195期)

目次一、问题的提出:大数据时代的证据维度二、大数据证据在刑事司法中的表现形态与作用方式三、大数据证据在刑事司法中的属性定位四、大数据证据的证据能力与证明力五、结语

一、问题的提出:大数据时代的证据维度


作为一项引领世界的技术方法和思维方式,“大数据”已愈来愈广泛地介入到人们的社会生活、商业行为和政府管理之中。法律是大数据应用的重要场域之一,国家政策、科技公司、司法机关和专家学者都给予了充分的重视。近来,随着对法律领域特殊性的关注以及法律大数据“领域理论”的探讨,学界关于大数据在法律领域的研究正趋于自觉和深入。
目前的文献看,国内法学界关于大数据的研究主要集中于以下三个方面:其一,关于大数据对法学研究的助推作用。该研究脉络着重分析了法律大数据研究与传统实证研究的区别,以及对今后法学研究的范式转型意义。其二,关于大数据对法律改革和司法决策的推动作用。这一脉络主要表现在对智慧法院建设、司法信息化、类案推送、量刑辅助等方面的试点改革研究。其三,关于大数据对司法办案的影响。这一脉络重点体现在对大数据侦查的规制程序上,尤其涉及如何通过程序来保障公民基本权利免于大数据取证行为的不当干预。
尽管有上述理论探索,但是,从具体办案的角度讲,如何认识使用大数据应用技术收集到的证据材料也是非常值得挖掘的领域。至少在刑事司法实务中,大数据侦查和取证已然登场并正得到较广泛的应用,这势必会促使理论和实务界去关注这种新型侦查方法获取的证据在后续诉讼程序中的运用问题。
可以说,证据维度乃是大数据技术介入(刑事)司法领域后所绕不开的层面之一。正如以往任何一种证据资料一样,大数据技术获取的证据材料也不得不面对诸如其作为诉讼证据的表现形态、作用方式、证据属性、证据能力判断和证明力评价等基础问题。接下来,本文拟结合裁判文书网中的典型案例和证据法的基础理论,对与大数据证据相关的上述问题展开初步研讨。


二、大数据证据在刑事司法中的表现形态与作用方式


(一)大数据证据在刑事司法中的表现形态
在数据时代,人们的犯罪行为会留存下越来越多的数据痕迹,这些构成了恢复案件真实的重要物质基础。在当前刑事案件中,大数据证据往往被(或可能)用于侦查破案线索、反驳被告辩解、补强言词证据、印证性的间接证据等,在作用方式上主要包括基于海量数据的数据库比对和基于算法模型的大数据分析两种基本类型。
第一,作为侦查破案线索的大数据证据。当前我国使用海量数据侦破刑事案件的实践方兴未艾,但是,在功能上却主要止于犯罪线索的搜寻和预期犯罪的预防,而且在未来一段时间,这一功能应该也是大数据介入刑事司法的主要方式。
例如,在唐某抢劫案的一审刑事判决书中,法院查明:案发后,开江县公安局侦查人员通过现场走访、周边视频调取,通过大数据情报锁定唐某为嫌疑人,于2月8日下午14时许,在开江县普安镇天星坝村2组将唐某抓获。准确地说,这里面的大数据情报充其量只是一种证据资料,还不具备法庭审理时作为定案根据的证据资格,更遑论被用作证明构成要件事实的关键依据。即使是在审前程序阶段,大数据侦查也并非是独立存在的,其往往被吸收在技术侦查措施的范畴中。
对此,有研究表明,在中国裁判文书网2016年度的刑事案件中,共检索到570件明确表明适用过技术侦查措施的案件,其中有113件使用了大数据技术,但这些大数据技术均未能(被)转化为诉讼证据。
第二,作为弹劾被告辩解的大数据证据。在理论上,证据根据其与实体真实之间是否具有“生成”意义上的证据相关性,可以区分为实质证据和辅助证据。前者是证明主要事实及其间接事实的证据,后者是证明辅助事实(有关实质证据的可信性的事实)的证据。弹劾证据就是辅助证据的一种。
它是用以攻击被告辩解(或证人证言可信性)的证据,其主要作用在于抵消言词证据的可信性,而非用于直接证明案件事实。虽然目前大数据侦查的证据生成功能总体有限,但是,在已有的裁判案例中,也确实存在大数据证据发挥刑事证据功能的情形。
这首先表现为辅助证据中的弹劾证据,即用于弹劾被告辩解的可信性。例如,在最高人民检察院发布的第八批全国检察机关依法办理妨害新冠肺炎疫情防控犯罪的典型案例——郭某鹏妨害传染病防治案中,法院查明:在公安民警明确告知大数据显示其去过国外后,郭某鹏承认有过出境史。在调查、核实其出入境轨迹后,郭某鹏被送至二七区集中隔离点进行观察。
严格来讲,弹劾证据主要是审判程序中针对被告辩解或证人证言的可信性而提出的。从裁判文书中的表述推测,在该案中,郭某鹏应是在侦查阶段先未承认有出境历史,后经出示大数据行踪报告而承认有过出境史。若该情景发生在审判阶段(即在法庭审理中,控方出示大数据行踪报告质疑被告的辩解),大数据证据所发挥的就是典型的弹劾证据之功能。
第三,作为补强言词证据的大数据证据。辅助证据中除了弹劾证据,还包括了补强证据。大数据证据对被告供述或证人证言的可信性进行补强时,也同样是在发挥辅助证据之功能。
例如,在受贿案件的证明过程中,针对某些客观方面的要件事实(包括犯罪嫌疑人实施受贿行为的时间、地点、方式、次数、金额等),控诉方在以往主要依赖书证、被告人供述、行贿人证言等证据形式,但是,这种证明比较薄弱的环节就是被告供述或行贿人证言的可信性问题,一旦可信性存疑,控方基于这些言词证据所构建起来的印证证明体系就会被动摇。毕竟,在言词证据的合法性遭致质疑的情况下,言词证据的可信性也不能得到充分保证。
该困境随着数据时代的到来或许会有一定改观。职务犯罪嫌疑人在实施受贿行为时往往会留下一些数据痕迹,如受贿人与行贿人的通话联络记录,出入某些供词中所提到的特定场所的行踪记录,行贿人的资金收取情况的电子记录,等等。
这些数据痕迹可能藏匿于海量的、非可疑的数据中,对于案件的实体真实可能也并不具有证明价值,但是,通过运用大数据技术进行分析,却可以作为补强被告供述或证人证言可信性的辅助证据。例如,通过大数据分析发现某一个特定时期受贿人和行贿人有过频繁通话记录,这虽然不能证明两者之间一定有过权钱交易,但却能够补强受贿人关于他与行贿人之间熟识程度的供述,有利于增强被告供述的可信性。
第四,作为印证性间接证据的大数据证据。除了作为辅助证据之外,大数据证据还可能以实质证据的身份用于证明案件的主要事实,但往往以间接证据的方式呈现。与直接证据不同,间接证据是需要通过分析推理才能证明案件事实的证据。在司法实务中比较常见的间接证据是实物证据和鉴定意见,它们往往需要与其他证据结合起来,一起证明待证事实。
至于大数据证据,至今尚不存在通过大数据分析本身就能够证明犯罪事实的情况,即使假设如此,大量数据之间也必须通过算法模型和推理逻辑来建立联系,因此,将其定位为间接证据具有一定的合理性。
例如,在高某开设赌场罪案中,法院的裁判文书指出,犯罪事实有受案登记表、立案决定书、户籍资料、到案经过、大数据情报工作,嫌疑人违法犯罪记录查询登记表、认罪认罚具结书,证人杨某、邵某、许某证言,被告人高某供述、辨认笔录、签认照片、现场勘验笔录等证据证实,足以认定被告人高某以营利为目的,结伙开设赌场聚众赌博,其行为已构成开设赌场罪。
虽然裁判文书中记载的关于大数据证据用于证明的待证事实到底是哪一要件事实,但是,该表述似可以理解为一项独立的、对待证事实有证明价值的间接证据。

(二)大数据证据在刑事司法中的作用方式
第一,基于海量数据的数据库比对。在当前,犯罪行为人在实施犯罪的预备、实行、终了之后的整个过程中,不仅会遗留下传统的物理痕迹信息,还会在特定计算机系统、网络平台以及服务器中遗留下诸多电子痕迹信息。
而所谓数据库比对,就是指将侦查中的有关个人遗留下的数据与其他为了侦查取证、刑罚执行、预防犯罪等目的而事先建设形成的数据库中的数据进行比对,以期实现数据信息的同一认定。在很多国家的刑事司法实践中,数据库比对在确定被追诉人身份、查明案件事实方面正扮演着越来越重要的作用。
例如,在德国,数据库比对被区分为两种:栅网追缉和数据比对,前者是针对特定犯罪类型(如毒品交易或有组织犯罪),在有急迫必要的情形下,对一些数据集进行比较。后者是更一般意义上的数据比对,这种数据比对所使用的数据都是已经获得证实的,因此,这种对比不用满足栅网追缉的特别要件限制(如特定犯罪类型、补充性、法官准许等)。在我国,截至目前,公安机关内网运行的各类信息系统已达7000多个,已建成以全国人口信息库为代表的八大全国公安基础信息库(全国重大案件、在逃人员、出所人员、违法人员、盗抢汽车、未名尸体、失踪人员、杀人案件),存储了数百亿条基础数据。
具体到个案运用中,例如,在罗某妨害公务案的再审刑事判决书中,法院查明:2019年3月28日,江苏省公安厅刑警总队出具的《关于核查不明身份犯罪“许某”的相关情况》,其中记载:通过大数据信息研判、人像比对等手段,发现许某疑似身份信息为罗某,女,身份证号……,户籍在……。
第二,基于算法模型的大数据分析。大数据的研究者预测,未来的数据爆炸会衍生出以下四种数据:过程数据(传统商务过程产生的数据)、环境数据(包括机器的状态、大气的各种参数、人体的各种指标)、社会行为数据(如微信、微博等社交媒体产生的数据)和物理实体的数据(未来的万事万物,任何一种物体背后都会有一个数据包与之对应)。
这些数据痕迹将具备更可靠的信息存储机制,而不再只是依赖于人类稍纵即逝的记忆。除非基于“被遗忘权”制度被要求删除之外,这些数据痕迹会永久地留存在虚拟空间或特定的存储介质中。
这些数据体量更大,结构更繁杂,既包括了结构化的数据,也包括了半结构化和非结构化的数据。此外,在对数据进行分析时,也并不存在一个现存的、直接相关的数据库可供比对,相反,需要设计一套算法模型去深度挖掘这些看起来杂乱无章的数据。
甚至,今后会越来越多地涉及通过训练机器,进而让机器去识别、辨认和分析海量数据,最后形成分析报告。随着数据量几何增加,数据共享的增强,以及数据挖掘技术的发展,未来可供侦查机关获取的大数据证据可能涉及很多方面,包括资金数据分析、物流数据分析、发票数据分析、轨迹数据分析、通讯数据分析,等等。
以资金流转数据的分析为例,“在资金流转过程中,会留下流转人、流转人电话、流转人邮箱、流转人微信号、流转人QQ号码、流转卡、流转卡密码、流转平台、流转终端IP、流转时间、流转空间、流转账户、流转账目、与流转人之间的关联、支付密码等信息。
通过运用大数据技术分析这些数据,就能够构建出流转账号之间的关联关系,也能够构建出流转人之间的关联关系,甚至还可以进一步推理资金流转的背后原因。


三、大数据证据在刑事司法中的属性定位


作为一种新生事物,诉讼法和证据法上首先面临的问题就是通过大数据技术获取的证据材料能否作为证据使用。由于民事诉讼并不采行严格证明的方法,因此,学界一般认为,经由大数据比对或分析等获取的大数据证据可以作为证据使用。
但是,刑事司法的多数事项(尤其是实体事实)的证明乃遵循严格证明法则,因此,大数据证据能否以及如何作为证据使用就显得更加复杂。
从司法实务上看,笔者调研访谈的一些法官和检察官对大数据证据总体上还是持谨慎和保守的立场,这其中最主要的原因还是认为大数据证据的证据形式不好确定。此外,多数司法人员都对大数据分析的准确性和大数据证据的可靠性持怀疑态度,基本上不认为大数据证据在定案环节能够发挥直接证明待证事实的作用。当然,随着大数据侦查方法的广泛运用,如前所述,也确实有一些案例会涉及如何运用大数据证据的问题。
目前,法院在定位大数据证据的证据属性和形式时,主要有以下四种操作:其一,将大数据作为一种鉴定意见或专家辅助人意见来对待。尤其是在一些涉及非法获取计算机信息系统数据、提供侵入、非法控制计算机信息系统程序、工具等案件中,犯罪嫌疑人本身就涉嫌使用恶意程序。黑产人员往往使用了某些人工智能技术来训练机器,并对大量数据进行清洗和识别(如破解互联网的验证码),从而实现其犯罪目的。在这些案件中,一般都会有鉴定人或专家辅助人对被追诉人编写、获取或提供的恶意程序提供鉴定意见或专家辅助人意见。实际上,这些鉴定意见或专家辅助人意见也相当于在运用一定的大数据技术对犯罪嫌疑人所使用的人工智能工具及其危害结果进行验证。
其二,将大数据分析等作为一种破案经过材料或情况说明材料。例如,在何某贪污案中,到案经过证实:江苏省如东县公安局通过大数据比对,立即赶到广东省广州市海珠区中国人民解放军陆军第七十四集团军医院,将正在该医院骨科住院治疗的李某抓获。经讯问,李某供述其真实姓名叫何某,并如实供述其贪污关某农业银行公款一百多万元并逃跑到广东的犯罪事实。
其三,将大数据分析结果转化为书证等证据种类,并予以使用。例如,在吴某走私、贩卖、运输、制造毒品案中,定案证据中包括有“广西玉林市城市大数据防控系统图片”,该图片证实:胡某驾驶桂D***白色小车分别于2017年11月20日1时30分经过自良镇容藤公路路段、1时43分经过县底镇冠塘村路段、2时04分经过容县容州镇城南车站路口进城、2时14分经过容县G324线出城往玉林方向、2时33分经过玉容卡口进城、2时37分经过玉北大道五彩田园路口、2时40分经过玉北大道龟山路口、2时42分经过人民东路秀水收费站进入玉林城区的情况。
其四,将大数据分析报告作为一种单独证据形式来对待。例如,在陈某盗窃案中,公诉机关提交了受案登记表、立案决定书、拘留证、逮捕证,鉴定意见通知书、抓获经过、被告人户籍信息、刑事判决书、刑满释放证明书、接受证据清单及手机发票,被害人黄某陈述,大数据警察支队视侦报告、价格认定结论书,被告人陈俊供述及辩解、现场指认笔录等证据证实。但是,这种情况并不多见,也很难判断该大数据视侦报告的具体形态到底是大数据分析报告本身,还是经由转换之后的图片或录像。
从诉讼学理上看,直接否定大数据证据作为刑事证据的观点并不多,相反,更多的学者会倾向于讨论大数据应当以何种证据形式在刑事司法实践中发挥作用。
具体来讲,其一,有学者从应然的角度提出,“未来的证据法当中,大数据分析报告有必要单列出来作为独立的证据种类。”其二,更多的学者则倾向于支持将大数据证据作为鉴定意见或检验报告的观点,之所以会针对大数据证据的证据种类问题产生理论分歧,有一个症结就是我国法定证据种类(形式)的封闭性,即大数据分析报告等与大数据应用技术相关的证据资料无法被我国刑事诉讼法中所明确规定的法定证据种类所囊括。
究其本质,第一种观点主张今后要单列一种新的证据种类,第二种观点则认为应稍做变通,在立法无法及时修订的情况下,先以最相近的证据种类来约束和规范大数据证据。
在我国刑事证据制度发展史上,法定的证据种类在早期因为具有种类特定、易于把握等特点,曾经起到过指导法官采纳证据、规范法官自由裁量等功能,但是,随着新型证据(如视听资料、电子数据、大数据)的出现,封闭型证据种类制度陆续呈现出“规范滞后于实践”的弊端,导致刑事司法人员面对新型证据时的适用困境。
在1996年之前和2012年之前的刑事司法实践中,是否承认和如何定位视听资料和电子数据就是讨论焦点之一,其根本原因也是因为当时的刑事诉讼法中没有任何一种证据种类能够很好地包容上述两种新的证据形式。
后来,1996年和2012年刑事诉讼法分别通过修法方式增加了视听资料和电子数据作为新的证据种类,争议才逐渐平息。当前,对于大数据比对或分析是否能作为证据使用,又将面临类似的问题。
其实,从证据法理论上讲,封闭型的证据种类制度一直以来就饱受诟病,有学者就指出,“我国刑事证据法如此重视对证据形式无一遗漏的封闭式列举的方式,并不是适应现实需要的唯一方式。”一些学者也提出可以借鉴英美法系关于人证、物证、书证这一更具有开放性的证据分类方式。
事实上,对证据种类的精确界定也并非是沿袭欧陆法系传统的证据法理论所强调的重点。在大陆法系国家,证据一般可以理解为包括了证据数据和证据方法,前者主要是指所有可能与待证事实直接或间接相关的信息内容;后者是指探求证据信息内容的调查手段,包括讯问被告、询问证人、提示证物、朗读文书、鉴定人出庭提供意见、履行勘验等。证据数据必须透过特定的证据方法才能彰显其证明价值。
根据严格证明法则的要求,法定的证据种类并不是严格证明法则中的法定证据方法,因为证据种类只是证据信息存在的一种载体或形式,并不区分庭前阶段和庭审阶段,也就无法与刑事庭审的证据调查程序所要求的直接审理原则对应起来。而证据方法则是刑事庭审中所采用的法庭调查方法,与刑事庭审的实质化息息相关。
正如林钰雄教授所指出的,“(证据之种类)如果是指证据数据或其来源,则毫无意义可言,因为任何可能提供或隐藏与待证事实直接或间接相关信息的人、地、物,都是潜在的证据数据或其来源,刑事诉讼法以及其证据法则存在的目的,根本不在于教导侦查机关或法院要如何发觉或侦探可疑的犯罪信息,因此也无所谓限制或未设限制。
在此,过于纠缠于证据种类分析,并不利于对某些新型证据形式进行深入分析,也不利于我国证据审查判断规则以及法庭调查程序的发展。可以说,如果将理论重心放置在法定的证据方法而非法定的证据种类,则关于“大数据证据无法在法定证据种类中定位”的问题就并非是无法逾越的屏障。
具体而言:
其一,我国刑事诉讼法在第一审程序中直接或间接提及的法定证据方法,包括了讯问被告人、询问证人、宣读书面材料、出示物证、要求鉴定人和专家辅助人出庭并提供意见、询问鉴定人和专家辅助人,这其实给通过鉴定或检验对某些新的证据材料进行合法调查提供了可能。
当然,我国关于鉴定业务的分类中并不存在大数据分析或大数据鉴定,但是,根据最高人民法院《关于适用〈中华人民共和国刑事诉讼法〉若干问题的解释》第87条规定,对案件中的专门性问题需要鉴定,但没有法定司法鉴定机构,或者法律、司法解释规定可以进行检验的,可以指派、聘请有专门知识的人进行检验,检验报告可以作为定罪量刑的参考。可见,大数据证据可以参照检验报告的方式。
此外,公安机关的相关规范性文件也给大数据侦查预留了一定的制度空间,例如,公安部在《公安机关执法细则(第三版)》第29-02条中将“查询、检索、对比数据”单列为一种侦查措施,规定进行相关侦查活动时,应当利用有关信息数据库查询、检索、比对有关数据。
因此,可以考虑根据上述规范,将大数据比对或大数据分析纳入到电子数据勘验或检验的范畴。大数据证据的证据方法可以区分以下两种情况:基于海量数据的数据库比对和基于算法模型的大数据分析。
对于前者而言,虽然数据是海量的,但是,数据库是现成的,其包含的数据往往是采用统一、规范的格式储存的,因此,并不需要编写复杂的程序去“挖掘”数据与数据之间的深层关联点。甚至,该数据库的比对也并不需要非常专业的数据处理知识就可以胜任数据之间的对比操作。
鉴于此,该类大数据证据在证据方法上宜采用类似于电子数据勘验的方法,在法庭审理过程中由控方传唤从事数据库比对的操作人员当庭展示,并交由对方当事人辨识或质证即可。对于后者而言,可以考虑今后增加新的鉴定业务种类,由专门的鉴定人出具鉴定意见和出庭接受质证的方式,或者在当前,以有专门知识的人提供检验报告和出庭接受质证的方式。
其二,证据方法具有一定的开放性,并不必然对应某一种证据形式,相反,“同一种证据数据或来源,可能使用两种以上的证据方法及程序加以调查及证明。这一原理也可以有效地应对大数据技术的内部多元性和复杂性。也就是说,当不能确定某一大数据证据到底是基于海量数据的数据库比对,还是算法模型的大数据分析而获取时,可以结合不同的证据调查方法,如电子证据的勘验或检验,而核心目的就是为了更好地审查和判断大数据证据的证据能力和证明力。


四、大数据证据的证据能力与证明力


(一)大数据证据的证据能力
作为一种新兴的且带有数据科学色彩的证据资料形式,大数据证据仍然需要经过司法机关对于证据能力和证明力的审查判断,方能在事实认定和裁判结论上发挥重要功用。
具体而言,在大数据证据的证据能力审查上,应能经受住相关性和科学可靠性的检验;在证明力评价层面,应结合大数据应用的信息连接点选择、算法歧视可能性、逻辑架构合理性、算法结论稳健性等判断大数据证据的可信性以及对待证事实的证明程度。
第一,相关性检验。证据材料与案件事实之间是否存在相关性,是决定证据是否具有证据能力的重要因素。因证据无相关性而导致证据无证据能力的,理论上称为“因无关联性而无证据能力”的证据。
证据材料若要具备相关性,需要具备实质性和证明性两个特征。例如,美国《联邦证据规则》第401条规定,在决定一项证据材料是否具有关联性的时候,法官必须考虑两个问题:(1)实质性,即该证据材料与案件中的某个要素性事实是否有关。(2)证明性,即该证据材料具有逻辑上的证明作用——使某个事实更可能(或更不可能)。
证据的相关性要求在我国刑事诉讼法及其司法解释也有体现。《刑事诉讼法》第50条规定:“可以用于证明案件事实的材料,都是证据。”该法条可以解读为,证据必须具备能够证明案件事实的能力和属性。对于大数据证据而言,它实际上是大量数据集和大数据技术的混合产物,因此,审查大数据证据的关联性应主要包括两个层面:一是数据与数据之间的相关性。
值得注意的是,这种基于机器逻辑在数据与数据之间建立起来的相关关系往往是一种弱相关关系,甚至在逻辑结构上与基于人的经验理性所能建立起来的相关关系有所区别。在证据能力判断的层面,应当对这种基于机器逻辑的相关关系保持开放态度,肯认这种机器逻辑的可采性。二是数据比对或分析结果与待证事实之间的相关性。这乃是法官经验理性的范畴,可以参照一般证据类型的判断原则。
第二,科学可靠性检验。作为一种以数据科学为依托的大数据证据,其证据能力的判断还应当借鉴科学证据的可采性规则体系。在英美证据法上,一般有弗赖伊判例确立的普遍接受标准和多伯特判例确立的可靠性标准两种。
根据弗赖伊标准,科学证据只有在其所赖以成立的科学原理已得到普遍接受,才具有可采性。对于什么是普遍接受,判例要求该科学原理必须是公开发表且经过同行评议的,而且,这只是前提条件之一。也就是说,科学证据所依赖的科学原理在满足上述条件的情况下,法院综合考虑其它因素之后仍然可能作出该科学原理并未达到普遍接受的程度的判断。
但是,在多伯特标准下,法院审查科学证据可采性的标准有所放宽或更加灵活,法院列举了五种参考因素:专家证言所依据的理论或技术是否能够(且已经)被检验,控制和标准是否得到了保持,该理论是否已经受到了同行评议且已经发表,是否有已知的出错率,该理论是否为科学界所一般接受。应当注意的是,该标准对于同行评议的发表并未作必须的要求。
由于数据科学是一门新兴的前沿科学,要求大数据分析所依赖的机器逻辑或算法模型能获得普遍的同行认同似乎不太现实,因此,比较可行的是借鉴类似于多伯特判例中的可靠性标准。也就是说,依据科学可靠性来判断大数据证据的证据能力。
那么,如何具体判断大数据证据是否满足科学证据的科学可靠性呢?这取决于大数据证据所依赖的算法模型是否以及在多大程度上能满足可重复性、可解释性和可公开性等要求。
其一,可重复性,是指采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度。“一个可靠的过程,是可重复、可信赖或具有一致性的过程。……只有当一个装置反复应用后给出了同样的读数或图像,这样的装置才是可靠的。如果该装置没有得到适当养护,就不能提供可靠读数。”由于刑事司法遵循严格证明法则,若一种大数据比对或分析所依赖的处理方法或算法不具有可重复性,则显然不能满足多伯特判例意义上的可靠性标准,因此,不予考虑。
其二,可解释性和可公开性,主要是指算法模型是否可由开发者对其后台原理进行充分说理,以及是否可公开其核心算法。
在大数据领域,基于算法的可解释性和透明性程度,可以将算法区分为以下三个等级:白箱算法、灰箱算法和黑箱算法。
白箱算法是指算法可解释强,而且算法透明度也高。基于成熟数据库的身份、肖像、车辆等的数据库比对,以及一些能够合理解释,而且也能公开算法的数据挖掘,可以称之为白箱算法。通过白箱算法获取的大数据证据(比对结果或分析结果)应认定为具有科学可靠性,可以作为间接证据使用。
灰箱算法是指算法具有较强的可解释性,但透明度却较低。对于灰箱算法,其科学可靠性取决于某一个前沿领域的科学同行的评价和认定。若科学同行对其较强的可解释性有所认同,同时又能提供其透明度低的合理原因,则可以认定其具有科学可靠性。对此,可以考虑作为辅助证据使用,用于弹劾或补强被告供述或证人证言的可信性。
此外,这种灰箱算法应当得到重视,发挥其在侦查阶段的证据生成功能。例如,经算法挖掘之后发现一些可疑的交易记录,经核实之后,很容易通过其他传统取证手段获取到书证等重要证据。
黑箱算法是指算法的可解释性和透明度都较弱。对于黑箱算法,其虽然可以进行重复计算和分析,但是,因为涉及较难解释的机器学习,算法模型和运算进程也几乎无法公开,这种很大程度上还是应当将之作为侦查线索或情报信息对待。

(二)大数据证据的证明力评价
现代刑事诉讼针对证据评价普遍采行自由心证原则,即证据的证明力委诸于法官的自由判断,但这并不意味着法官可以恣意擅断、无所限制,相反,证明力评价还是要遵循论理法则和经验法则的内在约束。
由于作为侦查破案线索、弹劾被告辩解和补强言词证据的大数据证据并不致力于实体案件事实的证明,这里主要讨论作为印证性间接证据的大数据证据。在事实证明上,间接证据蕴含着一定的悖论:虽然可靠性较高,但事实裁判者往往倾向于低估间接证据的证明力。
然而,这一悖论并不适用于大数据证据。大数据证据可以作为间接证据使用,但由于其带有数据科学的光环,一旦被事实裁判者所接受并采纳为证据,其证明力就很容易被过度高估,从而强力影响甚至误导事实认定者。对此,不能不引起学界和裁判者重视。在评价大数据证据的证明力时,宜斟酌以下几个方面:
第一,信息连接点的选择。大数据分析本质上是一种针对一系列重要信息点的关联性分析,因此,首当其冲的乃是信息连接点的选择是否契合数据的特性以及待证事实的特定需要。
在分析美国911事件的时候,安德森等证据法学者就指出,事件发生后人们反复宣称该事件本是能够预测和避免的,因为美国情报机构此前已收到一些信息,但他们却缺乏整理和分析这些信息的能力。他们没有能力去连接信息点或者无法从大量数据中鉴别出某些有意义的信息。传统侦查方法的局限也许恰恰是当前大数据分析的优势。然而,在大数据分析逐渐流行之后,需要值得注意的也正是这些大数据分析所建立的连接信息点的选择是否恰当。
因此,事实认定者应重点审查个案中大数据应用的信息连接点(尤其是原始数据)本身的时新性、完整性和准确性。这些信息连接点的恰当合理性的选择,由于具有一定的专业性,裁判者需要借助于对控辩双方所提供鉴定人或专家辅助人等专业意见进行审查来实现。
第二,算法歧视的可能性。随着信息点数量的增加,可能的组合数量会呈几何数增加。算法模型的设计者需要决定采用哪些信息点以及采用何种组合模式,这其中,就要求在收集和审查判断大数据证据时,数据库的覆盖范围和算法模型的选择要避免歧视性和强入罪化倾向。
美国学者罗思就指出,算法的主观性问题不仅在刑事司法之外的法律语境中很突出,例如,由大数据和人工智能技术进行的信用评分等看似客观,但算法基础几乎总是与种族、性别和阶级等相关联,其在刑事司法领域也很突出。
侦查机关积极开发算法模型的核心目的,往往就是为了避免假阴性(错放无辜),而非假阳性(误判有罪)问题,“事实上,这些(算法)过程都存在隐藏的主观性错误,这些主观错误往往无法识别且不受控制,因此掩盖了镜像层和代理器背后的不合法或非法歧视。
为此,在进行大数据证据的证明力评估时,可以区分两种类型的大数据证据:针对数据库比对型的大数据证据,应注重对数据库本身的样本覆盖范围进行评估,如果数据库中的数据仅代表某一些特定的人群,甚至是专门针对某一特殊群体建立的,则裁判者应对比对结论的可靠性保持谨慎态度;针对数据挖掘型的大数据证据,也应注重对算法模型的选择是否存在歧视性和极端入罪倾向进行评估。
第三,逻辑架构的合理性。证据的证明力不仅取决于自身的可靠性,还取决于其与待证事实之间的关联程度。在刑事司法中,涉及定罪量刑的待证事实被称为终极待证事实,它也是承担证明责任的控诉机关所需要证成的假说或主张。但是,终极待证事实的证明往往需要经由对一系列次级待证事实的证明得以实现。
因此,一个证据的证明力乃取决于该证据与某一次级待证事实之间的推理链条是否牢固、合理和可靠;而对一批证据的证明力,不仅需要评估每一个推理链条(即每一个证据与次级待证事实之间的推理关系)的证明力,而且需要整合每一个单个证据的证明力,并进而决定这一批证据与最终待证事实之间的关联程度。
对于大数据证据而言,其证明力判断同时涉及这两个层面推理链条的审查判断。一方面,裁判者需要保证每一个关键信息连接点与次级待证事实之间的推理关系为“真”,在大数据证据的审查判断中也需要警惕,“一根熔断的保险丝将要影响的,可不仅是造成其熔断的插座”,还有可能导致整个案件的证明功亏一篑。另一方面,裁判者还应当审查该大数据比对或分析所依赖的整体逻辑架构。对此,似乎不宜停留在证据能力意义上的智能理性,建立在机器逻辑意义上的弱相关关系并不能满足定罪量刑的证明要求。
因此,为了保证刑事裁判结论的准确性和正当性,还是应当秉持法律理性,要求该逻辑架构能否符合一般有效的经验法则。如林钰雄所指出的,“如果法官想要采信某个并非一般有效的经验法则,应该予以论证,说明法官为什么认为该经验法则‘可以’作为导出结论的基础。
第四,算法结论的稳健性。在统计模型的建构中,为了保证统计结果的可信度,一般都会使用多种方法进行稳健性检验。在对大数据证据的可信性进行审查判断时,也应当考虑稳健性检验问题。如果大数据分析结果能够得到多种方法的检验,则说明该大数据证据的信度更佳。相应地,在用于证明待证事实时的证明力也相对更强。


结语


在域外,自从著名的科林斯案将“数字”引入以“文字”为主要论证工具的司法场域后,其所激起的涟漪就一直未曾平息过,只不过不一定能称之为波澜。固然,法律人可以以审慎而稳健的价值观谬之以“数学审判”,并对带着数学精确性光环的证据保持警惕。
但是,无可否认的是,虚掩的法律之门已不能对概率、数学、数据的浪潮回避太久。在我国,在涉及海量视频、文件或实物的案件(如快播案)中,或者某些有科学背景的被追诉人在辩护(如周文斌案)时,与数据和数学密切相关的抽样取证方式或概率辩护策略也已经悄然登场。
然而,从抽样取证到大数据侦查,从概率统计到算法模型,这一切似乎来的太快,并未给司法工作者和理论学者过多的思考时间。随着数据时代的到来,大量数据无可避免地需要进行大数据比对和分析,并形成大数据证据。
本文只是对大数据证据在刑事司法的表现形态、作用方式、属性定位、证据能力与证明力做了一个初步的讨论,值得进一步挖掘的深层论题还很多。至少对于大数据证据来讲,它仍然面临着工具理性和价值理性两个维度的悖论和困境,仍然需要大数据证据的收集者和审查者去面对。
首先,从工具理性的角度讲,传统侦查方法能获取证据的数量不足,留给追诉者和审判者的案件信息点也较有限,而大数据取证着力解决的是更松散、更零星、更海量的数据的提取和分析,形成大量案件信息连接点的有效组合,可以说,大数据应用技术生成次级待证事实与形成推理逻辑链条的能力更强了。
然而,在此之前,抽样取证问题已经引发争议,包括抽样方法是否合理,抽样程序是否规范,抽样结论是否能推及整体,以及基于抽样取证进行刑事司法证明的可行性、风险及限度,等等。
同样地,来源于大数据应用技术的大数据证据是否就一定能保证客观、真实和准确呢?正如罗思所指出的,“许多犯罪侦查设备和软件往往被‘晦涩的黑匣子’所掩盖,这些‘黑匣子’程序在闪亮的钢铁装置或计算机代码中‘隐秘工作’。这些‘黑匣子’程序,因为他们的机械外观和显然简单的输出,表面上具有客观性和确定性。
抽样取证建立在抽样统计的基础上,尚有一定的统计学基础作为支撑,但是,大数据比对结果所依赖的数据库以及大数据分析结果所依赖的算法模型(尤其是黑箱算法),其数理逻辑架构的合理性到底有多强,也十分值得审视。
当然,并不能说大数据证据就一定劣于抽样统计获取的证据,至少在大数据时代,抽样统计有其无法回应的现实问题,大数据应用技术有其不可或缺的实际功效。
也许,今后我国刑事司法不得不面对的尴尬是:既需要走出传统上严重依赖言词证据的窠臼,又需要面对一些新型证据(如大数据证据)所带来的困惑。对于后者,它是客观证据,但相关性和可靠性又存疑;它是间接证据,但又很容易因其数据科学的光环而误导裁判者的心证。
其次,从价值理性的角度讲,不得不面对的是,以国家公权力为后盾的算法开发是否能足以保证算法模型的无歧视性,刑事司法机关所利用的大数据侦查方法是否符合正当程序的要求,以及由此获取的大数据证据是否能经受住严格证明法则的合法性检验。
此外,在大数据时代,追诉机关在大数据获取和分析上占有绝对的和支配性的优势,不仅享有国家巨额资金去建设的各种数据库,同时也有权在必要时调取社会机构数据库中的数据,相反,辩护方则处于明显的劣势。
可以说,控辩双方在数据比对、数据挖掘和数据处理能力等方面存在巨大的实力差距。这不可避免地会加剧我国以往侦查中心主义和控辩失衡情况。这同样是检视大数据证据时无法绕开之问,也呼唤着未来更具法律正当性的算法模型和控辩格局的到场。


以下点击可读:北京市丰台区律协成功举办电子证据与大数据证据审查与质证互动式培训
丰台律协讲座预告 | 朱桐辉:证据法中的要件引导式审查——以电子证据和大数据证据为例
黄云、杨子琛:虚拟货币犯罪的大数据分析与界定
黄云、李佳恩:网络犯罪案件大数据分析报告
预告 | 南开证据法课程 | 周跃:大数据证据运用的技术规则构建
李奋飞、朱梦妮:司法责任制改革的大数据方略
强烈推荐 | 李奋飞、朱梦妮:大数据时代的智慧辩护
兰亭会六周年 | 程雷:大数据侦查的法律控制(完整版)
莫丽冰 | 大数据:微信聊天记录电子数据的排除问题
大数据报告 | 文化程度与缓刑适用之大数据报告 ——基于故意伤害罪的实证分析(下)
大数据报告 | 文化程度与缓刑适用——基于故意伤害罪的实证分析(上)
大数据时代的刑事领域被遗忘权
宋雷昌 刘笛 | 大数据企业常涉的“三宗罪”——企业家刑事风险防控研究(三)
李训虎:刑事证明标准“中体西用”立法模式审思——兼评大数据、人工智能参与证明标准构建
强烈推荐 | 游走于犯罪圈内外:大数据企业收集公民静态、动态信息进行核验的合法性分析
陈溢:警钟敲响,暗流涌动的大数据行业亟需刑事合规
冯聪警官:远程勘验规范化发展的探索与实践司法数字化的制度探索与发展 | 征文及评奖公告
王兆峰、高洁、孙坤铭、刘妍妍:《数据安全法》的多维、专业、细分解读

编辑 | 南开大学法学院研究生 宋佳伟

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存