王燃:大数据证明的机理及可靠性探究
主要从事大数据、人工智能与司法及证据法学研究。就“大数据侦查” “大数据证据” “智慧司法”“电子文件与电子数据”等主题形成体系化研究。代表作《大数据侦查》(专著)获第一届“中国网络法学优秀成果奖”一等奖,并在中国大陆及台湾地区出版。
“大数据时代侦查模式的变革及其法律问题研究”获 2016 中国法学会“第十一届中国法学青年论坛”一等奖。“大数据时代检察机关遇到的挑战与应对”获最高检检察长批示并印发全国检察机关学习。Legal Technology in Contemporary USA and China 发表于期刊 Computer Law & Security Review (SSCI 法学一区,独著),并获得美国“Governance of Emerging Technologies & Science ”国际会议二等奖。“电子文件管理与证据法规则的契合研究”被《中国人民大学复印报刊资料.档案学》全文转载。
主持并参与国家社科基金项目(大数据证据研究)、中国法学会(大数据时代公共机构的数据开放及其法律问题研究)、天津市档案局(电子档案的法律问题研究)、最高检重点课题(大数据的运用与检察工作创新)等十余项课题。
主讲“证据法学”“刑事诉讼法学”“大数据调查方法” 等课程,获天津大学“沈志康奖教金”“北洋青年骨干教师”称号。
目录
引言
一、大数据证明的机理
二、大数据证明的可靠性风险
三、大数据证明的可靠性规制
结语
引言
随着大数据、人工智能技术逐渐渗入司法证明领域,引起建立在大数据基础上、以算法为核心的证明方式变革。大数据在司法领域的证明作用,突出表现在以下几方面:
(1)证明主体身份。基于海量数据的生物特征识别技术开始用于人身同一性认定,例如混合DNA识别模式在美国司法界已日趋成熟。基于人脸数据、指纹数据甚至是步态数据的算法模型,大大拓展了人身同一认定的范围。
(2)证明资金账户特征。近年来,我国公安经侦部门开始借助大数据技术,应对互联网金融犯罪海量数据的审查认定难题,犯罪组织成员间关系、传销账号及层级、资金流向等特征在算法模型下一目了然。
(3)证明情节轻重、损害程度等。根据我国相关司法解释,网络犯罪中“视频或音频文件个数”“点击数”“注册会员数”“浏览量”“转发量”等“海量数据”往往作为判断情节严重的依据。面对动辄成千上万的数量级,实务中多以软件(借助算法模型)自动统计。此外,“大数据指数”也经常用于知识产权等案件中损害程度的证明,例如百度指数等证明对象的热度、知名度、影响力等。
(4)证明人身危险。在美国,司法领域开始普遍采用算法评估嫌疑人的人身危险性、再犯可能性,并将之作为假释和量刑的依据。
相较于实务界大数据证明运用的蓬勃景象,学界的大数据证明研究尚不多,且主要集中于对其证据形式、真实性及关联性的分析讨论。上述研究也有很多观点值得进一步深化。
一、大数据证明的机理
有学者从狭义角度出发,认为大数据证明的关键在于计算模型的构建,即通过算法所产生的数据结果;有学者则从广义角度出发,将一些数据库平台查询搜索结果、海量数据本身也纳入其中。本文认为,相较于传统基于人类经验的证明机理,大数据证明的核心在于以算法模型完成证明过程,是一种超越人类经验的智能化证明。
传统司法证明,无论是证据证明,抑或是推理、司法认知,都是基于人类主观经验的证明。(1)司法证明主要借助证据与证据、证据与事实之间的逻辑关联,将事实碎片拼接成完整事实图画。证据推理的关键环节,即“大前提”一般都是来源于主观经验。(2)除了证据证明外,推定、司法认知这两种证明方式中主观经验更为重要。推定强调从基础事实到推定事实之间要具有高度的伴生关系,事物间的伴生关系来源于主观经验。司法认知中显而易见的事实、众所周知的事实等也建立在主观经验基础上。
大数据证明则是依靠智能化算法来完成证明活动,是一种超越了人类经验的新型证明模式。一方面,大数据证明解决了人类经验难以完成的证明困境。大数据时代出现了证明对象海量化的趋势,特别是在一些互联网涉众案件中,提取的电子数据动辄上亿条。对此,仅凭人类经验浏览完数据集都是不可能完成的任务,更遑论进行证据推理。
另一方面,大数据证明突破了人类经验尚未涉足的认知新领域。超越人类经验的智能化算法亦可被用来探索司法证明的新领域。近年来,DNA领域的证明“空白”由此得以突破。在单一DNA来源的案件中,一直以“人类翻译”(human interpretation)为主导方法。但面对混合DNA——即在同一生物证据中存在两个人或更多人DNA混合物,人类经验则束手无策。
可见,大数据证明能够弥补传统经验式司法证明的短板,大大拓展了人类证明的领域边界,是一种超越人类经验的证明模式。相较于传统证明,大数据证明还具有数据空间证明、数据因果关系证明以及涵摄未来证明等内涵。
(一)从侧重于物理空间的证明到侧重于数据空间的证明
传统证明主要以物理空间为场景。这里的“物理空间”既包括肉眼可见、可以直观感知的现实场景,亦包括以新兴电子数据为代表的“虚拟空间”。本质上来说,“虚拟空间”亦属于广义上的物理空间,其体现为0和1二进制代码所组成的空间。在物理空间场景,证据表现为证据载体以及根据载体所反映出的信息,主要根据载体所反映的信息进行事实证明。
大数据证明则以数据空间为场景。这里的“数据空间”不同于传统证明中所“自然”生成的物理空间,而是源于大数据时代的“万物皆可数据化”特征,探求物理空间中一切事物所对应的数据形态。理论上说,八种法定证据种类,均可映射在数据空间,有着相对应的数据化形态。大数据证明亦是“物数据化”的过程,将原本物理空间证明转移至数据空间,寻求基于数据及算法的证明方法。
(二)从侧重逻辑推理的因果关系到侧重基于数理的因果关系
传统证明侧重基于逻辑的因果关系。因果关系是人类认识世界的根本方式。在司法证明中,因果关系的理解及运用尤为重要,往往表现为从果溯因式的逻辑推理。例如张三在案发后神情紧张(果),假设作案人在案发后神情紧张,那么张三则有可能是该案件的作案人(因)。传统司法证明中的因果关系通过人脑的逻辑推理来完成。人脑在接受证据信息后,探究证据背后的原因,建立起证据与事实之间的因果关系,以及证据与证据之间的因果关系。
大数据证明侧重基于数理的因果关系。很多学者有这样的误解,认为大数据擅长相关关系而非因果关系,大数据证明中知道“是什么”就足够了。但实际上并非如此。相关关系实际上是因果关系的派生。数据空间中,物数据化意味着因果关系的数据化,因果关系被蜕化为变量之间的数理关系。数理关系完全不同于人类的推理逻辑,其主要表现为数据之间的相关性,并往往进一步体现为“概率”。同理,大数据证明中,因果关系并非不存在、不重要,而是体现为数据的相关关系。
(三)从面向过去的证明到涵摄未来的证明
传统证明主要面向过去事实。大数据时代之前,人类活动主要是描述性的,即真实、精确地反映既存对象,以真实性为衡量标准。描述性活动亦表现在司法证明中,传统司法证明对象是“事实”。一般认为,诉讼活动中需要证明的案件事实都是已经发生的历史事实。
大数据证明可涵摄未来事项。预测是大数据最具价值的应用。大数据时代人类活动转向创构性,即根据人的需要和发展进行开创性活动,以使用的有效性为衡量标准。创构性活动主要建立在大数据预测基础上,通过对相关因素的把握和干预,来达到预想的结果。创构性活动亦对司法领域产生影响。
此外,从广义上来说,即便是传统的司法证明也有面向未来的因素,但在大数据时代之前表现得尚不明显。传统司法证明对象包括影响量刑、羁押、取保候审、监视居住等程序性措施的要件,典型的如嫌疑人“人身危险性”“再犯可能性”的证明。我国认罪认罚从宽制度中,可能判处管制、宣告缓刑亦要进行社会调查评估,对被告人的家庭和社会关系、一贯表现、犯罪行为的后果和影响等进行调查评估。大数据无疑为“人身危险性”“再犯可能性”的评估和预测提供了绝佳的工具。
二、大数据证明的可靠性风险
作为一种新型证明方式,证明结果可靠与否乃大数据证明首先要面对的问题。不同于传统基于人类主观经验的证明方式,大数据证明本质在于机器自主、智能化分析。而在这一证明机理中,起关键作用的要素即数据和算法。因而,大数据证明的可靠与否主要取决于基础数据的真实性与全面性,以及算法模型的准确性与公平性,相关法律程序的缺失亦会对其可靠性产生影响。
(一)数据维度
数据质量及其真实性是大数据证明可靠与否的基础。大部分研究都认为数据源本身要准确,有学者还提出“宏观真实性”及“微观真实性”的观点。然而,上述分析仍然停留在技术层面。实践中,还存在如数据虚假等“法律”层面数据不真实,以及数据样本不全面等问题。
1.法律层面的数据错误
原始数据一般都面临混杂性问题,包括格式不统一、数据重复、残缺、错误等。对于共性的数据混杂问题,可以通过数据清洗、数据转换等技术来解决。然而,司法证明中的数据混杂远不止技术层面。法律评价与技术评价的差异导致了虚拟空间的“数据”往往不能对应至背后的法律行为,技术真实的数据不一定法律真实,并进而导致法律事实认定困难。
2.数据样本不全面
相比于传统证明方式,大数据证明具有海量数据的特征,但很多场景下并未达到“全数据”量级,并影响证明结果的可靠性。例如在涉及“百度指数”“搜狐指数”等指数型证据案件中,指数仅来源于其自身网站搜索量计算,而单一网站数据并不能代表被证明对象的整体发展态势。一些个案中,即便设计了科学的算法模型,但由于未能获取全数据,计算结果仍然未能得到法官采信。
(二)算法维度
算法的科学性及准确性是大数据证明可靠与否的核心因素。算法的可靠性既取决于算法模型本身的设计准确与否,也取决于其在司法场景运作过程中是否公平公正。
1.算法模型不准确
算法模型是大数据证明中最核心的部分。很多研究提到了“算法黑箱”问题,但没有深入分析算法不可靠的症结点。实际上,源代码及算法设计环节都有可能出错;即使算法本身通过了验证,具体适用场景的差异也会导致验证结果不可靠。2015年,澳大利亚昆士兰当局确认,混合DNA分析软件STRmix中发现了错误代码,并造成至少60个案件中犯罪分子认定错误。而在另一混合DNA分析软件FST(The Forensic Statistical Tool)的算法被公开后,纽约法律援助组织声称FST的技术根本不可靠,其所依据的数据也不完善,该软件之前所涉及的案件有可能导致法官错误定罪、无辜者被迫认罪。
源代码出错及算法自主性。算法模型中最核心的部分为源代码(Source Code)。源代码是指一系列使用字母数字字符编写的命令。源代码出错的情形实际上远远超过法律人的认知范畴,包括随机性错误、软件升级带来的错误及误差、软件退化带来的源代码功能失灵、委托者的利益影响等。
适用场景不一致。实务中非常容易忽略算法适用场景的差异。当算法模型的实际运用场景与其开发环境、实验参数并非完全一致时,就有可能导致分析结果不可靠。以混合DNA算法模型为例,假设其研发时场景为三个人的DNA混合物,但适用的真实案件中却有五个人DNA混合物,那么则会导致证明结果不可靠。
2.算法模型不公正
算法模型在运行过程中容易造成偏见,偏离司法公正的要求。学者们多受英美研究启发,关注算法的种族、性别等歧视问题。例如在经典的卢米斯(State v. Loomis)案中,人身危险性评估软件COMPAS就被认为含有性别及种族歧视因素。
替代性变量(Proxy Variables)的运用。算法偏见的一个重要原因是替代性变量的运用。算法模型中,看似中立的变量可能是某类偏见的代名词。在大数据司法证明场景中,替代性变量往往表现为与目标对象无关的,甚至是法律禁止的变量,或者是以群体性变量来替代个体变量。
恶意循环机制(Pernicious Feedback Loops)的加剧。算法本身会有一种反馈循环机制(Feedback loops),一旦机器学习的运算结果得到验证反馈,则会强化其模型中的某些变量,进而产生更多的该类结果。
(三)法律程序维度
程序透明也是大数据证明可靠与否的重要因素,透明的机制有助于倒逼数据质量和算法准确性的提升、消减算法偏见。目前大部分研究都关注到技术层面的“算法黑箱”,但忽视了法律层面的“程序黑箱”,即人为造成的法律程序不透明,且程序黑箱更为隐蔽。
然而,越来越多的观点开始质疑在刑事案件中保护商业秘密的必要性。有学者指出,传统的证据规则已经无法适应新技术的变化,“现在用于生成犯罪证据的专有算法的复杂程度是前所未有的,而现有的证据规则还没有完全具备处理这些问题的能力”。商业秘密保护的初衷是创新以及提供公平的营商环境,而刑诉中算法开示的对象——刑事被告人,是最不可能成为商业竞争对象的群体。
在中国,证据法体系中没有商业秘密特免权的规定,但并不代表当事人就能获得大数据证明相应的知情权及算法开示的保障。
三、大数据证明的可靠性规制
如前所述,传统证明是一种基于人类主观经验的证明模式,传统证据法体系中的可靠性规则也在此基础上构建。然而,作为一种超越人类经验的证明模式,大数据证明是由机器智能化分析来证明相关事实,其核心机制的数据逻辑、算法原理区别于传统人工经验分析。
同时,数据法则的构建不等于完全脱离传统的证据法框架,具体的数据法则仍要符合证明可靠性的功能要义。例如,数据和算法要符合法律真实性要求,要保障控辩双方对算法的质证权等。
(一)数据层面:基于数据法律真实和全样本的规制路径
针对上文所述的数据维度风险,除了要保障数据“技术”层面的真实性,司法证明中更应当关注数据“法律”层面的真实性,不能盲目信赖数据混杂观念,要确保数据背后对应着具有法律意义的实质行为、符合法律评价的要义;关注数据的“全样本”,以确保事实认定的完整性。
1.数据的法律真实
摒弃数据混杂性的盲目信赖。司法领域涉及公民的人身、财产等重要权利,具有领域的特殊性和专业性,因此司法领域的容错率也有一定限度。因此,在对数据源真实性进行审查时,不能盲目适用大数据通用领域的“混杂性”观点。特别要防范一些技术表层真实,但实质上并不具有法律意义的人为“造假”的数据源,如“虚假点击数”“僵尸粉”“刷单数”等,将之作为分析基础易造成事实认定错误。
数据真实性的逻辑判断。在进行数据法律真实性审查时,有学者从技术层面提出“宏观真实性审查”“微观真实性审查”。然而,宏观真实性只能保证数据从提取到庭审阶段未受篡改,但无法保证数据本身是否符合客观实际;微观真实性虽然强调单个数据的真实性,但仍然无法识别人为操纵机器所产生的“虚假数据”,例如“虚假点击数”“僵尸粉”“刷单数”等。
对此,目前尚未提出有效的解决办法。笔者认为,一个可行的办法仍是借助算法来识别虚假数据。一般而言,机器产生的虚假数据往往呈现出与自然生成数据不同的行为规律,如点评内容重复、点评内容过短,账号在线活跃度不足、“粉丝”较少等。
2.数据的全样本
司法证明中,数据的全样本并非一定要动辄达到PB、EB等规模的量级,关键在于与分析对象的匹配性。只要其数据量符合具体分析对象、分析任务所需的数据范围,则其数据量的大小并不重要。原因在于“全样本”代表了分析对象行为的完整性,而事实认定和法律评价应当建立在完整行为的基础上。例如百度指数虽然是建立在上亿网民网络行为基础上,但仍然不能代表整体社会评价。
(二)算法层面:基于模型准确和算法正当的规制路径
针对上文所述的算法维度风险,司法实践中既要确保算法模型代码设计的合理性,也不能忽视其具体适用场景与开发场景的一致性;要关注算法模型运行的正当性、公正性,防止人类的偏见被编入代码,并从训练数据的选择、替代性变量的识别及模型验证角度保障算法的公正。
1.算法模型的准确性
如何保证算法模型的准确性,目前一个广泛提议就是进行有效性测试(Validation Test)。但实际上,有效性测试往往并不可靠。测试有一定的样本限制,其输入、输出设定了一定条件和适用情境,在A场景中模型的有效性并不等于在B场景中依然有效。而真实的司法场景又非常复杂,小样本的测试不足以囊括所有可能的错误类型。例如,DNA分析软件STRmix的错误代码在测试时并未显现,而是在之后上千个案例的实践中才得以发现。可采取以下措施保障算法的可靠性。
(1)中立的第三方评价。司法证明领域,算法可靠性的保障可以尝试引入科学证据的审查标准。在美国,科学证据可靠性标准经历了弗赖伊规则(Fryer)到道伯特规则(Daubert)的变化,其中一项重要的标准就是经过同行评议(Peer Review)。但要注意同行评议应当由具有权威性的中立方作出,而不应当出自利益相关方。例如混合DNA分析模型TrueAllele尽管有七份经过同行评议的论文发表,但大部分都出自其公司的利益相关人员,从而导致其中立性、可靠性颇受质疑。
(2)适用情境的匹配性。相关人员一定要注意算法模型开发、测试条件与不同场景的匹配性。例如人身危险性评估算法中,被评估对象是否会缺席审判、是否会再次犯罪等司法场景及其背后原因各不相同,必须分别进行开发与测试,不能混淆适用;再如混合DNA分析算法中,面向特定人数开发的混合DNA测试模型,不能适用于多于特定人数的场景。因此,一定要区分大数据证明的不同情境,即便是通过有效性测试的模型,司法人员也要审查具体个案中的适用条件是否与算法开发的要求相匹配。
最新研究表明,为确保算法可靠,还可以设计、使用可直接进行解释的模型(Interpretable Models),用户可以直接观察到变量的运用及其变化。这类可解释模型对于诸如人身危险性评估等高风险决策算法尤为有价值。
2.算法模型的正当性
为防止大数据证明中算法偏见的产生,可从政策及技术两个层面构建算法的正当性机制。政策层面,要防止人类的既有偏见编入算法,寻求将公平正义等价值观转化为代码的路径;技术层面,可通过训练数据多元化、识别潜在的替代性变量以及对算法模型的测试验证来确保其正当性。
(1)政策层面的正当性规制。算法的偏见往往来源于人类本身既有的偏见。在人脑的机制中,可以对公平、正义、效率等价值进行动态调整,而算法则缺乏对价值进行运算的能力。算法容易实现效率以及数理上准确的目标,却很难实现社会意义上的公平公正。尽管如此,司法证明领域在进行大数据建模时,仍应考虑公平正义等价值观,甚至可为此牺牲部分效率价值的追求。避免出现性别、群体、教育背景等偏见性变量,避免使用带有有罪推定色彩的变量。
(2)技术层面的正当性规制。选择多元化训练数据集。训练数据集选择偏差与否,从根本上影响着模型的中立性。例如,在美国人脸识别算法被质疑带有偏见,有色人种的错误识别率是白人的100倍,妇女、老人、儿童群体的错误识别率更高。原因之一就是人脸识别算法的训练数据集缺乏多样性,大部分数据都来源于男性白人,这就导致算法模型对于男性白人群体的准确度较高,而对其他群体则容易出错。对此,应当有针对性的增加训练数据集的多样性,例如IBM公司利用均衡混合的包括种族、性别和年龄的面部数据集来帮助算法系统克服各种偏见。
识别替代性变量。大数据证明算法设计者及司法人员,都应关注算法模型中歧视性、偏见性变量,特别是一些隐蔽的替代性变量。当然,替代性变量的发现需要识别者具有良好的专业背景知识。例如对人身危险性算法模型审查时,有关人员要对法律规定的逮捕条件、假释条件、量刑情节等了然于心,以敏锐发现不符合法律要求的数据变量,特别要注意识别群体性变量、替代性变量,以及法律上禁止的“品格证据”变量。
审查模型运行效果。通过对模型运用效果的审查,也可发现其偏见性,防止陷入恶意循环的误区。可采用统计学方法设计模型来满足“机会均等”的要求,即将模型在不同群体间进行测试,其测试结果应当具有均衡性。
(三)程序层面:基于算法开示的规制路径
有学者对算法开示持反对观点,认为算法开示不可行也没有必要,“算法透明≠算法可知”。更为经典的观点则认为,算法代码开示是对国家权力的一种制约,一些情形下算法代码必须开放。
在美国,大数据证明中算法开示的地位也日趋重要,商业秘密特免权已不足以成为算法开示的阻碍理由。例如在上文所述的人民诉柯林斯案件、美国诉威廉姆斯案件中,法官均排除未经算法开示的大数据证明结果。
1.赋予当事人知情权,告知其大数据证明的运用。
2.赋予当事人申请算法代码及数据开示的权利,建立大数据证明结果排除制度。
3.算法开示的具体程序。
此外,域外的一些做法也值得我们借鉴。(1)鼓励算法开发商主动开示其算法,形成良性法律科技产品竞争机制。例如新西兰皇家研究机构(New Zealand's Crown Research Institute)建立了主动向被告人进行算法开示机制;CivicScape、Azavea等预测警务产品将其源代码、变量等在GitHub平台进行开示。
结语
大数据被喻为“未来的新石油”,已对人类社会生活方方面面产生影响。在司法这一专业领域,大数据亦悄然发挥证明作用,能够有效降低证明难度、提高证明效率。相较于传统的主观经验式证明机制,大数据证明的核心机理体现为超越人类经验的智能化证明模式,并且从侧重于物理空间转向侧重数据空间,从基于逻辑推理的因果关系转向基于数理的因果关系,从对过去事实的证明转向涵摄未来事项的证明。
《法学家》是中国人民大学法学院所办的法学核心期刊,推崇厚积薄发的研究力作,力求反映法学研究前沿问题和动态,推动法学繁荣发展。
(王燃:《大数据侦查》,清华大学出版社,2017年)
以下点击可读:
新媒首发 | 王燃:大数据时代侦查模式的变革及其法律问题研究
李训虎:刑事证明标准“中体西用”立法模式审思——兼评大数据、人工智能参与证明标准构建
北京市丰台区律协成功举办电子证据与大数据证据审查与质证互动式培训
预告 | 南开证据法课程 | 周跃:大数据证据运用的技术规则构建
大数据报告 | 文化程度与缓刑适用之大数据报告 ——基于故意伤害罪的实证分析(下)
大数据报告 | 文化程度与缓刑适用——基于故意伤害罪的实证分析(上)
宋雷昌 刘笛 | 大数据企业常涉的“三宗罪”——企业家刑事风险防控研究(三)
强烈推荐 | 游走于犯罪圈内外:大数据企业收集公民静态、动态信息进行核验的合法性分析
获奖论文 | 易文杰:性侵儿童案件被害人陈述的审查判断——基于205份裁判文书的考察
赵琳琳丨澳门刑事预审制度改革的思考;澳门刑事诉讼的特色及最新发展
编辑 | 阳山磊,山西农业大学内审部办公室副主任,南开法律硕士