郑慧媛:大数据分析在司法认知中的应用探索
点 击 蓝 字
欢 迎 关 注
大数据分析作为“互联网+”时代的分析工具,能够对海量数据的分析和预测,为法官对众所周知及规律、定理等进行司法认知提供可能,解决实务中“当认不认”以及“过度认知”的问题。本文从大数据分析在民事诉讼司法认知予以应用的案例出发,提出和分析大数据分析应用存在的性质、科学性和客观真实性等争议和问题,对大数据分析进行理性归位,设立了大数据分析引入司法认知的程序规制,并提出设立“大数据库”及“黑白名单”的构想,以优化法官认知能力,推动心证客观化,为大数据的在司法中的广泛、有效应用提供保障。
——从经验依赖到程序规制
文 / 京东法律研究院电商法律研究中心主任 郑慧媛
“大数据(big data)”是一种新型知识分析工具,“是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合。”[1]其数据分析和预测功能广泛应用于商业分析、政府数据统计、法院司法统计等各领域,但尚未广泛应用于法院对具体案件的事实认定中。民事诉讼中需要认定的争议事实,包括需要以证据证明的事实,即待证事实;亦包括无需证据可由法官直接认定的事实,即司法认知的事实。司法认知与证据证明最大的区别是,司法认知是法官通过调查研究和日常经验获得的知识。[2]我国民诉法司法解释规定了众所周知的事实、根据法律规定推定的事实、根据已知的事实和日常生活经验法则推定出的另一事实等,当事人无须举证予以证明。[3]但何为“众所周知”?何种规律、定理可以作为直接进行司法认知的对象?理论上存在争议,实务中操作不一。大数据是否可以作为认定事实的证据,大数据分析是否能作为一种证明方法,并非本文的写作动机。本文主要探讨如何将大数据分析引入民事诉讼司法认知过程中,以优化司法认知的程序,推动认知的规范化和心证的显现化。
目次
一
大数据分析引入司法认知之实证初探
(一)实务中的认知争议
司法认知(judicial notice)是指“法院对于应当适用的法律或某种待认定的事实,不待当事人主张,即给予考虑,不待当事人举证,即予以认知,把它认为真实,作为判决的依据。”[1]其作用在于对某些公知的事实免除当事人的举证责任,在诉讼中能起到缩减证明范围、节约诉讼成本的作用,但司法认知在实务中的如何应用,存在争议。
案例一:甲公司与乙农场签订农产品买卖框架合同,约定甲公司每月向乙农场采购一定数量的圆生菜等农产品。双方对每月采购量、送货时间进行了预估。第二年夏,乙农场迟延交货,甲公司以乙农场迟延交货构成违约为由要求解除合同。诉讼中,乙农场主张当年夏季当地气候异常,雨水不足,导致圆生菜减产,乙农场为了依约履行合同不得不从外地高价收购,导致交货延迟。法院认为,乙农场未能证明当地当季气候异常、雨水不足、导致圆生菜减产这一事实,迟延交货行为不存在免责事由,构成违约。
案例二:消费者从丙汽车公司购买车辆,后发现车辆在购买前存在维修记录,故以丙公司向其出售二手车为由,主张丙公司构成消费欺诈,要求其按照消费者权益保护法的规定退款并三倍赔偿,丙公司认为其仅是例行PDI(出厂前检测)程序,无需将此情况告知消费者。(此类案件系近期较为常见的消费者维权案件,具体售前维修情况包括更换发动机、更换变速箱控制模块、更换车灯、补漆等。有些判例认定车辆的PDI程序是行业惯例,经营者未作出特别的提示和说明仅是认识问题,不构成欺诈。[2]有些判例根据车辆实际检修的部位来认定车辆是否属于“普通消费者概念中的新车”,已确认是否构成欺诈。[3])
案例三:2015年1月,甲(卖方)与乙(买方)签订了商品房买卖合同,房屋总价款为400万,违约金为房款的20%,乙交付了定金10万元。春节后,甲拒绝继续履行合同,乙起诉主张解除房屋买卖合同,要求甲按约定支付违约金。甲主张约定的违约金过高,仅同意双倍返还定金。乙提交L房产中介公司提供的几个月内的二手房成交大数据,以说明春节前后房价大涨,故约定的违约金并非过分高于损失。
事实上,对于气候和农作物产量的情况、消费者对车辆部件的选择,房价变化情况等问题,负有统计职责的部门以及有利害关系的大型企业都会讲数据予以统计,并通过报纸、期刊、电视、网络等媒介公开其数据分析的方法和结论,无论是法官还是当事人,其都可能有意识或无意识的接触到上述信息。然而,案例一中法官并未将气候情况及其对农作物产量影响作为司法认知的对象,案例二中,法官对行业惯例以及“普通消费者新车的概念”进行了认知。案例三系大数据出现在个案中的典型案例。对于认知的具体对象、认知的程序的问题上,现行法并无明确规定,实务中多依赖于法官的经验理性。上述事项是否可以作为众所周知的事实,因而由法官直接认知?L房产中介公司提供的房屋成交大数据是否能够作为法官对事实进行认知的辅助工具?大数据分析结论的采纳应经过何种程序?是研究大数据分析在司法认知中的应用必须解决的问题。
(二)大数据分析应用之困境
司法认知的目的在于集中证明范围,减少诉讼成本,对于其功能的探讨不宜过分关注于实体结果,而应关注何种事实应当作为司法认知的对象。大数据分析作为“互联网+”时代的分析工具,能够对海量数据的分析和预测,为众所周知及规律、定理的判断提供了可能,解决实务中“当认不认”以及“过度认知”的问题。如下图为通过大数据分析技术来认定降水对圆生菜产量的影响。
大数据作为新型分析工具,其主要特点包括:1.以全部数据而非抽样数据为样本基数;2.追求效率而非每个数据的精确性;关注事物之间的相关性而非因果关系。[4]其核心是预测,把数学算法运用到海量的数据上来预测事情发生的可能性,然而作为诉讼中认定事实的方法,则需要透视应用其存在的诸多争论和困境。
第一,大数据本身的性质是什么?是否能够作为诉讼证据? 是否有资格作为诉讼中认定事实的依据?
第二,大数据是海量数据的集合,则如何处理海量数据中不真实的数据?如何确认采样过程和计算过程的客观性?如何判断数据呈现结果的真实性?
第三,应如何平衡大数据分析的结果与法官经验理性之间的关系?如何防止法官对大数据分析结果采纳与否的恣意心证?
新的方法的引入需要反复论证,只有解决上述问题,证明大数据分析的价值大于克服其存在问题所耗之成本,其才有引入的价值。
二
大数据分析引入司法认知之问题分析
(一)性质争议:证据、背景知识亦或分析方法
关于证据的概念,我国诉讼法理论界对此并没有统一的认识。英美法系的国家一般不对证据的形式进行界定,其对于证据形式的立场是开放的。我国民事诉讼法规定了八种证据形式。[1]从形式上来看,大数据实际是电子数据的集合,大多以书证、试听资料的载体展现。[2]大数据作为一种证据,反对者认为,“考虑到大数据分析的相关性特征,且并不以科学理论的演绎逻辑体系作为其理论基础,大数据分析直接作为科学证据的可能性较低,而更多的是在事实认定中提供框架背景知识。”[3]
关于大数据是否能够认定为证据,笔者认为,大数据或大数据的分析结果,其形式上符合我国法定证据形式的要求,其在具体案件中,能够对待证事实予以证明,而无论是立法还是理论对于此类证据并无限制,故不应将其排除在证据大门之外。而大数据的数据源、分析结论是否具有真实性和客观性,是否能够证明具体待证事实,是在个案中通过证据规则判断的问题。故大数据及其分析结论虽然在个案中存在可疑性,但在整体上具有可采性。此外,随着大数据分析技术的广泛应用,可以预见法官在诉讼中对其采用具有历史的必然性,与其让法官以“犹抱琵琶半遮面”的方式掺杂进心证中,不如以公开的方式使用并允许当事人对此质疑。故从静态来看,大数据本身及其分析结论可作为证据及认知的背景知识,从动态来看,其作为一种分析方法亦可应用于证据证明与司法认知中。
至于作为证据还是作为认知的背景知识,应从其大数据的获知渠道来判断。如果数据及其分析结论是开放的,是日常生活中可以感知到的,如某一阶段某地区农作物产量整体变化、房价整体变化等情况,则可作为司法认知的辅助材料,免于举证程序。如果该数据及其分析结论是封闭的,社会一般人和法官无法轻易的获得,则需要负有举证义务的当事人对此予以搜集和举证证明。
(二)技术障碍:科学性、客观性缺乏保证
大数据分析方法具有无限的商业价值,但作为诉讼中的分析工具,确有不科学与不严肃之嫌,而法官作为非相关专业人员,对其客观性和真实性的判断存在障碍。
大数据关于科学性的诟病来源于大数据本身的特性。首先,大数据分析以全量样本为基数,然而难以保证样本是完整和全面的,以此推算出的结论可能存在偏差;第二,大数据分析不关注数据的真实性和精确性,数据中包含了诸多错误和虚假的信息,以此在诉讼中作为认定事实的依据存在不周密之嫌;第三,大数据只关注关联关系,不关注因果关系[4],则通过大数据分析得出的结论有时可能经不起逻辑的考验和仔细的推敲。
大数据关于客观性的诟病来源于大数据的采样过程和呈现载体。大数据的采样过程以及计算过程依托于某种电子数据系统,其最终呈现载体大多为电子数据。故如果数据系统处于非正常运算状态、电子设备的清洁性存在隐患(如被植入木马),采样过程和计算公式的输入存在人为的偏差(如故意漏掉某部分样本数据)等,均会导致结论的不客观与不真实,尤其在大数据分析结论系由一方当事人提出,由非官方机构进行收集和计算的情况下,该结论的客观真实性更难以保障。
笔者认为,关于大数据分析的科学性问题,首先,对于众所周知或显著的事实要求的并非是个体认识的精确性,而是通用性,故个别数据的偏差不影响认定的结果;第二,根据我国司法解释的规定,对于除自然规律、定理以外的认知事实,当事人可以以相反证据予以反驳,这意味着即使大数据结论是不科学的,仍有质疑和救济的渠道;第三,如果大数据的分析结果逻辑上荒谬,法官当然可依照经验法则不予采纳。关于真实性的问题,大数据存在与电子数据相同的真实性判断的技术障碍。但电子数据作为一种新型证据形式,其广泛应用已是社会发展的必然,其客观性的判断问题应该通过技术的发展和司法技能的提高予以消解,这并非否认其进入诉讼程序的资格。大数据分析方法作为蓬勃兴起的分析方法,与其因法官判断其客观真实性的技术障碍而对其否定,不如致力于建立大数据分析的应用程序和规则。
(三)恣意心证:“程序”与“标准”存在空白
自由心证是指“证据的取舍和证明力的大小,以及案件事实的认定,均由法官根据自己的良心、理性自由判断,形成确信的证据制度。”[5]自由心证并非关于法官自由的原则,而是限制法官的原则。[6]法官在认定证据和事实过程中的具有主观性和隐蔽性,甚至存在主观臆断的可能性。为了防止心证恣意化,各国确立了直接言辞原则、最佳证据规则、辩论原则、非法证据排除原则,明确了诉讼证明标准,多方位、多维度的推动心证的客观化。如将大数据作为证据,自然有严格的证据规则对法官的心证予以限制。然而,对于司法认知的程序和标准,我国立法并无规定。这样就导致了当大数据分析作为法官获取知识的方法时,法官对其采纳缺少规则约束,亦无标准可供参考,完全取决于法官的自由判断,法官很有可能以先入为主的经验甚至个人的好恶对大数据分析结论予以采信或排除。对此,笔者认为,心证不透明的问题,存在于民事诉讼的各个阶段,在司法认知领域,我们所要做的也应该是探寻有效的程序和标准规制大数据分析的适用和采纳过程,而非拒绝对其应用。
三
大数据分析引入司法认知之问题分析
(一)价值归位:认知最优化与心证显现化
司法认知最大的问题,是法院的认知与当事人举证范围的划分。[1]实务中,司法认知的应用错位是应当认知而不认知,以及对应当举证证明的事实予以认知。司法认知在实务中的应用缺位,一是由于法官认知能力有限;二是我国目前对于司法认知未进行任何程序规制,法官的心证不公开透明。导致的结果是当事人未能集中精力对重要的待证事实予以证明,法官亦未能将有限的精力集中于关键证据的判断和复杂事实的查明上。而大数据的价值,在于解决上述问题。
大数据分析的第一个价值在于优化法官的认知能力。理想的认知过程,应该是法官在经验充足、完全理性、信息充分的条件下的事实认定过程。但事实上,人的经验在数量是有限的,获得经验所经由的逻辑通道亦是有局限的[2],法官不可能对各个领域全知全能。而大数据可在短时间内对全量数据进行收集、分析、归纳和处理,为法官提供了相对完整的信息,能够填补法官对繁杂信息的认知能力,拓展认知视角。此时,法官“只需充分运用自身的理性、良知、经验即可从完整的信息图景中作出最优判断。”[3]
大数据分析应用与司法认知中的第二个价值,在于令法官在司法认知的心证显现化。法官在进行司法认知时缺少客观的标准予以规制,这种标准应“具有客观性,包括逻辑和概率标准、自然规律标准、人类行为标准及其他普遍真理标准。”[4]大数据分析本身包含着概率统计的分析方法,展现出的结论亦系一种规律性的标准,而其能够实实在在的呈现在法官与当事人面前,为当事人进行质疑、反驳和反证提供了可能,为司法认知中心证的显现化提供了基础。
(二)出路选择:经验依赖走向程序规制
对于大数据分析存在的问题,应如何寻求何种出路?我们是否应确立一套对于大数据分析方法真实性、关联性、合法性的“采信规则”及“排除规则”?对此笔者认为,并非如此。第一,正如上文所述,大数据应用于司法认知中系免于举证的,故无所谓“三性”的判断;第二,司法认知的意义在于其较之证据证明减少诉讼成本、提高诉讼效率,如对大数据分析采用证据证明规则,不符合司法认知的功能设置;第三,大数据本身的特性使得我们指望大数据完全科学、客观与真实是不现实的,法官虽然具备司法推理的能力,但对于数据推算、概率统计、信息技术,往往是陌生的,往往会陷入一方当事人预设的数学“陷阱”中。
事实上,目前司法认知的过程主要依赖的是法官的经验理性,如无显化的程序规制,即使引入了大数据的分析方法,其采用可能也会依赖于法官的经验判断,具有隐蔽性。司法认知的过程完全隐蔽化,当事人对于法官是否对某一事实打算进行认知以及认知的结果毫无判断,那么我们讨论在司法认知中是否引入大数据分析这一问题将毫无意义,甚至对于任何司法认知方法的讨论都是徒劳的。故笔者认为,解决问题的出路是将司法认知的过程、大数据分析的结果、依据展现于阳光之下,对其应用和采用过程进行可视化的程序规制,使当事人有所准备,补充资料,充分抗辩,积极对抗,以发挥大数据分析的应用价值。
(三)适度谦抑:经验法则之不可取代
大数据强大分析能力容易陷入的另一个误区就是将大数据妖魔化,认为其可代替法官的理性来认定事实。必须明确的是,经验理性在认定事实过程中是不能摒弃也无法被完全取代的。事实是“对某一事物(或对象)感性呈现的实际情况的一种断定,也就是对某一事物具有某种性质或某些事物之间具有某种关系的一种断定。”[5]事实认定中,包含了审判人员的经验判断、价值取向,过程极其复杂,数学推理和机器学习难以模拟。如果完全抛弃主观判断,在许多案件中就会产生不公平的问题。[6]如通过大数据分析,可以得出公鸡打鸣与太阳升起之间的关联关系,人们也会充分利用该关联关系以规划生活和安排时间,但由于大数据分析对于因果关系的分析是薄弱的,很可能会以此预测出“阻止公鸡打鸣是阻止太阳升起的方法之一”这样的结论,此时只有人类通过经验理性,才能纠正其中的逻辑问题。因此,计算智能更多的是与人类理性相互支持,而不是取代与被取代的零和关系。[7]大数据作为在诉讼这样一个严肃的司法活动中,更不能取代法官的经验理性,而是通过提供完全数据的方式,对法官经验理性的一种补充和辅助。“大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,明确人性之本。”[8]
四
大数据分析引入司法认知之机制构建
(一)职权启动与申请启动的区分
司法认知的启动存在两种方式,一种是法官依职权启动认知,一种是当事人申请启动认知。法官依职权启动认知,主要系对于法官认为显而易见的事实,依据职权自己去查明或根据已经获得的知识直接进行判断。大数据作为知识的来源,法官可能通过多种渠道获得。如通过观看新闻、日常交流获得的数据等。依职权认知存在两个问题,第一,是否启动认知程序,全凭法官的自由裁量,如果法官已经知晓却恣意不进行认知,则加大了当事人的举证成本;第二,对于一些具有公知性的事实,法官可能并不知晓,如前文案例二中的情形,如果法官是一名资深司机及汽车爱好者,其可轻易的认定何种配件系影响车辆新旧的重要部分,但如果法官对车辆的相关知识缺少认识,恐怕就需要当事人申请并辅助法院予以认知。而这种材料包括词典、技术手册等,也包括本文所主要研究的大数据,如消费者协会公布的汽车消费投诉情况,汽车行业商会公布的相关数据等。
在当事人申请认知的情况下,司法认知应分为两个阶段。第一阶段是启动程序,第二阶段是认知程序。启动程序旨在确认某些事实“实质上具有了司法认知的设定旨意”[1],如认定天气情况、房价走势的问题是否可以纳入司法认知的范围;认知程序对上述事实进行最终认知和判断,如判断某年夏季雨水极少、春节前后房价猛涨这样具体的规律和事实。大数据分析技术在启动程序中的意义在于有助于法官来确信某一事项是否属具有显著、周知的可能性,可能属于司法认知的范围,如可能,则司法认知程序应予以启动。
(二)公开程序与质疑程序的构建
关于司法认知的事实,各国立法都倾向于允许当事人进行反驳或质疑,美国法规定“对于采用司法认知是否妥当和涉及认知的要旨,当事人有权随机请求予以听证的机会”,日本学者认为应当允许当事人提出反证。[2]而对抗的前提,就是当事人对于大数据分析的应用情况是知晓的,也即是应对大数据的应用过程予以公开。故笔者认为,将大数据应用于司法认知,其必备的原则就是对抗原则及公开原则,在事实并不明确,在当事人申请认知的情形下,法官应对司法认知的过程、大数据应用的过程予以公开,并允许当事人予以质疑和反驳。
具体来讲,应根据我国民事诉讼法司法解释的规定,对不同的认知事实予以区分对待,一是对于自然规律以及定理、定律,当事人无从反驳,可以公开但不允许当事人质疑,二是对于众所周知的事实、根据法律规定推定的事实、根据已知的事实和日常生活经验法则推定出的另一事实,应公开并允许当事人提供材料予以反驳,此种反驳并非举证,而是提供材料辅助法官进行正确的认知,三是已为人民法院、仲裁机构生效文书确认的事实、有效公证文书所证明的事实,应当公开并允许当事人质疑,如果当事人对此予以否认的,则应启动证明程序。审查过程中,当事人可以选择的反驳方式包括,说明数据来源不合法与不准确、出具新的大数据等。无论法官是否进行司法认知,都应将认知或不予认知的理由予以公开,并将大数据分析的相关材料入卷备查。
(三)认知程序与证明程序的对接
在当事人申请司法认知,法官决定启动认知程序后,法官确认某一种事实可以进行认知而非证明,则进入司法认知的第二阶段——审查程序。此时,法官应对是否认知进行询问当事人、搜集资料、并积极采用大数据的方式辅助认知,当事人可以提供其所获得的大数据分析结果。无论大数据分析结论由谁提供,都应将该结论公开,存在争议时应当将获得的大数据,数据来源、采样方法、提供单位、运算结果予以公开。需要强调的是,辅助认知和反驳的过程,应严格区分于证据证明的程序,认知是为了让法官对公知的事项查明以自向辅助证明,并非如证明程序一般要求当事人举证达到向他人证明以达到他人内心确信的结果,法官不必对大数据的真实性、关联性、合法性按照认证程序一般严格审查。
如果在对抗的过程中,法院发现大数据的结果与欲认知的事实不符,对方提出了合理的反驳,或该事实不够“显著”,其所依据的材料存在重大瑕疵,则停止认知程序,转入证明程序,即要求对当事人举证予以证明,而不再进行直接认知。
(四) “大数据库”与“黑白名单”之展望
大数据分析的主体可能是官方机构(如法院裁判文书大数据、社保部门社会保险大数据),亦可能是社会机构(如案例三中的L房地产中介、网络交易平台、或一些信息咨询机构)。如欲将大数据分析技术充分运用于司法实践中,程序规制是出路,而技术支持则是根本保障。
对于官方机构提供的大数据分析结果,其中立性与权威性较高,故如能充分利用官方数据资源,建立与司法审判系统联网的“大数据库”,则会为大数据分析的司法应用提供有力保证。国务院于2015年发布的《促进大数据发展行动纲要》,旨在推动各部门、各地区、各行业、各领域的数据资源共享开放,为我国大数据应用、产业和技术的发展提供了行动指南。[3]从这一点看,“大数据库”的建立指日可待。
对于社会各机构的大数据资源及分析技术,仍然不可小觑。考虑到其客观性和真实性可能存在隐患,故建议对企业进行信用评级,设立企业“黑名单”与“白名单”。可参考法院对部分司法鉴定机构予以认证的做法,对于规模较大、信用度好、技术过硬、操作规范的企业,列入法院系统大数据分析机构的“白名单”,在无官方大数据的情况下,优先使用上述机构的分析结论。对于数据采集和运算中出现过人为偏差、技术漏洞较多以及侵犯个人隐私等曾经有损诉讼公正性、信用记录较低的企业,列入企业“黑名单”,其数据建议不作为司法认定事实的依据,也侧面推动大数据分析技术的良性发展。
参考文献
(请向下滑动)
感谢作者对本公众号的授权!
本文仅作学习交流之用。
雪涛 · 芙蓉虫草
往 期 荐 读
异化中的解放