查看原文
其他

陈玲|技治主义视域下民事诉讼中大数据证据的适用与规范——基于289份民事判决书的实证分析

陈玲 上海市法学会 东方法学
2024-10-09


陈玲

上海市静安区人民法院三级法官助理

要目

一、问题的提出及研究思路的确定
二、样本分析:大数据证据应用的实践审视
三、抽丝剥茧:大数据证据的适用困境
四、冰解的破:大数据证据适用之路径解构

大数据证据凭借算法快速处理海量信息的优势,以数据之“大”从概率上获得了无限接近案件事实的可能,一定程度解放了人力的固有限制,开启了庭审诉讼的时代转型。尽管大数据证据具有无可比拟的发展优势,但在当前司法实践中适用率却不高,且定性混乱。大数据证据可以解构为数据、算法及大数据报告三大要素,以举证、质证环节为核心,通过分析司法实践数据,归类总结制约大数据证据发展的瓶颈问题,并从数据建设、立法保障、审查模式、质证细则四个维度提出建议,以期规范大数据证据的审查认定,促进大数据证据的规范适用。

一、问题的提出及研究思路的确定

技治主义强调科技及专家两个基本构成要素,主张通过科技支撑走向快捷、精准和高效的科技治理道路。而技治主义证据观主要强调科技专家及其专业知识在证据认定中的作用,承认技术律令压缩法官自由心证空间的合理性。随着我国信息化建设的浪潮,大数据技术已经日益融入当前的司法实践,智慧公安、智慧检察和智慧法院都是技术支撑司法运行,技术破解司法难题的典型范例,技治主义正在全面影响我国司法发展。大数据应用浅而言之就是在数学、统计及计算机科学等基础理论的支撑下对数据进行利用分析,价值在于有效信息的挖掘是在海量数据中完成的。大数据分析方法让我们看到了瞬间大批量处理非结构化信息的可能性,同时大数据分析方法能够弥补人类对庞大数据分析理解上的不足,为事实认定者提供基于数据的“数据经验”或者“特殊经验”。大数据证据依托大数据技术,凭借机器理性和数据经验,能够在一定程度上进行事实还原,为法官查清案件事实带来便利,是技治主义在司法审判环节的典型运用。所谓大数据证据,立法上并无具体规定,学界关于大数据证据的定义则百家争鸣,各有见地。综合学者对于大数据证据的定义,大数据证据实际上就是运用算法对海量数据进行筛选、分析、运算得出的结论,一般以大数据报告的形式呈交法庭。大数据证据的诞生是技术进步对于现代社会信息爆炸、案件复杂的积极回应,算法对于海量数据的处理得以在概率上无限接近事实,大数据证据的核心或审查要点应当立足无限大的数据库以及具有普遍适用性的算法。数据本身在不被篡改的前提下天然具有客观性,叠加算法具有适用性的条件,原则上只要数据够大,大数据证据就能通过数据清洗的方式筛选关联数据进行分析运算,进而可以无限接近于案件的真实情况。从这一视角看大数据证据,其与民事诉讼领域的“高度盖然性”采信标准具有天然的契合性。民事诉讼证据形式的演变过程反映出实物证据在信息量上不断增长及关联性属性上不断增强的趋势,从物证、书证到视听资料,从电子数据到大数据,大数据证据的魅力在于最终实现了证据属性在客观性和关联性两大属性上结合的最高标准,从而彻底在证明力上超越了主观性言词证据,发展大数据证据逐渐成为司法审判的大势所趋。虽然大数据证据理论上具有无可比拟的适用价值,但司法实践中的实际运用现状如何?大数据证据的证明力如何?大数据证据如何进行举证、质证?如何对大数据证据进行证据审查?如何充分释放大数据证据的价值,规范并推进大数据证据的适用?

带着这些疑问,秉持从实践中来到实践中去的原则,本文从大数据证据的司法实践出发,通过中国裁判文书网的案例搜索以期一窥大数据证据的适用现状,并通过数据的对比研究、个案分析的形式展示大数据证据的司法适用,在此基数上挖掘和总结大数据证据适用中的问题,结合文献研究、理论分析等方法,提炼实践经验,针对大数据证据的适用瓶颈提出发展及规范建议。

二、样本分析:大数据证据应用的实践审视

全局概览:大数据证据运用的时空初貌
1.样本整理:裁判文书的基本情况

笔者在中国裁判文书网以大数据证据作为关键词搜索民事一审法律文书,仅搜索到两篇,即(2020)京0491民初9009号民事判决书及(2020)京0491民初14012号民事判决书,上述两则案件案件事实基本一致,“本院认为”部分也基本一致,两案中,被告将会员访问记录数据库、网站访问日志等网络数据定义为大数据证据并提交法庭,以期证明侵权行为造成的损失或获利微小。对此,法官回应为“被告提交的上述证据均为自行制作,相关数据库中的数据可以进行修改,且被告自述涉案图书下载详情处显示的“下载次数”可通过技术措施人为修改,因此对被告提交的证据不予采信”。

虽然两份文书中直接出现了大数据证据这一关键词,但对两篇文书进行进一步分析,发现两篇文书上所谓的大数据证据只是将网页数据进行打印并呈现法庭,数据本身不满足“大”的定义,且不涉及对数据的二次算法加工,没有算法筛洗海量数据这一关键特征,该份证据属于电子数据,与真正的大数据证据相差甚远。

考虑到仅以大数据证据作为关键词搜索民事判决书,案例数量过少,无法进行实证分析,笔者根据理论界对大数据证据的界定,基于大数据证据“数据”“算法”的两大特征,并以此为叠加关键词进行民事判决书的二次搜索,本次搜索共得民事判决书289份。根据该289份判决书,民事领域,最早出现“数据”“算法”的判决书在2015年,该案中,数据使用、算法验证仍是脱离的状态,该案中数据是作为载体,算法的使用则是通过庭审勘验的方式进行侵权行为的重演以验证侵权行为是否得以成立,该案并未将算法作用于数据从而形成新的结论,不属于大数据证据的运用案例,但是该案是目前可以搜索到的第一例同时具备“数据+算法”特征的案件,其中的专家辅助人制度、庭审勘验重现的质证方法,数据证据的举证形式,仍是给数据类证据的举证、大数据证据的审查提供了初步经验。

结合大数据证据对于数据和算法的处理关系:将算法作为数据的筛选、加工方式,笔者对该289份文书逐一阅读并对比分析,最终筛选出了符合大数据证据定义的32篇文书,以下将对大数据证据使用的情况进行进一步分析。此外,大数据证据不能脱离数据时代对数据类证据的举证、质证模式而单独存在,该289份文书中有95篇金融借款合同纠纷民事判决书,案件证据审查过程中适用区块链技术进行了电子化借款合同的审核,电子化借款合同与大数据证据的基础数据库均属于电子证据,区块链技术在电子证据的审查上具有技术优势,因此下文也将对该95篇文书进行分析,以为后文提出大数据证据的规范建议铺垫基础。

2.数据透视:大数据证据适用的时空脉络及场景分布

通过筛选得出的32份文书,2016年1篇,2019年6篇,2020年7篇,2021年6篇、2022年12篇,大数据证据适用近两年发展势头迅猛,呈翻倍趋势。(见图1)结合2016年-2022年全国民事案件的裁判数量,2016年为3,416,670件,2019年为4,990,955件,2020年为4,640,758件,2021年为3,551,874件,2022年为1,938,890件,在强调溯源治理的环境下,民事判决总量在逐渐下降,在这一背景下,应用大数据证据的文书却逆势翻倍增长,一方面体现了大数据证据逐渐在司法实践中成为趋势,发展势头迅猛,另一方面则体现了大数据证据在复杂案件中具有较大的适用价值。

图1  大数据证据运用数量分析

从地域上,该32份民事判决书中,北京有24篇,其中北京海淀区人民法院4篇,其余均为北京互联网法院;杭州有6篇,其中三篇为杭州余杭区法院、三篇为杭州互联网法院。大数据证据的适用离不开数据基础,一般使用大数据证据的主体多拥有能够记录数据的平台或系统,因此涉互联网行业的案件中更有使用大数据证据的条件。上述数据显示,仅北京、杭州两地,就占据了大数据证据司法实践运用的94%,一方面直接归因于互联网法院的建立,另一方面也与该两地网络类公司云集、互联网产业发达的现实情况密不可分。(见图2)

 图2  大数据证据运用地域分布

从大数据证据的具体适用上,案由为不正当竞争纠纷的文书有7篇,侵害作品署名权、侵害作品网络传播权纠纷的文书有18件,两类案由占据75%比例,侵权类案由中,大数据证据主要用于证明是否构成侵权行为以及侵权行为的实际损失;不正当竞争纠纷中用于证明不良竞争行为的发生。(见图3)

图3  适用大数据证据案件的案由分布

此外,在搜索大数据证据的过程中,笔者发现全国存在95件适用区块链技术的金融借款类案件,相对简便地完成了证据审查及事实查明过程,区块链技术在电子数据审查上具有优势,上链后的电子数据可以通过哈希值验证等方式审查真实性,而大数据证据的基础在于数据的真实性、完整性的审查,区块链技术在这方面的审查优势对于大数据证据的数据审查也同样适用,可以对此进行参考并为后文提出大数据证据的优化适用建议提供实践支撑。(见表1)

表1  武汉、深圳两地区块链技术验证电子数据流程图管中窥豹:大数据证据运用的个案分析

首先,就程序适用上,第一则案例适用普通程序,2018年3月16日立案,最终2019年3月26日方行判决,可见法院的证据审查和事实认定工作进行的相当困难;第二则案例适用简易程序,2020年6月8日立案,2021年1月5日结案,耗时较短。其次,就举证方式来说,第一则案例是综合了多份公证书进行大数据证据的举证,举证过程相对复杂;第二则案例举证相对简单,大数据证据就是一份公证书及一份司法鉴定意见书,并引入专家证人的方式围绕算法逻辑进行阐述。再次,就质证环节来说,两则案例都没有仅凭大数据证据本身便予以采信,而是综合了其他证据作证,综合评判后予以采信,其中第一则案例综合了庭审勘验、当事人陈述、情理推论等进行了大数据证据的认定;第二则案例则通过鉴定的方式,结合评判鉴定人员、专家辅助人陈述并结合情理推断进行综合认定。

正如第二则案例中,法院在“本院认为”部分阐述的一样,依托算法进行大数据分析是目前数据产业、互联网经济的常规操作,各方的网络操作行为也是通过数据的形式存储在系统服务器中,随着数据经济、互联网产业的深度发展,该类案件会持续增多,大数据证据的适用具有天然的数据基础。此外,大数据证据的适用是通过科学方式查清案件事实,要遵循技术认定与法律认定区分清楚的原则,法律判断不能取代技术判断,大数据证据的质证核心综合两则案件来看始终是算法的适用性,这类技术可以引入专业人员进行判断,并结合庭审勘验、重演、反证等方式予以综合认定。目前,我国民事领域,大数据证据的适用率不高,全网判决数量较少,完全符合大数据证据定义的案例更少,一个重要原因在于大数据证据的适用缺乏必要的规范、举证复杂且质证起来需要技术支撑,法院对于大数据证据的审查和认定操作困难,并未形成统一流程。

 三、抽丝剥茧:大数据证据的适用困境

 证据定义不统一,种类归属惹争议
1.定义混乱,证据名称张冠李戴

大数据证据的定义大多围绕大数据证据的类型及本质特征进行阐述,均有其合理性,但也不乏一些过于泛泛的定义,将网络信息搜集报告等并不具备大数据证据实质要素的证据类型纳入大数据证据的范畴,忽视了大数据证据对于数据库之大以及算法适用性的本质要求。实践中,很多当事人举证冠以“大数据证据”之名,提交的却只是一些网络日志、访问痕迹等电子数据,证据名称上存在张冠李戴,适用混乱。大数据证据是大数据集、算法及大数据报告三位一体的有机整体,所谓的大数据证据必须具有数据及算法对于数据的二次加工这一核心要素,而不能随意将网络数据定义为大数据证据。

2.归类存疑,无法简单进行学理分类

就学理分类来说,大数据证据与法定证据种类存在冲突,学界对于大数据证据的归属充满争议,将其纳入电子数据、鉴定意见、作为特殊书证,将其单独划分为一种新类型证据形式的主张均有支持者,甚至也有学者认为法定分类不具有周延性,大数据证据的分类应该聚焦学理分类即属于实物证据还是言辞证据。数据价值的释放需要在实践中总结经验,当前民事诉讼活动仍是遵循法定证据分类进行相应庭审示证及质证,大数据证据能否归类为法定证据种类是其是否具有合法性的重要判断标准,而将大数据证据嵌入法定证据种类也是现阶段最现实的选择。法定证据确认的准则在于,每种证据在其收集和认定的方法上均有区别于其他证据形态的特质。如果完全依照这一准则,其实难以将大数据证据归类为现有的任一一种法定证据种类,在现实条件完备的未来,大数据证据单独作为一种证据种类或许更为合适。

举证阻滞难操作,信息安全存隐患
1.弱势取证能力带来获取难度

大数据的提取、算法的设置均需要专业知识,而大数据证据的基础,也就是海量数据本身在获取上也存在难度,这些都造成了个人作为主体时,在利用大数据证据上存在能力障碍。首先,就个人来说,获取大数据的渠道有限,单纯的网络信息搜索的方式过于庞杂,无关信息量巨大,个人对于大数据的搜集无法保证“量大”完整且具有关联性,失去了这两个关键前提,大数据证据的准确性便失去了保证。此外,退一步说,即使个人能够解决基础数据的问题,如何编写算法并保证算法的适用性,即保证该算法对于同类事实的普遍适用性,仍然超出了大部分人的能力。大数据证据的举证对于普通人来说并非易事,由个人举证既无法带来理想的举证结果,也存在事实上的不公平,而大数据证据的举证难度也会客观上造成其使用率的降低,不利于大数据证据的发展。

2.差异取证主体带来“证据偏在”

政府数据开放、政企间与企业间数据共享和数据交易是我国数据流通的最主要模式。政府及企业等集合体在数据资源使用上具有天然优势,当诉辩双方存在人力物力上的不平等时,强势方更容易获取证据进而取得诉讼胜利,大数据证据对于信息使用的要求,叠加专业门槛条件进一步加大了这种“证据偏在”现象出现的可能性。另一方面,个人作为使用大数据证据能力较弱的一方,诉讼过程中很难做到双方完全意义上的平等,更有甚者利用这种不平等可能带来权力的异化,信息强势者可以控制、隐藏数据导致个人在案件裁判过程中的数据使用不能,这与当前司法公正公开、透明便民的原则存在明显冲突。

3.海量数据使用带来权利侵犯

我国民事证据规则规定的不具备证据合法性的情形主要是侵害他人权益、违反法律规定及公序良俗取得证据,大数据证据在合法性问题上集中表现在大数据证据的搜集是否侵犯他人隐私权及商业主体的商业秘密。数据区别于传统生产要素具有信息承载的典型特征,大数据证据对海量数据的搜集及分析不可避免涉及数据的传输及使用,即使考虑到数据获取的合规性问题,数据的使用者为了保证数据的完整性,必然将数据的获取作为第一需求,大面积的数据搜索及使用会侵犯个人隐私及商业秘密。对于数据使用带来的权利侵犯只能立法先行,监管强化,因此如何定义数据资产、如何规范数据的合法搜集及使用是大数据证据规模化应用面临的重要法律课题。

证据审核繁琐复杂,算法质证专业性过高

大数据证据的质证,是通过法定程序,认定其是否具备证据资格,是否可以予以采信,也就是学者们所称的证据能力或证据的采纳标准。具体而言,证据能力对应的是证据的关联性和合法性,证明力对应的是证据的真实性和关联性。从大数据技术本身来看,其主要问题是技术运算和分析结论的可靠性具有或然性,在一定程度上导致大数据证据与司法证明不易兼容。大数据证据包括大数据搜集、算法设置及大数据报告三个要素,最终呈现法庭的实物有基础数据库及大数据报告两样,解决大数据证据的三性问题其实最根本是解决数据库真实性及算法适用性两个问题,在此基础上排除掉分析结论的或然性,得出确定性的答案,进而证明大数据证据的证明力。信息弱势当事人对于大数据证据的质证大多是简单的一句不认可,受制于自身的技术能力,很难提出针对性的抗辩意见,大数据证据的真实性及适用性还是靠法院进行认定。

1.基础数据过大,人力难以穷尽质证

大数据证据的原始数据量大庞杂,可能存在大量无用信息导致的相关性不高,数据篡改、删除导致的真实性不明,数据使用带来的权利侵犯也会导致合法性待证的问题。数据是网络虚拟空间的客观存在,不以人的意志为转移,但数据本身又很容易被人为篡改和删除,具有不稳定性,质证数据的真实性及关联性就是强调与案件事实相关的数据存在且未被修改,质证数据的合法性就是证明数据的动态搜集过程中没有侵犯他人权利。如基础数据库存在真实性不明、合法性待证、关联性不强的问题,大数据报告本身的说服力便无从谈起,大数据证据也不应被法庭采纳。考虑到大数据证据的数据库所含信息数量巨大,算法的出现也是因为海量数据的处理已经超过了人力的极限,想要通过法庭对抗的方式,要求另一方当事人在有限的庭审实践中去质证基础数据的三性问题,在实践中不具备操作上的可能性。

2.算法的合法及普遍适用性难以认定

算法是人为编辑的一套数据筛选、分析的程序,实质上是一套方法论而不是客观证据材料,因此对于算法的质证不能生搬硬套真实性、合法性及关联性,而应该将重点集中于算法对于数据的筛查是否具有选取歧视等不合法性以及算法是否具有普遍适用性,即作用于类似事实是否可以得出同一结论。

(1)算法合法性的审查不便操作

对于非计算机专业人士来说,普通人对于大数据证据的理解可能只限于理解数据库及大数据报告两个要素,即可以审视数据库本身及书面的大数据报告,可以看到大数据证据的首尾两头,但对于数据如何得出结论这一中间环节,也就是大数据证据科学性的关键一环,即如何进行海量数据处理得出结论的方法论缺乏了解,也很难看到这个过程,这就是大数据算法特有的“黑箱”性质,也带来了算法质证的困难。对于算法合法性的质证主要应关注算法对于筛选适格数据进行分析时确定的标准是否存在权利侵犯、歧视等不可接受的因素,但算法的专业性过高,一般人难以认知和了解,叠加算法的“黑箱”问题,这种算法合法性的审查操作难度较大。

(2)算法适用性证明尚存障碍

在算法控制不变的前提下,大数据集与大数据报告具有高度稳定的对应关系。根据算法得出的客观结果,是一种对事实的呈现,并不含有规范或价值判断。因此,只要算法具有适用性,对于数据库分析而出的结果,即大数据报告具有说服力。解决算法适用性就是解决“黑箱”问题,使得算法可视,可验。对于如何解决“黑箱”问题,实践中也有两个争议问题,其一是算法是否应当公开,其二是在公开的情况下,是否穷尽验证以及在算法不公开的情况下如何验证。算法的不公开是原则,公开才是例外。算法本身属于人类智慧的产物,具有财产权益的特征,在科技领域,算法一般不公开,有的甚至需要签署相应保密协议。公开算法可能带来侵犯个体知识产权,商业秘密泄露,引起抄袭等恶行竞争问题,影响算法行业的发展,而在信息化社会的建设中,有些算法与国家集体利益直接相关,强行公开有危及公共安全的隐患。退一步说,即使算法公开,普通个人因为专业限制,几乎也无法理解算法的复杂性。另一方面,公开算法之后,人力相比算法,无法在短暂的庭审时间内完成海量数据的运算。考虑到上述因素,算法公开并不能很好的解决算法的质证问题。最后,算法具有很强的主观性,直接体现算法设计人的价值判断,当算法在公开质证时如确定算法不可取或算法不当价值判断带来现实世界客观负面影响时,算法设计人是否需要追责,如何在不影响设计者主观积极性、保障算法发展基础上进行追责,也是算法公开需要着重考虑的因素。换一个角度,算法如不公开,如何解决“黑箱”问题,如何确保算法具有普遍适用性进而保证大数据报告结论的合理性,这又对庭审质证提出了新挑战。

四、冰解的破:大数据证据规范适用之路径解构

加强数据建设,严格数据监管
1.数据资产化运营,促进数据流通

目前大数据证据基本都是在网络类公司以及涉及网络合同的场景下,此类案件中所设公司或场景具有记录数据的网络系统,一般大数据证据的举证所采数据库都是一方当事人系统自动记录的数据,因此搜索到的适用大数据证据的判例多为互联网法院的案子。大数据证据以数据为基础,数据是制约大数据证据发展的第一道关卡,让大数据证据跳出网络类公司的固有场景走入寻常民事案件,就必须实现数据的自由流通与使用。数据是与土地、劳动力、资本、技术并称的五大生产要素之一,是一种基础、战略性资源。大数据证据的适用前提是数据资源的充分流通使用,需明确数据的人格权益和财产权益双重属性,并在法律框架下进行数据搜集、使用、流通、标价、买卖,也就是进行数据的资产化运营,这样民众、机构接触数据的通道才能打开,大数据证据的适用才能具有广阔的基础。全球疫情加速了数字化转型进程,数字存储与计算领域的产业发展前景持续向好,2021年,上半年我国大数据平台市场规模达54.2亿元,同比增长43.5%,2021年全年数据库市场规模预计达305.78亿元,同比增长26.93%。不断推进数据建设已经成为全球共识,对于数据建设的重视不能松懈,不远的将来,数据作为生产要素,自由流通和使用必将成为现实,大数据证据的应用基础也将随之夯实。

2.普及数据类机构设置,落实机构监管工作

数据机构的设置主要包括数据运营机构、数据交易机构、数据鉴定机构、数据自律行业组织、数据监管机构。数据运营机构主要是提供数据资源及算法设计的公司,由于数据资源具有信息承载的特质且对于科技水平具有一定要求,这类机构应当具有相应设立资质。数据交易机构是指数据交易所这类方便数据公司进行数据交易的场所,推动数据的合理化市场定价与大量交易。数据交易机构运行的基础是数据的估值定价,只有国家掌握的数据最为充分,所以数据交易机构应以政府为主导进行数据的基础估值,并在引入溢价机制的基础上根据交易双方的供需调节数据价值。当数据社会进行到一定程度后,则需进一步思考数据金融化推广数据交易。数据鉴定机构产生于数据运营机构,采取资质管理的模式,对其设立条件进行规范,目前已有的司法鉴定机构也可以增辟数据鉴定的业务范围,通过当事人申请、法院摇号的方式进行司法领域的大数据证据鉴定服务,出具相应的大数据报告。数据行业自律组织及数据监管机构均是用于规范各类数据市场主体的运营,机构监管的模式分为常设式和抽查式两种,各涉数据使用机构均需就数据的获取方式及数据运营使用、管理模式进行备案,算法设计机构则对算法的历史有效性及失效情境进行备案。备案制度能够督促各机构在数据获取使用过程中的合规性,减少权利侵犯的隐患,也方便在产生纠纷时作为证据样本,更加能够方便国家对于数据和算法的统一管理。在常设式的备案制度之外,监管层也应对数据机构采取突击抽查,不定时抽查数据及算法的使用及管理情况,是否存在资质欠缺,备案遗漏、管理不当、交易违规、使用侵权等各种违法情况,对于抽查出问题的机构应严肃处理,形成市场警戒。

重视立法保障,守卫数据安全
1.推进数据立法,加强算法问责

大数据证据立足于数据使用的宏观大环境,但目前数据建设仍在发展阶段,相关立法尚不完善。2021年,《“十四五”大数据产业发展规划》出台,2022年,《要素市场化配置综合改革试点总体方案》《关于加快建设全国统一大市场的意见》《关于构建数据基础制度更好发挥数据要素作用的意见》先后出台,但效力层级较低,法律规范偏少。目前关于数据合规使用的立法主要集中在数据安全法、个人信息保护法及网络安全法上,民事诉讼领域关于大数据证据依然存在大片的立法空白,现有的“三驾马车”远不能满足实践的需要,我国数据立法仍处于初步阶段,正是由于立法的滞后性,实践中大数据证据的举证、质证、审查困难,大数据证据的推广适用缺乏法律土壤。上文已经提及,应当建立各类数据机构,促进数据资产的流通及使用,那么相应的法律规范体系应当先于实践初步涉及,以指导实践中数据使用的行为。大数据证据归根到底是算法对海量数据的机器使用,数据是一切的基础,应加快通过行政法规、部门规章等进行数据规范使用,细化相应操作规则,严格限制高风险大数据技术的使用,详细列明数据使用的禁止性规定,为产业、技术的发展提供颗粒化的清晰合规指引,引导数据价值的全面释放。

其次,算法质证领域,最难以解决的是“黑箱”问题。国家网信办、工信部、公安部、国家市场监督管理总局联合发布了《互联网信息服务算法推荐管理规定》,该规定于2022年3月1日起施行,但主要用于解决例如算法滥用、算法歧视、“大数据杀熟”、诱导沉迷等负面问题,算法的规制尚处于起步阶段,对于算法作用于举证以及算法“黑箱”问题等,应当立足我国信息化建设的大环境,针对算法违法适用进行问责,出台相应法律规范,对于算法适用过程中的违法信息摄取、适用进行惩处,并对相关涉及人员落实责任。

2.规范数据管理,构建分类分级保护制度

数据承载信息价值,对于商业经营、个人隐私、国家管理均具有重大意义,数据在储存管理时应遵循分级的原则,以精细化的管理铸造数据的安全系统。数据分类,就是在进行数据管理时根据数据的来源、基础性、用途、重要性等不同进行差异化存储,进行数据资产交易时既方便调取,归集数据时亦能保证完整和准确性,是推动数据治理、保障数据安全的有效方式;数据分级则是通过数据风险评估的方式,对于涉及隐私、公共安全等可能侵犯到他人权利或社会稳定的数据特别标识,进行此类数据的限制使用与重点规制,确需使用进行数据授权与保密,进而防范潜在风险。在数据分类分级管理制度的基础上,对于评估得出的高风险数据,在使用时还要进行数据脱敏。值得注意的是,数据脱敏技术可以进行反向技术复原,因此关于这方面的技术也应纳入监管。

确定证据归属,设计审查模式
1.初步归入鉴定意见范畴,后续可考虑单独归类

关于大数据证据的归类,理论界争议较大,立法也缺乏明文规定。当前司法现状下,大数据证据不宜单列为一种证据种类,将其归类为已有法定证据种类先行适用是符合经济原则的便宜之举。大数据证据其实同鉴定意见既有冲突又有统一,两者都需要一定的专业门槛,都是需要借助专业知识对特定材料进行分析判断从而得出结果,两者的使用都是通过基础材料的二次发挥形成结论,并以鉴定报告、大数据报告这种书面报告的方式递交法庭审阅。两者之间也存在显而易见的区别。首先,鉴定意见的指向对象是物质性材料;而大数据报告的指向对象则是海量数据。其次,鉴定意见是通过科学仪器辅之鉴定人员的经验、专业进行判断,鉴定意见作为证据类型的本质特征就在于鉴定人填补法庭所不具备的专业知识;大数据证据则由专业人员“授权”特定算法进行数据清洗、分析而得出的结论,只要算法模型选择确定,无论何人去操作,得出的结果均具有一致性。最后,鉴定意见全部依赖于人力,具有典型的个性化,而法庭对于鉴定意见的采纳需要经过当事人质证及鉴定人出庭接受问询而不能通过当庭复现的方式检验其准确性;而大数据证据是依据机器算法得出的实质判断,算法得出的结果只要在数据库和算法不变的前提即具有天然的稳定性与可复性,不会因算法使用人的不同而出现不同的结果,这与鉴定意见依赖鉴定人专业知识、学术观点具有本质的不同。可以说,鉴定意见的科学性、真实性和权威性,在很大程度上不取决于鉴定意见本身,而依赖于鉴定人的主体属性、鉴定过程和判断能力。基于上述不同,刘品新教授总结到,大数据证据在很大程度上是由机器算法给出实质判断——不同于以往专家借助仪器设备作出判断,这对于以由专家作出判断的司法鉴定体制是一个过于超前的突破。即便考虑到上述大数据证据与鉴定意见的本质不同,将大数据证据权且归类为鉴定意见仍是当前民事诉讼活动的最佳选择。其一,大数据证据的数据库为人力搜集,算法亦是人为设计,并非完全意义上的机器活动,两者具有形式上的亲缘性和可比性,将其归类为鉴定意见具有一定合理性。其二,将大数据证据归类为鉴定意见之列,可以切实解决当事人的举证不能及主体能力强弱导致的“证据偏在”问题。其三,通过对鉴定机构的鉴定程序进行规范可以解决大数据证据在举证时可能涉及的权利侵犯问题。其四,将大数据证据归类为鉴定意见后,可以在鉴定意见审查判断规则的通行基础上,增加大数据证据的特殊审查规则以确定大数据证据的证据能力,在实践中操作阻力最小。最后,鉴定意见可以进行鉴定人员出庭,结合专家辅助人制度可以在庭审中形成对抗,鉴定人员和专家辅助人对于大数据证据的解释可以更加便利的为当事人及法官答疑解惑,增加大数据证据的接受度。当然,我们不能忽视大数据证据与鉴定意见的客观区别,目前将大数据证据归类为鉴定意见只是一种方便实践积累经验且经济节约的权宜之计。当学术界关于大数据证据的研究日益深入,司法实践的经验日益丰富之后,仍应将大数据证据单独作为一种证据种类。

2.设置审查流程,引入区块链技术

考虑到大数据证据的适用具有高度技术性,而很多当事人并不具备相应的举证能力,故而对于有需要的当事人可以允许其就此申请司法鉴定,由鉴定机构搜索数据样本,匹配算法,并呈交法庭大数据报告。即使经司法鉴定的大数据报告也不当然具有说服力,区别于其他类型的鉴定意见,大数据证据需要验证算法的适用性和准确性,因此鉴定人员的出庭应当成为义务而不是视当事人的选择可以不出庭。鉴定人员出庭主要用于说明数据选取是否存在不当或歧视、算法的设计逻辑如何,解释算法设计的适用性,并在法庭的主持下进行“黑箱”测试,重演数据输出的过程,进行算法复现,以验证其科学性和准确性。此外,如有当事人对于鉴定意见持有相反意见,亦可申请专家辅助人出庭,与鉴定人员当庭对抗,质疑算法逻辑或直接依据专家经验提出反证并予以当庭演示是否得以成立,如专家辅助人的反证成立,则大数据证据不予采纳。

此外,大数据证据依赖于数据基础,数据本身属于作为电子证据,对其质证可以使用区块链技术,保证数据上链后的真实性,从而一定程序减轻数据库质证的难度。将区块链与其他各类数据安全流通技术相结合,能够为数据溯源、交易存证、数据侵权举证等数据市场化等问题提供可行的解决方案,实现数据流通全流程可验证、可追溯、可审计,并为进一步建设高效、高安全和高流动性的数据要素市场打下基础。目前金融借款合同中,原告为证明借款行为发生提交经“至信链”区块链存证的借款合同,并提交了区块链存证平台的备案和资质,法院进行现场核验或通过法院区块链证据核验平台自动核验,核验通过则证据采信,极大简化了事实查明过程。根据上述司法实践分析可知,大数据证据在互联网产业类经济纠纷中适用较多,这类公司均有平台能够记录网络数据,这类案件完全可以参照金融类案件审理,网络数据直接上链并借助区块链技术进行证据审查,可以有效解决大数据证据的数据库质证问题。

构建质证规则,强调算法论证

1.确认质证思路,首先解决基础数据库问题

随着大数据证据的广泛应用,根据其自身所特有的技术性和专业性,应从大数据证据之“规则有无”“证明程度”和“非法排除”三个维度建立完备的证据规则体系,厚植大数据证据合法性的土壤。大数据证据的广泛应用离不开外部数据基础设施的建设,我国目前已经形成并正在深化各类数据机构的设立和发展,数据资源的使用和流通将越来越便利,大数据证据的证据规则体系构建应根植于我国正在加大数据建设的外部环境。在这一背景下,在权且将大数据证据作为鉴定意见的前提之下,只要鉴定机构有所需求,可以直接与数据机构联系进行关联数据的打包使用,并以数据监管和区块链技术运用解决数据库质证问题,将大数据证据的质证重点落脚于算法的质证上。

2.核心围绕算法检测,着重算法适用性问题

(1)算法不公开为原则,算法完全公开为例外

虽然对于法庭调查来说,完全公开算法对于双方最为公平,也最利于案件事实查明,但是算法作为具有财产价值的智慧产物,公开算法对于算法设计者来说存在利益损失,且算法自身的复杂性也导致了即使算法公开,缺乏专业知识的个人也无法理解与质证,因此在实践中建议采取算法不公开的质证原则,并以算法公开为例外,即只有在算法不公开可能危害公共安全时才进行算法公开。此外,在算法公开的情形下,也无须穷尽算法的全部验证才能认可算法的适用性,只要算法的逻辑可以自洽,通过算法进行数个个例输入能够得出与大数据报告的统一结论,也就是限定数量的验证能够得出正确结果时,算法的适用性便可以认可,这与实践中大数据证据的质证逻辑亦相符合。当然,如果当事人在庭审中能够提出已证明正确性的其他算法且该算法结果与大数据报告结论矛盾或当事人在输入数据进行算法验证时得出完全错误的结论时,大数据报告可直接不予采纳。

(2)算法不公开时遵循两步走质证方式

算法不公开时,解决算法适用的方式分为循序渐进的两种,第一种方法是公布算法的历史准确性。正如学者所言,大数据技术的复杂性决定了算法公开对于一般的非专业人士的事实认定者而言毫无意义,考虑算法历史有效性,由算法设计者公布其所依据算法的历史准确率是解决大数据证据可靠性困境的关键。对于算法历史有效性的界定不能依赖于鉴定机构的阐述,而应当通过数据基础设施建设中的监管机构的设置来予以保障,由算法设计者向数据监管机构对特定算法进行算法备案,并由监管机构定期向社会公示历史有效性的结果,当庭审中采用的算法符合历史有效性时则根据当事人对于大数据证据的认可程度决定是否进行更进一步的算法质证。在当事人对算法的适用性依然存疑时,更进一步的算法适用性质证就是进行“黑箱”测试,即在庭审中通过输入数据得出结论的方式验证算法的稳健性。稳健性即可靠性,只有当一个装置反复应用后给出了同样的读数或图像,这样的装置才是可靠的。值得注意的是,“黑箱”测试应当贯穿于大数据证据质证的全过程中,并结合鉴定人出庭及专家辅助人出庭制度具体使用。进行“黑箱”测试时,由鉴定人员先行输入数据展示算法运算的过程,并解释算法适用性的理由,当专家辅助人或当事人自身能够通过反例运算得出不一样的结果,打破算法的稳健性,或是提出方便穷尽验证,或是完全可以确定正确的其他算法,进而输入数据后得出完全不同的结果时,算法当然不具有适用性。专家辅助人制度在算法质证中的应用也应推广适用,实践中大数据证据的审查环节处处可见专家辅助人的身影,专家辅助人出庭能够加深法官对于大数据证据的理解与接受度,可视之为算法稳健性质证的补强规则,这也是技治主义证据观的体现。

结语

自2014年政府工作报告首次提及大数据以来,大数据便迅速从一个新兴概念开始融入社会生活的方方面面,“十四五”规划更是全面布局大数据发展,而大数据证据就是大数据在司法领域应用的重要体现。司法实践中,大数据的适用无法与其话题热度相匹配,实际适用率不高且存在证据定义不统一、证据种类存疑、举证、质证困难等多处适用瓶颈。面对实践中大数据证据适用的多种问题,本文建议从数据建设、数据监管上加大力量,推进立法保障,并将大数据证据归类为鉴定意见进而设置出数据质证为基础、算法质证为核心的证据审核规则以回应大数据证据的适用困境。其中,关于数据的审核,可以凭借数据监管、区块链技术验证数据真实性,而关于算法审核则必须辅之庭审勘验、专家辅助人出庭、反证操作等制度综合评定算法是否具有普遍适用性。不可忽视的是,随着我国信息化建设的发展,大量的证据形式将转而以电子数据的形式而存在,大数据证据以海量为数据为基础,能够凭借算法实现数据的瞬间筛选、分析,对于民事案件的事实查明具有深远的价值,妥善适用大数据证据,规范大数据证据的审核认定流程,是技治主义证据观的体现,也是符合时代潮流的必然选择,必将全面赋能大数据证据的司法应用,开启数据司法新篇章。

往期精彩回顾

集刊动态|《上海法学研究》入选为CSSCI(2023-2024)收录集刊

肖凤  刘东|数字经济时代企业数据合规建设考察——以合规计划有效建构为基点

周灿|网络运营商数据监控行为的法律边界——以云存储服务商为例

邵子杰|突破与局限:非类型化数据不正当竞争行为的反不正当竞争法一般条款适用
温雅璐 程鹏|个人信息刑民交叉保护理念及方法的差异
李晓霞|数据合规视野下个人信息保护归责标准的重构



上海市法学会官网

http://www.sls.org.cn


继续滑动看下一个
上海市法学会 东方法学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存