查看原文
其他

刘禹隆:大数据证据质证的理论之思 | 年会发言纪实


编者按


2022年12月31日,天津市法学会诉讼法学分会2022年年会在线上成功举办。年会以“中国式现代化下的诉讼法与证据法研讨会”为主题。年会在天津市法学会指导下,由天津市法学会诉讼法学分会主办,南开大学法学院和上海靖予霖(天津)律师事务所承办。会议采线上方式进行,并通过上海靖予霖(天津)律师事务所和北京周泰律师事务所视频号全程直播,在线实时收看达3100余人次。本文为北京恒都(天津)律师事务所律师刘禹隆的发言,整理后由刘律师修改审定,现予推出,以飨大家!


刘禹隆(北京恒都天津律师事务所律师):大数据证据质证的理论之思


很感谢诉讼法学会,也感谢朱桐辉老师给的发言机会,让我参与到这一次实务大咖,还有著名学者云集的这一次法学盛会。其实最早在确定发言选题的时候,我犹豫了一下,那会是想着延续自己去年关于跨境数据取证的方面的研究,然后去做进一步扩展的论述。

但是今年在刑事司法实务当中碰到了一个颇为有意思的案例,在这个案例当中的第一次和大数据证据正面交手,之所以选择这个案例进行剖析,主要是因为当前学界对于大数据证据制度的研究尚不深入,大多是集中在使用大数据证据查明,诸如犯罪组织架构,资金流水走向等等这样的案件事实,这样的基础应用层面。而大数据证据质证方面

国内缺乏审判实例,因为大数据证它的转化使用非常的多,所以说在裁判文书当中很少会以大数据证据这样的词汇直接的去呈现在判决的人当中学者们举例引用的大多数都是比如说像是美国的康普,美国的康复系统,DNA证据这样的境外案例,而且在我们国家的裁判文书当中,往往并不会过多的就某一个证据的证据能力证明力展开论述,或者说即使有所法官在综合全案证据以后,是否给予采纳的一个结论性的意见。

今天也是很荣幸的,就是第一次算是线上听王然王老师去传授一下自己的经验。

我记得我看到的第一本大数据证据相关的书就是王老师的那一本《大数据侦查》,很感谢王老师带我走入到关于大数据证据这个领域里面。我先对于案情和证据的基本情况做一个简短的介绍,案件的定性是以倒卡的方式偷逃高速公路通行费的诈骗案件,就是通过屏蔽高速通行卡的信号,截留并且依次交互使用高速通行卡的方法和实际跨省长距离通行,虚构货车在南方或者北方两地短距离内上下高速公路的事实,达到“跑长买短”的实际效果。

这个案件的证明难点就在于是被告人屏蔽了高速通行卡信号,没有办法按照每次实施逃费的实际的行经路程计算涉案金额,同时因为被告人组织了一个车队整体实施逃费行为,涉案车辆众多,逃费次数多,所以说公诉机关在指控犯罪的时候,就从交通运输部的系统里面调取了案发时段涉案车辆的行经起点与终点,并且制作了一份就名为高速公路数据表,这么一个书证。

为了补强这份书证,还出具了一份名为《涉案金额鉴定意见书》的鉴定意见。

基于两份上述两份这证据材料,公诉机关指控被告人组织实施了共计是295次的逃费行为,涉案金额是126万余元。当时我接手这个案件的时候,第一反应就是说这个案件本身是一个大数据证据相关的案件,因为在查阅案件来源的时候,我发现是高速公路的信息系统,对于涉案车辆的异常通行行为进行系统报警,然后经人工核验之后确认了逃费行为,这些“异常通行行为”包括:

第一个是被告人截留高速通行卡的时间超出了系统最长的允许通行时间,就导致了100余次23:59下高速的记录。

第二个就是大量的在河北天津等地上高速在贵州下高速,但是上下高速的这段时间里面,没有中间省份途经记录的通行记录,也就相当于这个人他从天津上了高速,但是在它下高速的时候是从贵州下高速中间它是飞过去的,就没有任何的高速通行记录。

紧接着我就意识到据以定罪量刑最关键的这种前面所说的高速集合数据表以及鉴定意见,它本身就是大数据证据。原因是这两份证据它并不是简单的数据库信息提取,路程费用的简单相加得出的结论,而是使用特征提取与算法分析进行计算,具体它是分三步走。

第一步先是从交通部的系统里面提取涉案车辆一年内的全部通行记录异常,通行特征进行数据清洗,他就筛走了很多的正常缴费通行记录;

第二步是确定了实际出口站与出口收费站,当然它实际入口站的认定后面也会出很大的问题,目前我在后面的时候再进一步予以说明。

第三步根据系统算法,它是按照最短路程最小费额计算涉案金额,这种涉案金额的认定方法,其实严格来说有一种底线证明法的意味。


本案牵扯出来第一个理论问题,就是以什么为立足点去构建大数据证据规则。鉴于我们国家当前还没有专门的用于审查判断大数据证据的规则,就需要面对审什么,怎么审这两个问题。目前学者对于大数据证据审查质证的关键还没有一个统一的意见,有的认为要审查,比如说像是相关性、科学可靠性、信息连接点的选择,算法歧视可能性,逻辑架构合理性,算法结论稳健性或者审查基础错误率,数据标注的可靠性,结论的可解释性。

总体上如果对他进行汇总的话,可以分为像是数据的全面性、真实性,以及算法的准确性、公正性两种。但是上述标准在本案中全部都没有操作,可他在这个案件当中我几乎同时遇到了像是算法倾倒、算法黑箱、间接质证、数据迷信、数据独裁、证据偏在等等的这些个复杂情况,既接触不到原始数据,也没有办法拿到算法,根本就不可能正向地核实算法与数据的情况。

所以我就在思考,当时面对295条的非常厚的这么一本通行记录的时候,我就在想是不是存在一个类似于电子数据的“完整性与真实性”这样的核心点,也就是“牛鼻子”,一旦抓住了这个牛鼻子上面的瑕疵,那么整个大数据证据的体系就可以被动被动摇。

最后我就将质证的重点放在了结论的可靠性方面,并且发现了大量结论不可靠的情况,并且以此为依据倒推,要么是原始数据存在问题,比如说像是增加删除修改;要么就是它算法存在错误。

在审查之后,我就发现这两份大数据证据之间相互冲突,鉴定意见的内容自相矛盾,结论不可靠。比如说像是本案当中的高速集合数据表以及鉴定意见,其实是基于相同数据使用相同算法组织的两次涉案金额核算。如果说涉案数据它是真实的,算法是可靠的,那么这两次的金额的计算应当是完全相同的。

所以我抽取了两辆涉案车辆当中同时段的数据,对高速集合数据表和鉴定意见组织了两次对比审查,我就发现两次抽样核对以后,他这两辆车的数据冲突率分别是33%和54.5%,也就是同一车辆同一时间行经同一路段,金额都不相同。

之后我就进一步审查鉴定意见当中的内容,发现这一份证大数据证据存在的问题更大,主要是表现是相同出入口不同时间的它的收费金额不同,就不能排除该段数据有增加删除修改的情况,不能保证它的完整性。

第二个就是数据当中夹杂着按照最短路程计算,不可能到达的省份的数据,比如说我从天津上高速,从贵州下高速,但是这个时候突然出现了一个比如说像是辽宁省的数据,黑龙江省的数据,这数据肯定是有问题的。

因为我们都知道两点之间,虽然说高速公路并不是按照直线来进行行驶的,但是东三省像黑龙江和辽宁省,它毕竟是在天津的东北方,而贵州省它是在天津的西南方,所以说这个数据一定是有问题的。

第三点就是相同出入口、相同应缴金额,但是行经路段数不同、不可达省份不同,这就让人怀疑,你所声称的“最短路径”是不是真的。

第四个是行经路段数不同、不可达路径省份不同,但是全程应缴金额却完全相同。我当时就在想,如果说你行经的路段数,比如说同一条路段的几条通行记录,第一条是36段,第二条是64段,每一段如果都分别计费的话,为什么你的涉案金额的认定对这段路程的认定金额是完全相同的,而且是能精确到小数点后两位的?这也是说不通的,所以我就怀疑你的最终金额是不是手动复制粘贴的,有没有造假的情况,说不通。

第五个就是部分数据,甚至是对同一条通行记录进行重复收费。如果按照公诉机关的解释,数据因为是来自于交通部稽核系统,所以真实可靠;因为算法是稽核系统按照“最短路程,最小费额”计算,因此涉案金额核算无误,那么就不应当出现前述“相同数据、相同算法,不同数额”的情况。所以结论不可靠,由此可以倒推,数据和算法肯定不真实,不可靠。


第二个理论思考就是在明确了大数据证据的规则的立足点,就是刚才我所说的结论的可靠性之后,我们应该构建什么样内容的政府规则。

具体而言其实是分化为两个问题,就第一个如何确保大数据证据结论的可靠性,第二个就是对于不可靠的证据如何处理。

其实大数据证据质证难既有大数据技术的新原因,也有归咎于刑事庭审虚化的老问题。在我们现在的庭审当中,法官原则上其实是认可公诉方提出的证据证据能力和证明力,只要是被告人辩护人不提出异议,法官一般不会对于证据进行进一步的审查,而是直接采信这份证据。而从提出证据到要求辩护人发表质证意见,这中间的时间往往只有十几秒,除非在庭前进行了充分的准备,否则不可能有效质证,提出高质量的质证意见。

为了破解大数据证据质证难背后的新病旧疾,应当对这个尚无统一审查判断规则的新型证据采取谨慎采信的态度,我认为应当针对大数据证据设立一套独立的证明程序,并遵循排除合理怀疑的证明标准;而且不能是根据刑事诉讼法55条第2款“综合全案证据”排除合理怀疑,而是应当针对这一单个证据排除合理怀疑后采信。

首先应当保证据以作为检材的电子数据,收集提取保存应当符合《电子证据规定》等电子证据法方面的要求。在这个案件当中,公诉机关始终没有移送电子数据,案卷里也没有任何与电子数据相关的笔录,我严重怀疑公安机关从一开始就没有进行电子证据的取证工作;试想,如果连原始数据都没有的话,如何组织检验、验证结论的可靠性呢?

其次,应当直接检验结论的可靠性,为印证大数据证据的可靠性,公诉机关应当组织不少于两个的大数据鉴定、检验机构,根据相同的证明目的分别、独立地进行算法设定,并进行大数据分析,并将结果进行比对。

再次,对大数据证据的使用应当严格限制在证明目的范围之内,不得超出证明目的、证明范围进行使用。因为大数据证据相较于电子证据最大的特征就是,他是个活的证据,是会说话的证据。是大数据专家通过算法,可以与数据形成一问一答的证据,所以“算法”就是提问问题,问题是有明确的证明导向的,是背后蕴含着明确证明目的的。就像证人证言一样,没有提出的问题,没有回答的答案,就不能作为证据使用。这个这个案件当中就是出现了超越他的证明目的使用的使用这份证据的情况。

最后是应当是保障被告人与辩护人对于大数据证据报告的质证权。除了排除绝对不可靠的大数据证据,那么对于不能够保证可靠性,不能够进行有效质证的大数据证据,也应当予以排除。


第三个理论思考就是我们在多大程度上可以容忍大数据证据的混杂性,就是不精确性。

大数据证据作为定罪证据时,因为混杂性可能只能作为间接证据,以及像是弹劾证据、补强证据这类辅助证据使用,但是真实性是一个“有和无”的问题。

一旦这种“并非准确无误”的大数据证据在定罪程序中经过法庭调查法庭辩论被确认为真实,那么鉴于我们对量刑证据并没有独立的调查程序,同时对量刑事实的认定往往也不需要达到“排除合理怀疑”的证明标准,那么大数据证据很有可能会带来量刑不公正的问题。

时间关系,我就先讲到这里。


(拍照:朱桐辉)
以下点击可读:
江溯、王兆峰、侯爱文、陈鑫、何宝明、秦圣卓:刑事辩护全覆盖对律师的新机与要求  | “周泰·焦点”实录
朱桐辉:电子数据现场重建与律师的进攻性辩护 | 实录
高文龙:刑事诉讼法解释在刑事辩护中的应用 | 年会发言实录
常铮:认罪认罚从宽制度中的律师作用 | 年会发言纪实
张正昕:犯罪嫌疑人身份确认程序再反思——对犯罪嫌疑人概念的教义学阐释 | 刑事诉讼法教义学
王燃:大数据证据应用的理论评析 | 年会发言纪实
张洪铭:电子数据鉴定意见有效质证的三大关键 | 年会发言纪实
信息化时代法律人的必修课——谢小剑教授主编《电子证据法学》出版发行

编辑 | 朱桐辉:南开大学法学院副教授,北京云证国际数据司法鉴定中心学术部主任,泰和泰(北京)律师事务所刑事部学术顾问。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存