刘品新 | 大数据法律监督=纠正“异常”类案+实现“溯源”治理
刘品新 | 中国人民大学法学院教授、博士生导师,电子证据法、网络法权威专家。
本文原载《检察日报》2022-06-27第三版,题目为“大数据检察以类案为思维方式”。此处刘老师据新近研究有所调整。
“以类案监督为核心”,是最高人民检察院明确数字检察创新发展的要义之一。展开来说,全国检察机关要以“类案”为切入点,打造数字式的“类案监督”,作为以大数据赋能法律监督(以下简称为“大数据法律监督”)的“核心”任务。“类案”是其中的关键词,对于探索大数据法律监督的重要价值不言而喻。这一判断不仅仅是文义解释的结论,更是广大司法实践和法律科技创新的规律。
所谓“类案”,是“同案同判”法律原则中“同案”的近义词。长期以来,老百姓对于“同类案件、同样判决”正义观有着朴素的青睐。学术界给出了“类似案件、类似判决”“同样案件、类似判决”“类似案件、同样判决”“同样情节、同样处理”等理论表达。此等要求系立足个案角度的,着眼于个案处理之间的连续性。
而自从当代兴起智慧科技拥抱司法的探索之后,由法律文书的要素相同、文本相似或条文同引等相关性的新式“类案”之说出现,丰富发展了既有概念。
相应地,基于类案的“类案检索”“类案推送”“类案强制报告”等新事物层出不穷,基于类案处理而成机器智慧乃成为智慧检务、智慧法院各场景的一项基础工作。
究其原因,含有类案元素的数据交由机器“学习”,方能形成不同于人类智慧的机器智慧。这就表明,类案不再仅作为衡量司法正义的标尺,更成为“法律+科技”创新中机器学习之源。
于大数据法律监督的探索而言,关于类案的现象与规律是不能忽略的,有关类案的原理也是可以嵌套并再造的。关键点在于,如何从类案的视角理解大数据法律监督的基本问题。
■检察大数据是什么?
简而言之,它指的是数据量达到一定级别的,可用于发现检察办案所需掌握类案特点或规律的各种电子材料。纸面卷宗等传统介质的材料进行扫描、OCR识别、摄录而出现的电子化材料,也在此列。
检察大数据的数据量得达到多大级别?这并不重要。实践中,也很难具体量化为以太字节(TB)、拍字节(PB)、艾字节(EB)、泽字节(ZB)甚至尧字节(YB)为单位计量的大小。从经验层面来看,超越检察官或办案组的手工分析能力的数据量,均可算作检察大数据。
如一起刑事案件中被刻入光盘、硬盘的电子数据,就是检察官手边的数据宝藏。而从技术层面来看,数据量当然大一些、纯一些为好,否则难以展现运用的优势。相比而言,能否从数据中发现检察办案所需掌握的类案特点或规律,是判断检察大数据的真正标准。
这需要检察人员在办案中所使用的数据达到一个低限的量级。检察办案人员以慧眼识矿,以“冶炼”之术,将其打造为检察监督可用之材料。检察大数据的低限在具体场景中并不高。
笔者团队曾经做过一些相关试验,如利用多元线性回归建模方法对破坏公用电信设施罪已决案例进行训练,以生成量刑预测模型用于对异常量刑进行监督。当时发现,一旦用作训练数据的裁判文书达到20000份,量刑预测模型的准确率就相对稳定了。
在其他罪名的相关试验中,我们也曾遇到训练数据达不到20000份法律文书的情形。那可以进行一定程度的补救,如对同一批训练数据进行多次使用而起到数据扩增的作用。
满足低限要求的检察大数据可用于支撑数字检察创新,奥妙在于通过求同法、求异法等进行类案特点或规律的提炼。如果分析获得了不符合同类案件中正常规律的异常迹象,就可以作为法律监督的线索来源。完成这些任务,通常需要借助数据画像、数据碰撞、数据挖掘等技术模型,下文将作进一步展开。
至于检察大数据的具体形态如何,检察官群体在发掘案件大数据“矿藏”方面勿要一叶蔽目:司法领域中常见的法律文书数据、法条适用数据、证据采信数据、执行类数据、民生领域数据、线索研判数据、资源保护数据、诉讼异常数据、非诉终结处理数据、行政非诉执行数据、警综警情数据、网络舆情数据、司法网拍数据、保险理赔数据、补(救)助资金监管数据、犯罪记录封存数据、行业合规数据等等,均是检察大数据之列,也支撑了当前检察机关法律监督模型开发的火热场景。
其实,法学研究领域中常用的学术论文、数字档案馆、会议综述、专业网站等电子资源,也可以被用于数字式检察监督实践。
几年前笔者调研了解到,某地检察机关在查处一起医疗统方领域窝串案时,使用了期刊论文数据库的作者检索功能进行关联分析,便捷地将涉案的医务工作者同统方代表、医药代表区分开来。
当时侦查信息化案例的成功经验,如今可以成为开展公益诉讼专项监督的合格范例。这个例子中说的是期刊论文数据,类似的还有使用国家专利检索数据、企业工商信息查询数据、组织机构代码证查询数据、裁判文书查询数据等的情况。
检察大数据的样态毫无限制,是否蕴藏体现类案特点或规律的信息方面则确有要求。在当下涉众型案件办理中,办案人员对于达到TB级别的光盘数据进行穿透式取证,不仅能够发现所有涉案人员的资金、社会关系及犯罪角色,也能发现侦查人员办案中可能存在的习惯性违规问题。
也就是说,它们均能提供类案的线索,用以发现需要提起法律监督的案件异常特点或规律。此亦检察大数据的宝贵“矿源”,但为许多检察官熟视无睹。
可见,在当今的大数据时代,检察官群体缺的不是检察大数据,而是一对洞悉大数据的科技透视镜:左视镜用于寻找基本够量的专业数据或普通数据,右视镜用以从数据中洞察到有关类案的信息。那些对于探索大数据法律监督仍然持有“等靠要”想法的少数检察院、检察官,确需自行反思。
■大数据法律监督怎么搞?
笔者在《智慧司法的中国创新》一文(《国家检察官学院学报》2021年第3期)中,论证过科技创新与制度创新的“两轮”要相互协调、交错发力、共同形成一个整体运行架构的耦合驱动方法。此亦是大数据法律监督的不二选择。
在科技创新层面,检察机关组织研发各种大数据法律监督算法模型时,应当也必须聚焦类案监督。相比于个案监督而言,类案监督是一种既无法割裂又有重大提升的高阶状态。
检察机关开展类案监督的技巧在于,针对办案中发现的共性问题,实现促进该类问题一并解决的精准高效监督,最终达致“办理一案、监督一批、治理一片”的社会治理效能。
这是检察监督贯彻双赢多赢共赢理念的生动写照。今年最高人民检察院发布的指导性案例检例第146号是一个好示例。该案中,交管部门因相对人卢某醉酒无证驾车撞伤行人,作出吊销其驾驶证的决定。卢某以其行为已被法院做出刑事判决、交管部门的行政处罚“系属不当”为由,提起行政诉讼。二审法院判决交管部门败诉。交管部门不服,申请检察机关开展法律监督。
检察机关不是就案办案,而是延伸办案。通过分析司法大数据,检察机关发现该案不是一起简单的个案,而是反映出行政执法与司法裁判对法律的理解适用存在认识分歧的类案。检察机关借该案件抗诉为契机,加强与公安、法院等部门沟通,就办理吊销机动车驾驶证行政案件促进司法裁判尺度统一。
这是对醉驾案件中交管执法不统一问题的一次性解决方案。该案的指导意义在于“解决执法司法办案中认识不一致、标准不一致等共性问题,推动统一执法司法标准,正确执行法律”。
这种具有政策形成性的检察监督,就是典型的类案监督。该案的成功在于检察机关在行政检察监督中使用了大数据,形成“个案线索特征发现——潜在共性要素研判——类案监督方案构建”的机制。在该办案过程中,大数据初现作为。
从提升效率来看,该案的经验是可以借助开发“检察大数据——类案监督”的算法模型快速复制的。
“指向类案的数据碰撞模型”是当下着力最多的一大类工具。它指的是通过专门的计算机软件对两个以上的数据集进行碰撞比对,并对由此对重合、交叉数据进行深度分析,进而识别可纳入监督范围的类案。
仍以面向道路交通管理领域的大数据法律监督为例,我国有的地方检察机关将公安机关警综平台中关于醉驾的110接处警数据同提交酒精检测机构的相关案件数据进行碰撞,或者将提交酒精检测机构的醉驾案件数据同移送检察院起诉的相关案件数据进行碰撞,或者将移送检察院起诉的醉驾案件数据同移送法院审判的相关案件数据进行碰撞,一旦发现数据间比对结果异常的,就可以启动类案监督。
“指向类案的数据挖掘模型”是第二大类工具。这指的是从大数据中通过算法搜索其中隐藏的异常信息,进而识别可纳入监督范围的类案。在醉驾的案例中,笔者曾看到过有的公安机关鉴定机构出具的多份酒精检测报告中对受检对象人体血液酒精浓度的结论集中于79.5mg/100ml上下。这就很值得玩味了,可以纳入异常点启动类案监督。
再以车辆保险诈骗类案为例,绍兴市检察机关曾以同一原告或者关联原告多次提起交通事故赔偿之诉为类案监督点,对当地相关案件的法律文书进行检索。结果发现,有汽修厂多名员工名下交通事故责任纠纷案件异常高发,且出现出相关案件诉讼代理人或者鉴定人单一的征象。
之后,检察机关通过对人员、社保、资金方面的信息流进行分析,挖出了一个骗取保险理赔款的“犯罪利益链”,后将该类线索移送公安机关立案侦查。若对该案中关于找到犯罪利益链的方法进行抽象建模,得出的就是一个形象的数据挖掘模型,且指向类案。
“指向类案的数据画像模型”是第三大类工具。大数据的天然优势在于可用于画像。检察机关对办案群体、对办案环节、对具体案件等均可以进行数据画像。这就相当于网商行业搞的用户大数据画像一样。就任何类型案件而言,经由数据画像后能够形成一般的正态分布情况或规律。
以此为衡量,若发现部分案件的办理情况不符合正态分布的情况或规律,就需要转由检察官进行人工判断是否存在倾向性苗头问题,再决定是否用作类案监督的线索。当下一些地方检察机关围绕虚假诉讼、民间借贷、交通事故赔偿和婚姻财产分割等为重点领域开展类案监督,一个基本前提是基于此类案件出错频率较高的特点搭建了专门的数据画像模型。
上述各种大数据法律监督模型对类案异常点的识别,均是以机器自动判断“类案”因素、人工判断“类案线索”为特征的。这是两项任务,也是两个步骤,不可或缺。
目前各种大数据法律监督模型尚不能达到真正智能化的程度。根据《中共中央关于加强新时代检察机关法律监督工作的意见》指示的“运用大数据、区块链等技术”的赋能方案,检察机关还可以通过区块链技术等强化这两个步骤、两项任务的融合,促使基于相关模型的类案监督平台进一步走向智能合约式监督。
简单地说,检察机关在开发的大数据法律监督平台或软件中可以预设各种自动执行的智能合约方案,既减少前期检察官的参与压力,也助推后期检察机关同其他社会治理部门协同治理。
在制度创新层面,我国要启动面向检察机关类案监督的建章立制任务,积极化解已经或可能出现的各种重大法律障碍。这也是促使相关探索做到蹄疾步稳的当务之急。
举个例子来说,大数据法律监督可以转向事前监督的色彩,这就昭示着行政监察监督中引入大数据要警惕越界的问题。具体来说,党的十八届四中全会《中共中央关于全面推进依法治国若干重大问题的决定》中指出:“检察机关在履行职责中发现行政机关违法行使职权或者不行使职权的行为,应该督促其纠正。”这里明确限定了行政检察监督启动的前提条件。
那么,检察机关在大数据法律监督中如何把握和执行“在履行职责中发现”之设定,做到于法有据、于情合理?这些都是需要从国家层面的规章规则上明确的。
这并不是说,大数据法律监督只能墨守成规。要知道当下力推“类案监督”是为了实现“溯源治理”,而两者的重心是不一样:前者重在监督,后者重在治理;前者由检察机关单独实施,后者可以由检察机关提出关于具有普遍性问题进行溯源治理的检察建议,督促其他社会治理责任机关、社会自治协会等组织堵塞漏洞,在条件成熟时还由检察机关参与协同发力;前者有不同程度的究责促改意思,后者鼓励从源头上化解潜在的风险……
如此众多的差异,就让大数据法律监督向溯源治理延展中出现了更大的开拓空间。从这个意义上讲,政法院校、法律学者也不是大数据法律监督探索的旁观者、局外人。
以类案为思维方式,开展理念转变、数据拓源、模型研发和制度跟进,全体检察人要争做大数据法律监督的行动派。
以下点击可读:
实录 | 王栋、张吉豫、徐瑾、李红新:APP侵犯知识产权疑难解析
汪珮琳、王铼、刘品新、季美君:网络犯罪可疑交易分析与洗钱犯罪打击
赵宪伟、刘政、徐衍、刘品新、石青川、刘坤、顾伟、陈思远:海量电子证据如何审?
刘品新、张志婧、李鹏、郭树正:如何理解电子证据的多元关联律?——龚某某侵公案的总结与点评
何家弘、刘品新《证据法学》“大修”至第七版之前言:一起研习证据法学
汪珮琳、王铼、刘品新、季美君:网络犯罪可疑交易分析与洗钱犯罪打击
实录 |电子证据与网络犯罪检察论坛 | 汪珮琳、王铼、刘品新:网络犯罪可疑交易分析与打击洗钱犯罪
刘品新、石鹏、高显嵩、张洪铭、安柯颖、侯爱文、彭文昌、王华伟、于冲、朱桐辉 | 周泰研究院电子数据法与网络法研讨观点集锦
新媒首发 | 人大博士生陈丽:电子证据的完整性从属于真实性吗?否
编辑 | 朱桐辉,南开大学法学院副教授。