喻婷 王良友|偏见与矫正:人机协同模式下突破“算法局限”的二元进路——以人工智能量刑为考察场域
喻婷
湖北省十堰市中级人民法院研究室负责人王良友
湖北省十堰市中级人民法院执行局执行一庭庭长
要目
一、检视:“百花齐放”下的隐忧二、溯因:个案折射智能量刑的适用困境与自身局限三、探究:人机协同机制回应量刑的价值思维本质四、探索:人机协同模式下突破“算法局限”的二元进路结语随着人工智能技术大量应用于刑事司法领域,其信息处理的系统性、快速性和评价标准的自主性、中立性虽然在一定程度上确实能起到克服裁判者主观偏见、为刑事审判提质增效等作用,但随之而来的机械性风险、技术黑箱和价值选择缺失等局限,极易形成固执的“算法偏见”,从而导致个案偏差,制约其在审判实践中的运用效果。量刑是一种刑事审判的动态过程,充满着事实、价值判断和司法推理,是“弱人工智能”阶段的智能技术无法独立完成的。应坚持“以人为本、技术支撑”的基本原则,一方面,从完善数据、构建模型和训练校验着手,构建有效可行的法律知识图谱;另一方面,规范应用场景,谨慎划定人工智能在量刑领域的适用界限,建立算法的审查听证和自主选择程序,从而形成法官与机器取长补短、相得益彰的协同办案模式。
一、检视:“百花齐放”下的隐忧
关于智能量刑系统的应用现状,理论界与实务界目前均缺乏系统深入的调研。笔者浏览了最高人民法院发布的《中国法院信息化发展报告》(2017-2021年),刑事案件智能辅助系统从2017年高调入场到2021年仅有寥寥数语,其日渐萎靡的发展状态与人工智能的发展速度难以匹配,并远远滞后于起步较晚的“在线调解”“电子送达”等系统。笔者收集了部分法院刑事司法人工智能应用情况,并结合笔者所在H省S市法、检系统量刑现状,初探智能量刑系统的实践效果。
与欧美国家普遍保守的刑事司法人工智能应用场景不同,我国各地法、检机关积极探索将刑事司法与人工智能紧密结合,相关的应用系统已有数百个之多。这里以B直辖市、S直辖市、G省、HN省、HB省等地刑事智能辅助系统的运行状况为代表,管窥当前智能量刑系统的运行生态(如表1)。
受资料来源的限制,以上信息尚不足以准确反映全国各地智能量刑系统的运行状态以及在刑事审判中发挥的功能和效果。但通过比较,我们不难看出,目前的人工智能技术主要通过三种模式进行辅助量刑:
1.“图书馆”式
即在系统中存储大量案例和法律信息,在法官办案需要时及时提取相关内容并予以推送。此时,智能系统从事的只是存储、检索等机械的数据库工作,与“类案推送”系统并无实质性区别,法官参与操作的自主性较低。
2.“听从指令”式
即构建数据模型,以“指令”形式告诉系统如何在案例库和裁判文书库中查找类似案例,再通过要素匹配的方式锁定类案,自动提取情节进行量刑推荐。这里的量刑推荐以数据模型中的要素设置为基础来源,“智能”程度取决于算法设定的指令,难免陷入复杂案件“要素难以穷尽”和“情节以偏概全”的桎梏。
3.“带领学习”式
S直辖市基于神经网络模型建构的刑事案件智能辅助系统,嵌入了证据标准指引,由公检法机关的业务专家对案例库内容进行标注,为机器学习提供样例,并在此基础上形成模型算法,为裁判者提供量刑参考。较前两种方式而言,“带领学习”式由“教机器学习”转变为“有监督地带领机器学习”,模型设置整体较为先进,但仍然存在“数据融合壁垒”“专家认知的个体化差异”“模型结构单一”等问题。
智能辅助办案系统的设计初衷在于通过大数据的深度应用减少司法的随意性,在提高审判效率的同时促进司法公正,但实际效果却似乎难如人愿。据一些学者的调研,S市的部分法官检察官表示,刑事案件智能辅助系统的设计过于理想化,目前的技术尚无法支撑其参与复杂的案件事实认定,且侦查阶段未能完成的卷宗扫描录入和数据集约标注工作严重制约了公诉和审判阶段智能系统的应用效果。G省部分受访法官甚至给予了智能辅助办案系统“鸡肋”的评价,明确表示其对刑事审判质效的提升作用并不明显。
与最高人民法院和省一级法院对刑事司法人工智能的大力鼓励与积极探索形成鲜明对比的是中基层法院普遍不愿尝试的消极态度。以笔者所在的H省为例,早在2018年,H省法院和检察院就开始了对人工智能辅助量刑的探索。
2020年8月,H省检察院的“智能量刑辅助系统”被最高人民检察院点名推介。该系统支持23个常见罪名的规范化量刑、60个罪名的大数据量刑,并对危险驾驶、故意伤害和贩卖毒品3罪名提供精准量刑建议。尽管H省S市检察院运用该系统提出的量刑建议法院采纳率高达96.7%,但三年来S市检察院实际适用该系统的案例仅有一百余件,远低于其提起公诉的案件数。同样,H省法院的“智能量刑辅助系统”虽然也早有程式,但笔者咨询了S中院及辖区法院的多位刑事法官,均表示从未在审判实践中使用过。有法官明确表示,在不清楚“智能量刑系统”的运行原理和数据来源时,自己更愿意相信大脑而非机器。还有法官提出,个别检察官过分依赖“智能量刑辅助系统”,导致少数刑事案件公诉意见机械僵化,存在潜在的错案风险。同时,也有律师反映,他们并不信任检察机关在起诉书中提到的“智能量刑辅助系统”作出的量刑建议,更愿意由法官对案件作出实质性评判。
尽管部分地区的少数例证无法代表刑事司法领域人工智能运用的普遍状态,但曾高调介入的“刑事智能量刑系统”在实务中取得的收益和成效明显不如预期,其中的原因值得我们深思。
二、溯因:个案折射智能量刑的适用困境与自身局限
笔者试图跳出论证人工智能自身存在缺陷的重复视角,将关注焦点转至司法机关对智能量刑结果的接纳程度上来。笔者在S市审判流程管理系统中以“智能量刑”“发回改判”“抗诉”等关键词进行搜索,试图寻找法官与智能量刑系统作出不同评判结果的案例,并以此为切入点探讨智能量刑系统在对个案进行评估时可能存在的局限和潜藏的风险。
案例一:2017-2018年,谭某在竹某公司上班期间,多次利用工作便利窃取竹某公司矿洞内的绿松石并出售给黄某、张某、刘某等人,共获利12.29万元。2018年,谭某伙同竹某公司员工朱某三次盗窃竹某公司绿松石,价值5700元。2018年,朱某又数次将多枚绿松石出售给刘某,获利11.6万元。后谭某、朱某被公安机关抓获。S市辖区检察院认为朱某窃取了竹某公司的绿松石价值12.17万元,属于盗窃数额巨大。一审法院采纳了检察院基于智能量刑系统得出的量刑建议,判处朱某有期徒刑3年零6个月。后朱某提起上诉。S市中院二审认为,朱某2018年出售给刘某价值11.6万元的绿松石既没有被告供述,亦没有盗窃证据,刘某的证言不能证明绿松石的来源,不能排除朱某从他人处购买绿松石后出售给刘某的合理怀疑。案件发回重审后,法院对朱某获利11.6万的部分未予认定,最终判处朱某有期徒刑1年2个月。
证据的证明力不仅取决于自身的可靠性,还取决于其与待证事实之间的关联程度。对于刑事个案中收集的多个证据,不仅需要对单个证据进行真实性评估,还需要整合、比较,确认多个证据间能否形成相互印证的推理链条。从这个角度而言,建立在机器逻辑意义上的简单线性推理并不能满足“疑罪从无”的证明要求,如果在此基础上忽略了法官主体的法律理性和经验判断,就可能与数据的创设者和输入者产生类似的价值倾向,从而形成相当隐蔽的算法歧视。
案例二:郭某伟被赵某殴打后怀恨在心,1994年8月26日凌晨,郭某伟邀约其弟郭某虎偷开门锁进入赵某宿舍,用斧头砍击赵某致其死亡,然后持木棒击打赵某的同居女友郭某某头部。赵某死亡后,郭某伟欲强行与郭某某发生性关系,后因自身原因未成功。事后,郭某伟搜出赵某钱包内200余元现金和一张信用卡,向郭某某逼问信用卡密码后逃走。2020年8月8日,郭某伟到公安机关投案。S市检察院运用智能量刑系统,提出死刑的量刑建议,S中院采纳了量刑建议,认为郭某伟犯故意杀人罪、故意伤害罪、强奸罪、抢劫罪,数罪并罚决定执行死刑。郭某伟提出上诉。H高院审查后认为,一审认定事实清楚、证据确实充分,适用法律正确,定罪准确。但考虑到被告人郭某伟自首,且在逃20年间没有其他违法犯罪行为,改判死缓。
现代法治并不仅仅停留在依法治理的事实层面,更多强调的是良法善治的价值层面。如于欢案、病患母亲代购“毒品”救子案等的判决结果都包含着裁判者对社会道德、经验理性和司法政策的综合考量,这些来自于人文关怀和道德伦理层面的影响因素是目前的智能司法无法估量和计算的。在本案中,H高院亦考虑到当今“宽严相济”的刑事政策与案发时的司法环境存在巨大差异,才最终作出改判的结论。
案例三:2019年7月8日凌晨,张某酒后搭乘张某某的出租车意欲接人,途中因与他人产生情感纠纷而产生轻生想法。后张某让张某某在偏僻路段停车,欲强行与张某某发生性关系,遭到强烈反抗后开始殴打张某某,称自己不想活了,要先与张某某发生关系后一起去死。张某某趁张某下车换位之机逃跑。第二日,张某在亲属陪同下投案。S市辖区检察院以张某犯强奸罪(未遂)和故意杀人罪(未遂)提起公诉。法院一审认为公诉机关指控张某犯故意杀人罪(未遂)的事实不清,证据不足,遂以强奸罪(未遂)判处张某有期徒刑三年六个月。S市检察院运用智能量刑系统评估后,提起的抗诉理由与辖区检察院一致。S市中院经审理认为,结合张某当时的心理状态和醉酒状态,其对被害人提出的“一起死”更多的是泄愤和威胁之意,主要犯罪动机仍为强奸,故意杀人的犯意并不明显,最终未支持公诉机关的抗诉理由。
算法决策过程完全由机器根据特定的函数运转,人力无法干预,更无法解释算法运转的内在原理。这正是算法“黑箱”产生的根源和难以规制的原因所在。笔者调研时,也有检察官表示“并不清楚智能量刑系统的运行原理,有时我们觉得证据够了,但系统显示不够;有时候我们觉得证据不够充分或者证据之间存在矛盾,但系统已经根据现有证据完成推导并作出了量刑建议”。在此情况下,亟须我们对量刑所依赖的算法模型的数据来源和逻辑架构保持一定限度的审视和追问。
案例四:2007年,浙江某公司取得S市Y县某矿产项目经营管理业务后,将探矿项目委托王某经营。2008年3月,浙江某公司将该探矿权转让给王某开设的郧某公司,王某在郧某公司占56%股权。2013年4月,王某将自己持有郧某公司的50%股权以410万元的价格转让给孙某,孙某先行支付王某140万元。但因设计、评审等原因,王某未按期办好探矿权延期手续,孙某要求王某退还股权转让款。因王某手头紧张,双方未能达成退股协议。期间,孙某多次催促王某寻找矿山合作投资人,以解决自己的退股问题。后王某寻到某金矿公司为新的投资合作方,并收到订金400万元,因未及时退还孙某股权转让款,孙某到公安机关报案。S市辖区检察院以合同诈骗罪起诉王某,一审法院支持了检察院意见。王某上诉后,S市检察院为寻求更多的类案比较,适用了智能量刑系统,综合评价后仍定性为合同诈骗罪。S中院经审查后认为,王某在转让股权的过程中既没有虚构事实、隐瞒真相,也履行了合同约定的主要义务,期间设计、评审迁延导致探矿权延期手续未按照约定期限办理到位,实属王某无法控制的客观原因。王某没有非法占有孙某财物的主观故意,不符合合同诈骗罪的构成要件,最终宣告王某无罪。
无论人类如何竭尽才智,也无法将所有犯罪类型的量刑情节一一列举,那么以难以穷尽的量刑要素为基础所作出的量刑建议也是不可能做到牢靠和精准的。机器的学习离不开创设者对关键要素的标识。量刑要素的不完整意味着精密的机器计算建立在模糊的法律规则与雷同的数据片段的基础上,即形成人工智能领域的经典悖论:人类智能的程度决定了人工智能的程度,人工智能最终无法对抗人类的不智能。
三、探究:人机协同机制回应量刑的价值思维本质
随着现代刑事司法理念的更新,报应刑、威慑性和教育刑的交替发展催生出正义、公平和人道三种价值追求。与之相对应的量刑活动也往往成为惩罚、预防和教育的综合性评估。换言之,量刑不仅需要“回顾性”地考察犯罪行为的客观危害,还要“展望性”地分析被告人再犯可能,同时应当“跟踪式”地关注犯罪人的再社会化及回归。在这种情况下,构建“以机器的客观冷静实现快速判断”+“以人类的理性认知实现价值判断”的“人机协同”模式应当是目前最合乎时宜的选择。
算法在量刑领域的优势,一方面,智能系统以客观案例的数据输入和现有法律条文的海量存储为素材,按照设计好的算法模型自动启动要素筛选,能够克服法官的价值偏好、认知局限等方面的影响,使类似案件的判决结果呈现既不偏激也不保守的均衡态势;另一方面,机器在信息处理、集成和计算等方面确实存在人类无法比拟的优势,尤其嵌于量刑系统的证据关联、类案比较、量刑建议、文书自动生成等功能,为法官梳理案件、作出裁决减负增效。已有的调研数据显示,G省刑事智能辅助办案系统运行以来,同类案件的办案时间同比缩短30%;S直辖市的智能量刑系统的证据审查功能为法官办理盗窃案件类案节约了近三分之一的时间;而在国外进行的一些合同审查测试中,智能算法的准确率已经远远超出律师。机器在公平与效率方面的优势有助于裁判者更快更早地查探案件真相,防止正义迟到。
在刑事司法程序中,法官的认知、思考和价值判断不可或缺。法律概念的分析和法律事实的认定并非简单的字词句组合,而是法官运用法律思维和推理方法对事实和证据进行的深层次探究。这种探究极有可能由于已查事实的片断性、法律规则的模糊性和法律条文的滞后性,实际呈跳跃状态,无法由简单的机械逻辑推导而出,只能依赖于恰当的价值评判,这是目前的人工智能难以独立完成的。况且,“类似者未必等同”,完全相同的案件不可能在现实中反复出现,在实际量刑过程中必须综合个案差别对案情进行全面考量,决不能以简单的三段论演绎追求机械的“同案同判”,否则可能会大量出现类似“赵春华非法持有枪支案”等缺乏实质正义和量刑正当性的案例,反而引起不好的社会效果。这也是司法审判中必须为法官保留自由裁量权的关键之所在。
在刑事量刑场域,尽管机器发挥技术功能,法官发挥价值功能,但两者的共同目的都在于寻求符合规则且实质正确的结果。从这个角度而言,我们完全可以将情感的问题交给法官,以心证寻求案件的实质正义;将法律的问题交给机器,以技术享受智能量刑带来的快速便捷;以人机协同协调司法价值与技术理性,在“僵化”的机械司法与“恣意”的权力滥用中寻求合理界限(如图1)。
当然,人机协同绝非简单的功能整合。尽管机器基于“线性逻辑”提供的量刑参考尚无法与法官“综合判断”作出的裁判结果相提并论,但它在量刑中所发挥的作用也已远超简单的“工具”范畴。在一定条件下,智能量刑系统不仅会影响法官作出决断,甚至能在特定场景里发挥替代法官功能的作用。譬如,当智能量刑系统对案件性质的认定与法官意见不同时,法官必然会对自己的裁判思路进行反思和追问,从而作出更改与否的判断。再如,当案件涉及法官不熟悉的知识领域时,智能量刑结果会成为法官裁判的重要参考。但这个应用的场景和替代的边界需要进行格外慎重地划定,算法的技术难题亦亟待解决。最高人民法院在《人民法院信息化建设五年发展规划(2021-2025)》里强调要以案件审理 为主线、以电子卷宗深度应用为重点为办案人员提供案情智能分析、证据智能关联、类案智能推送、量刑智能辅助等裁判辅助应用。这里的“辅助”表述直接明确了智能量刑系统当前的角色和定位。
四、探索:人机协同模式下突破“算法局限”的二元进路
在刑事量刑领域,“算法局限”除了本身的技术障碍,更受制于适用者和社会公众对其伦理风险的深切担忧。笔者试勾勒“人机协同”的量刑模型(如图2),希冀智能量刑系统能够通过自我完善和外界约束摆脱“自动售货机”的质疑,真正成为刑事审判的“鸟翼”和“车轮”。
司法人工智能的运行逻辑是从浩如烟海的数据库中根据不同司法场景提炼关键要素和共性规则,训练机器进行深度学习,从而形成类似于人类的信息分析、提取和逻辑推导、判断能力,进而辅助裁判。因此,从准备数据库、学习算法和模型评估出发,构建有效可行的法律知识图谱应当是人工智能量刑的核心要素,亦是破解智能量刑司法应用难题之关键。
1.夯基:构建翔实准确的数据库
一是拓展数据类型。随着社会日新月异的发展,新类型犯罪案件层出不穷,对法律规则和司法案例的静态关注难以实现对法官自主裁量的有效模拟。可以考虑在当前以“法律法规+裁判文书+司法案例”为基础的智能量刑数据库中,引入庭审笔录、证据规则、专家(法官)意见等内部司法数据以及各地统计年鉴、官方社会调查等外部权威数据,构建以“司法数据库+外部数据库+规则数据库+庭审数据库+专家意见数据库”为一体的动态关系库,从而使数据库具备较强的泛化能力。庭审直播系统、语音转换系统、S直辖市的刑事案件智能辅助系统、各地智慧政府应用等均为此提供了可行性参考。二是数据清洗处理。一方面,纠正目前量刑数据库中可以识别的各种缺陷和错误。主要包括案件信息录入不全、裁判文书公开不全、基础卷宗数据片断无效或缺失等,同时将人名、地名、身份、证据列表等可能造成片断干扰的案件信息集约分段,避免提取要素时引起冲突造成系统运行紊乱。另一方面,划定不同阀值的结果输出影响因子。标注案例优先级,区分指导性案例、公报案例、典型案例与一般案例,形成层次清晰的类型化、向量化数据集,为法官量刑提供可视化参考。
2.建模:寻求契合审判思维的量刑模型
机器在得到较为翔实准确的数据集合后,需要通过“算法模型”学习优质判决,提取关键要素,进行自我校正,从而为新案例提供裁判参考。建立“算法模型”的关键在于对量刑情节进行模块化设计,这种设计既非对独立犯罪事实分别评判后进行单纯相加,亦非提前给予固定的逻辑化指,而是在基本犯罪情节的基础上,充分考虑行为人主观思想、犯罪行为客观危害程度、现行的刑事政策等修正情节,在海量数据中自主解构要素,找到经验归纳与演绎逻辑的平衡,这种复杂的思维过程是决策树、支持向量机等机器学习方法无法模拟的,而神经网络算法作为目前功能最强大、应用范围最广阔的机器学习方法,或可为刑事审判提供帮助。神经网络算法通过神经网络“局部感知”,使每个神经元都能接收来自其他神经元的信号传递,再通过“权值共享”,将接收到的总输入值与设置阈值进行比较,然后通过“模拟训练”提取多个特征数据处理产生信息输出。这与刑事审判中,法官对单个证据进行逐一审查,形成证据与证据之间、证据与事实之间的网状联系,再通过各个证据证明力大小作出印证(是)或排斥(非)的判断,有异曲同工之妙。笔者以“盗窃罪”为例展示人工神经网络与审判思维的类似结构(如图3)。
3.训练:寻找最优量刑公式
技术总是来源于人,不可能存在完美无误的算法模型。因此,神经网络算法参与量刑的目的不在于形成一成不变的模型,而在于通过模型进行“泛化”,在机器的反复学习中不断完成对模型的训练和迭代,将机器预测的量刑结果和实际的判决结果形成比对,层层调整参数,尽可能克服机械僵化的线性思维,形成误差最小、效果最优的量刑公式。仍以“盗窃罪”为例,首先,需要设立一个因变量(Y)——盗窃罪刑期,以及多个自变量(X)——量刑情节,从而可以得出一个大致的公式:Y(盗窃罪刑期)=X1(情节1,累犯)+X2(情节2,入户)+X3(情节3,多次)+X4(情节4,金额)-X5(情节5,自首)-X6(情节6,退赔)……其次,对数据划定训练集,对公式进行测试校验,及时调适更新。比如,机器在学习过程中,误将“无主物”“遗失物”等作为盗窃要素,会形成“过拟合”;而未将“贴身财物”“虚拟财产”等作为盗窃要素,则构成“欠拟合”。最后,使用更新后的模型在数据源中重新训练,促进量刑公式产生良性变化,使其具备较高的泛化性和准确性。
尽管我们试图通过改善技术让人工智能在量刑领域发挥更为重要的作用,但其可以适用的领域仍然有限。应当在顺应科技发展节奏的基础上,发挥“人机协同”中“人”的主体作用,保持对智能量刑系统的适当规制,尽量克服其在价值判断和理论前瞻等方面存在的先天性缺陷(如图4)。
1.第一重约束:规范应用场景
一是谨慎适用于事实认定。刑事案件的裁判过程总体可以分为“事实认定”和“法律适用”两个阶段。其中“事实认定”的过程不仅需要对全案证据进行综合认定和整体评价,更需要法官立足于证据材料与庭审辩论,从案件的具体场景中获得心证结果。这其中既涉及法官对自我的内心确信,更涉及其对经验法则的抽象运用,是机器目前无法达到的水平。二是谨慎适用于新类型案件。机器的逻辑源于已有判例和现行法律法规,对于新类型刑事案件,会因为缺少赖以学习的优秀判例,难以形成准确的“判决逻辑”,从而引发“判决难题”。三是谨慎适用于价值冲突的衡量。随着社会主义核心价值观融入刑事审判,部分法律条文已无法清晰地勾勒公共利益与个人利益的边界,基于法律原理、社会伦理与公众朴素的正义观而产生的价值冲突衡量,已经远远超出人工智能的能力范畴。四是谨慎适用于二审刑事案件。在二审环节,应由法官秉持一般理性标准对案件进行综合评价,在一定程度上能够避免和矫正一审基于智能量刑参考而形成的裁判偏差。
2.第二重约束:完善程序规制
3.第三重约束:配套人工干预
一是建立智能量刑救济制度。首先,如果当事人同意适用智能量刑系统,则应当在裁判文书中有所体现,附系统推送的类案案例条目,供被告人、代理人、二审法官复核查验。其次,研发部门应当就智能量刑系统的设计目的、算法模型、运行原理、功能选择、潜在风险等作出详细说明,公开发布技术手册供法官和社会公众了解学习。应当赋予被告人及其代理人查阅智能量刑系统运行日志的权利,尽可能弥补被告方与公诉方信息不对称的缺陷。最后,被告可以就“不当适用智能量刑系统”提出专门的上诉请求。二是建立主审法官的伴随性审查程序。法官在审判实务中发现智能量刑系统可能存在类案适用偏差和错案风险的,应当及时标注,并向技术部门反馈。对于地方性风俗与当前刑法规定相冲突或地区经济发展水平不具备“同案同判”基础的刑事案件,主审法官应当兼顾特殊性原则,对智能量刑结果给予伴随性审查并在裁判文书中载明心证过程。
结语
在以“智能量刑系统”为先锋的刑事智能司法改革领域,尽管传统的刑事量刑不可能被智能量刑取代,但理性的法律人仍应“大胆而谨慎”地审视人工智能在人类发展史中的卓越地位,对其给予法律上的积极回应和引导。未来的刑事审判应当着力完善和实现“法官解决复杂案件”与“机器解决简单案件”两种裁判模式的衔接与共生,进一步发挥人工智能对法官量刑的辅助作用,从而实现科技运用与法治发展的相向而行。
往期精彩回顾
上海市法学会官网
http://www.sls.org.cn