左卫民:AI法官的时代会到来吗——基于中外司法人工智能的对比与展望
The following article is from 政法论坛 Author 政法论坛
点击蓝字 ★ 关注我们
左卫民:法学博士,四川大学法学院教授,博士生导师
【来源】《政法论坛》2021年第5期“主题研讨”栏目。因篇幅较长,已略去原文注释。
这些软件在技术上以大数据、人工智能等前沿技术为依托,在功能上辅助甚至力求取代法官决策这一核心职能,某种程度上可以被视为AI法官的雏形。实践中,法官有时会接受算法的结论,从而使算法本身成为“实质上的法官”。其兴起似乎预示着司法人工智能的未来已经到来。当然,我们也注意到,在这种热闹场景的反面,法律人工智能的先驱—ROSS公司破产的新闻似乎又将这种美好的愿景拉回了现实。法律人工智能的未来究竟如何?需要一番全面的审视。本文将对AI法官在以美国为典型代表的域外实践和理论研究进行重点关注,并对其在中国的实践状况和理论空间进行初步探讨,通过中外的对比展望AI法官的运用前景。
一、AI法官:现状如何
面对裁判人工智能产品的迅猛发展,部分学者对其使用前景持相对乐观的态度,认为在算法进一步优化、计算机硬件进一步升级的背景下,裁判人工智能在未来将获得更广泛的使用。这些人士不仅主张在案情简单、事实清楚的案件中运用AI法官裁判,也开始对复杂案件的裁判进行预测性评估分析。例如,通过对一国最高法院既往裁判数据的分析来预测其未来裁判,从而为当事人、律师做好诉讼准备提供帮助(尽管他们认为人工智能并不能代替法官或律师)。同时,乐观主义者认为在司法独立与司法公正等价值层面,AI法官相较于人类法官更具优势。一方面,法庭时常面临传统媒体和社交媒体施加的压力,而AI法官可以无视媒体或公众的期待,将公众压力排除在决策考虑因素之外。同时,人工智能法官没有职务晋升或经济报酬等的激励或压力,可以无偏见、无情感地运行。另一方面,AI法官不知疲倦,具备更高的效率,而效率与司法公正在某种程度上密切相关。
然而,需要回答的问题是,AI法官的运用现状与乐观主义者的预期是否吻合?就目前而言,其有限的实践呈现出什么样的特征?取得了怎样的效果?笔者认为,可以从域外与中国两个方面进行初步勾勒。
(一)域外AI法官的运用现状
迄今为止,域外一些国家和地区已初见AI法官的身影。例如,荷兰一家私人化的在线法院自2011年起开始在债务追收诉讼中尝试实践AI独立裁判,AI法官根据算法工程师在分析界定债务追收诉讼中的关键性裁判要素之后建立的裁判模型来做出判决。爱沙尼亚则从国家层面着手设计AI法官,试图将其运用于标的低于7000欧元的小额索赔诉讼裁判,以解决案件积压问题。双方当事人将各自的案卷材料输入裁判数据库之后,AI法官会对相关材料进行分析并做出判决,当事人对AI法官所做判决不服的可上诉至人类法官。除此之外,广义上的裁判型人工智能技术在一些英美法系国家开始找到了用武之地。晚近十余年,在美国刑事司法中,风险算法预测运用不断扩大,覆盖了刑事诉讼中保释、量刑、假释等多个阶段。从这种再犯罪风险评估技术及以其为基础的裁判型人工智能实践,大致可以看出AI法官当下实践的几个特征。
1.AI法官在司法实质决策领域初步开始运用
AI法官开始在司法尤其是刑事司法的实质性决策领域,特别是有关量刑和保释裁判中应用。这种实际应用可以说是裁判人工智能从理论到实践迈出的重要一步。相比之下,似乎大多数国家还没有这么大范围的裁判智能实践,而是仍停留于理论探讨或产品的初步设计、尝试适用阶段。例如,法国司法系统于2017年在雷恩和杜埃两家上诉法院进行了司法人工智能判决结果预测软件Predictice的试点。经过试点后,法国司法系统得出的结论是该软件无法判断案件中的细微差别,也无法充分考量一些案外因素。随后,法国立法机关颁布“法官画像”禁令,禁止基于法官身份的数据分析、比较、评估与预测,由此将这种法官判决结果预测限制在有限范围内。
需要注意的是,即便在智能风险评估工具被广泛应用的美国,在最为关键的裁判领域—定罪或决定诉讼请求的支持与否事项上并未交给AI法官,在笔者看来,AI能够适用于量刑、小额诉讼等领域既是因为该领域的风险评估具有客观化数据基础,也因为基于算法的风险评估技术具有相当的定量性、科学性特征,算法可以胜任并帮助提高量刑效率和一致性,使量刑结果具备可信赖性。而AI不适用于定罪等核心事项的裁判,一方面是因为此类决策一般是由人类法官决定,其具有难以动摇的政治哲学支撑和公众的支持,AI法官难以在其间找到用武之地;另一方面,在刑事案件“排除合理怀疑”的定罪证明标准下,内心确信的要求难以通过数字精准量化,并且在无法排除合理怀疑的情况下需要适用无罪推定原则,AI法官难以满足此种高度主观性的证明过程要求。一言以蔽之,AI法官已经成为美国刑事司法的角色之一,但还未成为美国刑事司法的关键主角。
2.AI法官与定量实证方式等的方法论革新相关
AI法官究竟如何运行?行内人惯用“算法”等标签性词汇来阐释,这时常让外行人望而却步。对算法进行抽丝剥茧可以发现,其基本方式是统计学的模型,乃至包括机器学习式的算法应用。
目前美国刑事司法实践中使用的几乎所有风险评估工具均是在传统的量刑指南和相关量表基础上发展起来的。众所周知,美国的量刑指南制度要求法官根据几乎定量化的各种因素来确定被定罪被告人的具体刑期,甚至因此被批为机械化量刑。因循这一传统,量刑中的风险评估采用“加权检查表”的形式,根据输入值与未来违法行为的统计相关性(通过再次逮捕或再次定罪衡量)来打分,风险分数便是这些分数的总和。这种简单模型仿效了量刑指南指引下的量刑量表,将带有数据化特征的量刑量表这一裁判辅助工具发扬光大。但促使风险评估工具获得重要发展的实际上是统计方法的介入。具体而言,根据其使用的统计方法又可将之分为简单的风险评估和复杂的风险评估两大类。简单的风险评估技术并未利用非线性或交互关系,但具有整数权值和少量输入的简单统计评估工具便可以在不少领域与复杂预测模型的精确度相匹敌。有研究发现,仅考虑被告人年龄和先前未能出庭这两个特征的简单风险评估规则得出的再犯罪风险预测结果,与包含多个可用特征的机器学习模型(随机森林和lasso回归)运算结果几乎完全相同。而复杂的风险评估技术,例如COMPAS主要通过标准回归模型运行,但它结合了更先进的机器学习模型。总之,以美国刑事司法实践中被广泛应用的再犯风险评估工具为代表的AI法官是对人类法官决策实践的收集、总结和模式化。换言之,其基本模型是经验式的,基于司法大数据,面向实践去收集、分析、建模量刑实践数据是其运作的前提。所以,这种分析、使用数据以做出决策的风险评估工具本质上是较为简单或复杂的实证方式。相反,现在美国学者分析风险评估工具时所用的研究工具往往才是机器学习的方式,这是否意味着未来风险评估工具的改进、发展也会更加复杂化呢?值得进一步观察。
3.AI法官与数据分析的认识论转型相关
AI法官的算法形成仰赖于海量数据的投喂,这必然要求建立一个以数据分析为中心的AI法官认识论体系。以美国弗吉尼亚州为例,该州曾制定了将25%的非暴力罪犯从监狱转移出来的目标。风险评估被视作达成这一目标的重要方法,由弗吉尼亚刑事量刑委员会(即VCSC)在20世纪90年代末为非暴力罪犯开发并试验。其通过对1500名判处非监禁刑以及刚释放非暴力罪犯相关数据的随机抽样分析,预测哪些被告可能会在回归社会后三年内再次被判处重罪,它的输入值包括定罪指控的内容、有无其他违法行为、性别、年龄、就业和婚姻状况、最近的逮捕、监禁以及重罪前科等记录。这些数据都存在于既往的裁判资料中间,VCSC所做的便是收集、分析这些资料中的数据。所以,以既往的司法实践为基础,观察、提取数据,总结既有决策的模式,以此作为未来AI法官决策的基本依据,是所谓算法裁判的根本前提。需要指出,这种算法并非一蹴而就,而是经过实践试错进而不断修订完善的,这种修订工作也表明了算法本身需要根据实践不断发展。
4.AI法官是“自动化司法”的呈现
AI法官体现的是一种“自动售货机”式的决策模式。在将司法决策经验用统计学的方式抽象、建模后,法官及其助手所要做的是发现、确定与案件裁判相关的关键因素,然后让算法一一打分,最后由AI法官算出总分并将其分成不同等级,得出如何处理的建议。事实上,法官并未参与结论的形成过程,且一般采纳算法的结果。目前美国已有一半以上的州在司法实践中利用风险评估软件来辅助法官量刑,可以认为,实现韦伯构想的“自动售货机”式司法似乎终于在百年后看到了一线曙光。
除了使用算法进行司法决策的直接性运用外,依靠人工智能进行裁判预测的间接性运用也开始出现。裁判预测主要根据的是既有裁判结果对法官的裁判模式进行建模,据此预言当下和未来的裁判可能。例如,弗吉尼亚理工大学发现分析中心的研究人员通过数据驱动结构的机器学习,对美国联邦最高法院的历史裁判进行分析,以此预测联邦最高法院的未来判决。算法通过仔细分析裁判文本,计算每个与争点相关的话语,评估其权重,分析不同法官对其关注程度,然后参照其表决,判断文字表述的实际意义。由此,AI预测最高法院未来的裁判的准确率达到了79.46%。
基于上述种种,实践中所谓的AI法官裁判机制尤其是类似的风险评估算法究竟效果如何?对此,基于美国刑事司法实践的文献考察,笔者认为:
其一,风险评估工具使用的有限性。例如,弗吉尼亚大学法学院的Megan T. Stevenson和德克萨斯农工大学经济系的Jennifer L. Doleac对弗吉尼亚州法官使用风险评估结果的研究发现,非暴力案件中有近一半(44%)的法官遵从分流建议,但依然有不少时候未使用风险评估算法。何以判断法官是否使用了风险评估工具?两位研究者的主要方法是观察风险评估中得分高于或低于临界值是否会引发不同的量刑建议。通过使用断点回归方法,他们发现,风险得分恰好低于临界值的非暴力犯罪者(几乎没有接受分流建议),被监禁的可能性降低了6个百分点,刑期比那些风险得分高于临界值的犯罪者短了约23%。据此可以合理认定法官采用了风险评估算法的结果,否则,难以解释风险评分临界值上下时量刑的巨大差异。
其二,风险评估工具效果的有限性。风险评估是否会对一些重要问题的处理产生显著影响?整体而言,研究结果显示有所差异但差异程度不一。仍以Megan T. Stevenson和Jennifer L. Doleac的研究为例,通过重点分析年龄和种族因素对非暴力风险评估的影响问题,两位研究者发现即使考虑到量刑建议时的随机误差,年轻被告的风险得分也比年长被告高得多,黑人被告的风险得分比非黑人被告高得多。因此,可以说,风险评估工具的使用在某些方面会导致差异。例如,风险评估的使用对年轻人产生了不利影响。使用“三重差分法”研究设计,他们发现风险评估的使用使年轻被告(相对于年长被告)的入狱概率增加了几个百分点,而刑期长度则相对增加了百分之十左右。不过,将这种增长与法官如果完全遵守与该算法相关的量刑建议将会发生的情况进行比较,研究者发现这种差异似乎没有想象中那么大。因为完全依从算法建议会导致年龄差距更大:监禁的可能性相对增加15个百分点,刑期长度相对延长。这说明法官们利用自己的自由裁量权从轻判处了年轻被告,从而减少了对年轻人的不利影响。此外,尽管其标准误差不能排除对部分黑人被告(相对于白人)适用更长刑期的可能性,但没有直接证据表明风险评估的使用大大加剧了全州范围内的种族差异。
基于上述分析,在一定程度上可以认为AI法官在美国刑事司法实践中已经出现,但扮演的更多是一种补充式的角色,距离主角的地位为时尚远。
(二)我国AI法官的运用现状
纵观当下的中国司法实践,与美国等域外法治发达国家有所不同,中国在AI法官方面的实践,某种程度上可以视为是一种“弱形式”的应用,具体来看呈现出以下几个特点:
1.AI法官尚未在实质性审判领域进行应用
在我国,智能化技术尽管为突破诉讼服务困境提供了可能,但人工智能并未在审判决策的重要环节(更具体来说是在量刑环节)发挥实质性作用,但在非关键性的环节中已经开始出现。例如,作为完整的刑事智能辅助办案系统的上海206系统、有智能量刑辅助功能的北京高院睿法官系统,尽管在整体上这些应用没有常态化、规模化,但“智慧法院”建设中在一些关键性的决策事宜上的裁判智能化尝试,如对实体裁判的预测与监督。因此,在某种程度上可以将其视为是一种“弱形式”的AI法官应用。
实体裁判预测是指人工智能系统对海量裁判文书进行情节特征的自动提取和判决结果的智能学习,建立具体案件裁判模型,根据法官点选的关键词或提供的事实、情节,预测正在审理案件的实体裁判,这似乎可以视作“弱”意义上的裁判智能,尽管其不构成对法官决策的拘束力,但仍有可能对法官的裁判决策产生一定的影响。同时,人工智能系统在预测的同时还会自动统计、实时展示同类案件裁判情况,推送更为精准的相似案例,供法官参考,同样可能影响法官的裁决决策。所以,所谓的类案类判推送系统也可以视为广义上的AI法官,因为它做了案件间的比较与含蓄的处理建议。
而实体裁判的监督是指对于“同判度”较高的类案,基于预测性判断,若判决结果与之发生重大偏离,系统将自动预警。如苏州法院的人工智能系统据称不仅能够统计类案的裁判模式与结果,还能对当下案件根据历史裁判模型模拟裁判,如果法官制作的裁判文书判决结果与之发生重大偏离,系统予以自动预警,方便院庭长行使审判监督管理职权。
2.AI法官主要基于知识图谱式算法而缺少定量实证的方法
与美国等域外国家AI法官更多是基于定量实证的方法论革新不同,我国法律人、法律科技公司在谈及AI法官时,往往将其与知识图谱式的算法相联系,从现有实践中看,这种知识图谱式的算法存有“自上而下”和“自下而上”两种典型的模式,但不论是何种模式的构建都较少使用以统计学为基础且时常扩展到机器学习的算法。在一些AI法官系统的算法生成过程中,使用了数据进行训练,但这种意义上的数据使用,并非如同域外一样是利用统计学、数学的原理,对数据加以分析后的实证方法运用,而是主要服务于知识图谱生成、训练的工作需要。所以,中外在理解、使用AI法官的基本工作机制上迥然相异,从而也导致几乎完全不同的研制机制和实践状态。实际上,区分中外AI法官的重要标志便是有没有广泛使用统计学基础上的机器学习算法。在此意义上,与之相关的神经网络同知识图谱应用有着完全不同的效果。顺带要指出的是,AlphaGo的成功很大程度上归因于神经网络,而相较之下过度依靠知识图谱技术是有本质缺陷的,中国大部分所谓法律人工智能均为知识图谱式,难以单纯据此打造能在实践中充分应用的AI法官。
3.AI法官是规范取向而非经验模式
我国研制AI法官的基本模型一般是规范取向的,它着眼于使用知识图谱对立法、司法解释等的规则进行提取和分析,构建一种规范式而非经验式的裁判模式。换言之,AI法官的“训练集”并非行动中的“案例集”,而是书本上的“规则集”。最终产出的不是实践理性的AI法官,而是“被规训了的”AI法官。规范取向的后果便是其很可能不适合丰富、多样的实践决策模式,从而无法得到实践者的认同。
就效果来看,上述努力、尝试并不意味着中国司法领域的人工智能运用已经获得了实质性的突破。事实上,一些裁判人工智能产品或效果不理想,或被长期搁置以至于难觅踪迹。笔者在某市有关法院调研类案类判系统时曾了解到,一些法官表示法院提供的类案类判系统存在明显问题:例如类案相似度不高,难以提供精准的类案;类案范围不够广阔,局限于部分省份的类案;类案的时间不延续,往往集中于若干年份,等等。这使得官方提供的类案类判系统无法充分发挥关键性的参考作用,法官要么不用,要么不得不寻求外援。当然,这两年的情况有了较大的改观。
二、AI法官:障碍为何
整体而言,无论是域外还是国内,AI法官都未得到广泛应用,特别是难以在关键性裁判决策中应用,而且在中短期内或许都较难全面推开。对此种状况的出现,我国理论界也有一些初步的讨论。例如,何帆认为,现在谈AI法官是无稽之谈,法官“需要的智慧和智能,第一要务还是辅助和服务法官办案,而不是替代司法裁决、淘汰办案法官。”吴习彧认为,人工智能难以胜任知识覆盖面大、技术含量高的司法工作,更可行的做法应是一种人机结合的司法裁判智能化辅助系统。笔者也持类似的看法,并认为正是下述四点障碍使得至少中短期内AI法官在关键性裁判决策中很难被普遍实际应用。
(一)社会认同障碍
是否接受“AI法官”?这本质上是一个社会认同问题。而当下的状况是AI法官仍缺乏社会认同的基础,并且中短期甚至长期也难以达至共识。为何出现此种境况?这源于审判的历史传统。观察历史变迁,由谁来承担裁判职责是人类社会在长期演变进程中逐渐自然选择而成的,其经历了一个由“非人裁判”到“人类裁判”的演变过程。从某种意义上而言,当人们对人工智能高度信任之后,是不是返祖到了神明裁判时代,只不过是“技术神”替代了宗教神?取决于人类特别是法律人、当事人是否选择相信智能机器。长期以来,法律经验经由人类开放的辩论与长久的累积而达至,并以当事人与社会可接受的方式表述。然而,人工智能是一种由智能机器(尽管人类在其中深度介入)分析数据,基于数据关联性而构建的“另类”的客观化的决策模式。这种模式需要法律人、当事人更重要的是公众的认同。虽然短期而言,算法不透明只为少数专业人士所认知,但一旦这一问题为公众了解之后,AI法官要获得公众的认同将与人类法官一样困难。
(二)技术发展障碍
就目前人工智能技术发展程度来看,中短期内AI法官仍难以匹敌人类法官的智慧。这主要体现在两方面:一方面,人类法官在处理案件的过程蕴含着AI法官难以习得的情感与智慧,特别在一些涉及必须对人性复杂性进行考量的案件中,人类法官对人性的思考、权衡、把握过程对于案件裁判结论的形成起着至关重要的作用,但这些思考、权衡、把握却难以形成文字并记载在裁判文书—AI法官据以学习的基础数据材料当中,即使记载了,但同样因为人性复杂性的原因,不同的法官个体对人性的思考和判断却远不如其对法律文本、原则、精神的理解一样,存在着大致的群体接近性。在漫长的法制史中,许许多多的优秀法官之所以青史留名,很大程度上不是因为其对法律本身的理解如何精深,而是因为其对人性的把握独到。例如,传说中的所罗门王曾设计与评判过“二妇争孩案”,面对此类案件,AI法官是否能和人类法官一样情理并用?目前,对于人类法官审判智慧与经验的归纳尚待时日,需要经验数据来“喂养”的AI法官短期之内更难言超越。尚处于萌芽的裁判人工智能是一个长期且极为耗费资源的工程,既需要更多既懂法律又懂人工智能的复合型人才人加入,也需要有海量能够供AI法官深度学习人类法官裁判过程中对情感、价值、态度的把握模式所需的数据与资料。以美国刑事司法中广泛实践的再犯风险评估技术为代表的裁判人工智能模式仍然只是一种统计型、经验型的弱人工智能,而中国当下的裁判人工智能偏向知识图谱式,更属于材料准备型、文字模板型的弱人工智能,效果有限甚至低效且适用范围窄。
另一方面,AI学习模式所必然导致的滞后性难以适应人类思维方式的变化。众所周知,人类的思维与认知是不断发展变化的,对于法律的认知亦不例外。而AI的学习模式是以模仿为基础,申言之,裁判人工智能像是嗷嗷待哺的婴儿,期盼着优秀数据、成熟算法进行模仿学习。但中国裁判人工智能的学习模式面临着两个突出的问题:其一是学习模式上,几乎没有成熟的算法模式,即或号称采取了知识图谱的半监督学习方式,其实际展开程度与产品成熟程度还处于较为“低幼”的状态,此种方式的显著特点是“有多少人工方有多少智能”:通过优秀专家归纳、总结法律规范、法律案例,将其转换为节点—边—节点的表示知识和事实的陈述语句,在此基础上应用统计学方法包括机器学习归纳、总结司法实践中的数据,并构建现实的裁判模型;其二是在学习基础上缺乏优质的数据供给,裁判人工智能产品既没有基于全样本,也没有重点研究优秀样本,这意味着作为基础的数据既不能代表平均值,也无法推断最优值。甚至,我们无法确定会不会出现人工智能经典的“垃圾(数据)进,垃圾(算法)出”的问题。在此基础上,以学习和模仿为基础的人工智能无法同步,更遑论超前人类的思维发展,甚至反而会阻断这种发展。一言以蔽之,即使AI法官具备了较强的学习能力,但面对学习对象的动态变化也可能束手无策。有学者便指出“法律的特征是深度不学习,在难以彻底还原事实真相时,仍需要由法官采取不学习的态度对案件作出终局裁决。”从这个意义上讲,法律的特性便与人工智能深度学习的发展模式相悖离。
(三)司法伦理障碍
其一,算法黑箱与司法的程序性、公开性理念的背离。人类法官决策是由一整套理性化、程序化、公开化的机制作为载体的,法官的裁判听取并依赖于当事人双方的举证、质证、辩论。程序正义是法官决策的基础,程序的公开、透明则是程序正义的基本要求之一。目前所有的AI法官似乎均缺乏一整套科学、公开、标准的程序机制来推行。相对于人类法官裁判而言,AI法官裁判的实践在程序、结果等方面既缺乏程序公正性,也没有显示出明显更优的实体公正性。实际上,谁来输入案件信息、输入什么信息,如何进行信息的分析,如何做出与人类法官裁判一样,甚至更好的判决,这些问题都还没有得到有说服力的回应。实践中展开的所谓预测性裁判或建议性裁判似乎只展示了一个简单的结论,而非一个有论证过程的理性证明。相反,诸如使用了何种算法,其运算逻辑如何展开,还往往沦为开发裁判智能产品的科技公司的保密知识产权,拒绝公开。同时,许多时候机器归纳的裁判模式、裁判标准可能连操控主体也难以理解,宛如“算法黑箱”,就如人类时常无法理解“AlphaGo”的围棋招式一样。最为关键的是,此种“算法黑箱”在现有技术条件下,难以通过可理解的方式予以解决,致使这一问题成为了司法上的“死结问题”。
其二,算法歧视与司法公正性理念的背离。作为AI法官技术基础的算法,是基于过去行为的判断,那么使用这种算法是否公正呢?有研究便指出,美国刑事司法系统中广泛使用的犯罪预测算法不仅不准确,还具有相当的歧视性,证据显示,黑人的再次犯罪风险更容易被高估,而白人的再次犯罪风险则更容易被低估。尽管种族本身并非生成这一风险评分的特征,但算法实际使用的特征(例如有关工作职位、家族犯罪史之类的信息)可能与种族密切相关。因此,根据COMPAS累犯评分来预测是否再次逮捕,可能产生带有种族偏见的结果,这种基于数据的预测似乎并不能充分保障决策的公正性。实际上,数据驱动的算法可能会强化和恶化社会中业已存在的不平等。
显然,现代社会对司法公正的期望往往挑战着AI法官。人类法官的思维差异难免反映在司法决策上。AI法官比人类法官能更客观地发挥作用吗?鉴于人工智能裁判所依据的数据基础往往可能存在偏见等问题,这一点难以判断。更重要的是,我们一般期待法庭判决能够详细推理,这恰好是AI法官的短板,其是“法律黑匣子”:输入指令,然后通过一个未知过程得到输出:即只是给出一个类似陪审团裁判的是或否的结论,而非一个长篇大论的判决书。这意味着受决策影响者难以知晓决策的形成根据,也剥夺了其表达意见的机会,而人类法官决策在受到质疑时,可以清楚地陈述作出决策的理由。
三、AI法官:路在何方
展望未来,司法领域还可能打造并使用优秀的裁判人工智能吗?事实上,尽管人工智能法学研究空前繁荣,但距离强人工智能时代的到来还尚有距离。笔者认为,无论是在我国,抑或是域外,AI法官均难以在中短期内得到普遍的运用。但是,其个中缘由却有所不同。
在域外尤其是美国,由于科技基础等因素,司法人工智能的研发进展较为前沿,也出现了诸如前文所提及的司法人工智能产品。但为何科技的尖端并未转化为运用的广泛?这或许反映出客观性因素并非是决定性作用,AI法官难以大规模运用更多源于理念性因素,即将人工智能运用于裁判活动的一种主观性反对。申言之,在域外国家的司法传统观念中,司法活动的公正性、专业性是由人类法官所独享的能力,技术的发展并不必然带来司法公正性与专业性的提升,反而会因为算法黑箱等不透明因素使得公正性因素大打折扣。正如有域外学者总结,基于正当程序标准与技术的审视,需要谨慎面对机器人取代人类法官并满足我们对可解释性和公平性期望的结论。
而在我国,更为重要的可能在于尚未开发研制出能够满足司法活动特殊需求的人工智能产品,在此种客观因素之外,不可否认的是我国当然也不乏对人工智能介入司法活动尤其是裁判活动的反对之音,但整体而言,法律界对于人工智能的接受程度是高于域外的,尤其是官方态度较为主动,这一点从司法机关频频举办或参与各种关于人工智能的研讨活动、与科技公司合作开发上便可见一斑。只是实际的人工智能产品适配性未能跟上这种热闹话语的步伐,才导致了在实践运用当中的“冷遇”。
当然,在难以普遍化运用的前提下,笔者也认为,在中国AI法官也许在非常有限的范围内,就相当有限的问题,在可以预见的时间范围内能有一席之地,但具体实施还要取决于下述相关问题的妥善解决。
(一)形成对于人工智能的合理预期
应当降低对裁判人工智能应用领域的预期。必须明确,类似预测或裁判的人工智能是目前技术上最为复杂的也是难以突破的。为何我国类案推送系统不太成功,就是因为区分、评判相似案件所要求的数据量、算法、模型构造需要人类法官和工程师的长期实践。在人工有限、智能不足的当下中国司法人工智能浪潮中,如果还要对裁判智能有所期待,笔者以为现实化应该是不二选择。如同“AlphaGo”适用于围棋这样规则清楚、边界明确、信息充分的场域一样,裁判人工智能的运用领域应当是信息客观性强、易于获得,同时案件事实清楚、处理法条清晰的简单案件,而对复杂、模糊案件的裁判仍需倚重法官们的专业智慧。具体而言,在刑事案件中,盗窃、抢劫、酒驾等案件较为适合运用人工智能,因为其比较倚重数据化的定罪、量刑标准,这可以为AI法官所收集、分析、建模并以“自动售货机”模式裁判。相反,职务犯罪、经济犯罪、杀人等案件的处理标准相对复杂、多样,往往还要对证据甄别,个案特殊性较强,因此应用人工智能必须谨慎。所以,在刑事司法领域AI法官难以大展身手。同样,民事裁判中最适宜的也是事实清楚、规则明确简单、算法可以识别、总结和建模的案件(例如道交案件、民间借贷等)。相反,规则复杂多样、事实有争议、算法难以成功总结、建模的案件,AI法官也难以胜任。
(二)多层面推动法律人工智能技术发展
1.数据层面
应当首先解决裁判智能产品的前提—数据问题。诸如COMPAS这样的智能量刑软件,为何我们尚未打造出来?这当然与裁判人工智能在我国依然缺乏可以信赖的充分数据有关。显然,我们在如何辨识、提取和总结法律数据方面存在严重的认知困难。机器识别自然语言已属不易,识别法律专业术语更是难上加难。面对法律,主流方法如无监督学习效果不甚理想,必须使用人工方式筛选、清洗与分类法律数据。同时,当下不少所谓的法律科技公司或研究团队严重依赖自己事先假定的知识图谱来提取、印证规范化的裁判模式,其打造的裁判模式可能严重脱离实践模式。实际上,笔者率领的团队也在做着裁判文书的识别、提取等工作。我们发现,稍微复杂的文书识别往往极其困难,因为机器识别在抽取多样、微妙的语言时经常出错,从而影响到大样本材料提取的准确性,最终给出误差很大甚至错误的解读。由此,裁判模式的建模往往会是错误百出的。为了解决这一问题,人类的反复、深度介入在所难免。或许,当务之急是如何找到好的方法,方便机器识别、学习法律数据。这需要在实践中摸索,按照以下主要路径逐步予以解决:
其一,解决获取司法数据不全的问题。谋求对中国法律运行情况的充分认识,如果仅仅依靠裁判文书网上的大数据或其他公开渠道上的信息,甚至内部全样本数据库,是不科学的。因为这些数据可能具有结构性缺陷、并不关键、与真实情况背离。我们需要学会在数据有限甚至失真的前提下,探索成功的代表性研究,包括结合局部数据形成整体性结论,印证大数据研究的结论。
其二,透过法律数据具有的“表象性”,发现实质性的关键所在。这种“表象性”是指,法院、法官在决策时所真正采用的“实质信息”并未充分以裁判文书等公开的文字化方式表现出来。当下,纸面上形式真实的法律信息与实践中实质真实的法律信息之间的鸿沟难以为法律人工智能充分归纳,如若不能识别出人类裁判的真实理由、普遍标准,则难以得出真正有效的裁判模式。对此,因应之道便是在数据之外,通过社会调查等方式,把握司法决策的要害所在,并将之嵌入裁判模式,用实践数据来评估、调整其权重,最终打造真实、有效的裁判产品。
其三,正确处理法律数据的主观性、复杂化问题。司法裁决难以避免地具有意识形态色彩,这意味着司法判决及其依据都具有很强的主体性、主观性。在中国,这典型表现在“同案不同判”方面。不同法官对于同一法律问题往往有着不同的看法与见解。在一些所谓的“疑难”案件中,更是如此。法律人工智能如何区分、提炼出何种裁判模式及其适用范围?
2.算法层面
打造成功、有效的裁判算法和研究方式,不过度依赖知识图谱式的裁判人工智能算法和研究方法。从实践来看,一些法律人和法律科技公司并未做过实证研究,统计学方法的应用阙如,也没有证据显示其做过法律领域的机器学习研究。所谓的知识图谱应用,似乎多在于对立法的解读,而缺少对实践数据的挖掘、建模。而在域外的机器人裁判实践中,我们可以发现对实践数据普遍的统计学方法乃至机器学习方式的使用,法律机器学习的论文常见于高级别的自然科学刊物。换言之,对裁判模式的发现、建模一定离不开基于实践数据的统计学或机器学习方法。然而,中国裁判人工智能的实践中我们始终难以见到类似的研究与使用。由此,我们或许可以大胆断定:不擅用实践数据的算法可能是中国裁判人工智能实践的一种通病。因此,抛弃带有传统的法教义学色彩的法律人工智能研究方式、裁判模型的生产机制,转而打造面向实践的、统计式的、机器学习介入的研究范式、裁判模型机制,将成为裁判人工智能能否在中国成功运用的关键。
(三)构建适配的司法伦理规则
其一,解决AI法官运行机制的公正性问题。这一点是域外学者、实务者关注且努力解决的问题。尽管裁判类人工智能研究开始尝试,但实际应用会有什么样的机制来保障?如何赋予其程序正当性?这是未来实际使用裁判人工智能的关键。笔者认为,应该积极思考如何打造与人类法官审判既有共性也有差异性的程序机制。具体而言,在差异性方面,应当认知AI法官在审判效率上的技术优势,其能在极短时间内处理海量的数据信息,较之人类的信息处理能力具有无可比拟的优势,因此,对其并不能苛求要采取和人类法官完全一致的理念或方式。但另一方面,也要确保裁判智能应用程序与人类法官在审判公正上的一致性。换言之,除了追求AI法官的高效处理能力之外,也应杜绝其可能出现的歧视性,而这需要在决策之前便进行公正性的考察,即对数据挖掘过程、算法训练过程进行公正性验证,并建立起相应的事后修正机制,从事前监管与事后修正两个角度确保AI法官裁判的公正性。
其二,解决算法的公开性(透明性)问题。关于透明性,有学者主张,一方面应该确定人工智能的可能应用以及算法在司法系统中的应用所引起的所有潜在问题,由来自IT、法学、社会学、工程学等众多学科的专家建立团队,全面评估AI系统可能对社会产生的影响。相应的,在大范围内尽可能有效地制定标准,这些团队应该相互沟通。讨论这些问题的前提是法律人了解这些工具是如何从数据输入、处理和计算到预测输出的。另一方面是打开法律黑匣子,让软件开发公司披露这些评估工具的有关代码,同时只让司法机构负责管控这些法律软件,让其能够在决策过程中可以依赖人工智能。
结 语
人类曾经无数次预测甚至恐惧智能机器终将取代自己。在当代,面对人工智能技术的迅速、长期发展,即使以保守为标签的法律行业、法律人也难以熟视无睹,很难抑制将其引入到司法活动中的热情。但是,在不抹杀这种对待新生事物的满腔热忱之外,在中国,不可不警惕的危险是:我们既可能高估了法律人工智能到来的成熟性、快速性,同时也低估了将权力转让AI法官可能意味着的人类良好裁判能力的消减,而这似乎有悖于我们将AI引入到司法领域的初衷。有鉴于此,尽管不具有当下的现实性,但对于我国AI法官未来可能的运用前景,笔者的看法是:既不确定,也需要持有谨慎的态度。即或在条件变化的远景下,可能也只能“试着来”。未来已来了吗?就让未来告诉未来吧。
End
相关阅读
1.曹建峰、胡锦浩|伦理即服务:科技伦理与可信AI的下一个浪潮
商品书目
微信号 : DigitalLaw_ECUPL
探寻数字法治逻辑
展望数字正义图景
数字法治战略合作伙伴:理财魔方
北京市竞天公诚律师事务所上海分所