查看原文
其他

Vol.251 吴习彧:司法裁判人工智能化的可能性及问题 | 人工智能与法律推理

法律思想 2022-03-20

The following article is from 法律和社会科学

司法裁判人工智能化的可能性及问题




作者 | 吴习彧

浙江工业大学法学院讲师



提示

 

原文载于《浙江社会科学》2017年04期

为便于阅读略去本文脚注,感谢吴习老师授权法思公号推送本文






自1970年Buchanan与Headrick发表《关于人工智能和法律推理若干问题的考察》一文以来,尝试以人工智能化的方式理解、模拟法律论证和推理,已渐成为热点研究。在人工智能化的支持者们看来,虽然人脑和计算机在结构和机制上全然不同,但在某一抽象层次上具有相通的功能表述。其理论基础源于以抽象原理(包括定律、规则、程序等)系统表述客观现实世界经验的自信:所有的理解都可由形成和操作恰当的表述方式组成。大脑和恰当编程的计算机在这一层次上可被视为试图寻找到这些表述方式的两个不同特例,通过形式规则来生成操作符号并指导智能行为。此类操作符号的计算机会帮助使用者更好地理解和使用法律,甚至会通过一个更合理的方法来完成定罪量刑,就如同韦伯口中的那台自动售货机。那么,司法裁判真有可能被人工智能所取代吗? 

马克斯·韦伯

《论经济与社会中的法律》

张乃根 译

中国大百科全书出版社,1998  



司法裁判人工智能化的智识准备:

对裁判认知的拆解和实验


这个问题的答案,类似于如何将计算机打造成一个智能化代理人(intelligent agents),首先必须使机器具备“辨识”个案的能力,才能逐步完成后续的司法难题。而这恰恰是人工智能最为薄弱的环节。让计算机瞬间算出十位数乘法非常简单,但是要让其辨识一个案件是民事还是刑事案件却非常困难,因为决定人机差异的并不是思考的速度,而是思考的质量。

如何让机器利用自然语言处理能力去理解案件文本,并评估案件中所有可能的含义,是实现司法裁判人工智能化的关键,也是连接现实应用与计算机科学技术的核心所在。在司法实践中,法官需要采用区分技术来分析已有的案例与手头案件的相关程度,但这种区分技术却又总是难以言说的模糊状态。对于人工智能的设计者来说,给计算机编程就相当于告诉一个从未接触过司法裁判工作的新手:为什么两个案件之间是存在关联(差异)?他们的联系(差异点)是什么?即在信息处理阶段,必须将计算机模型调试到可以满足对个案进行辨识的信息处理要求,再设计出相应的程序来完成数据输入和数据输出时的知识展现问题。一旦能够完成信息处理工作,那么接下来使用特定的语法结构和数据来处理这些工作就会顺利很多。


(一)人工智能与法律形式主义的辨析

在思考计算机和法律的关系时,传统的路径都默认指向了高度的形式主义:当在机器中输入一个特定的案情,机器就能根据规则进行数据运算和推理,设计论证和解释,并给出裁判结果。这和“自动售货机”式的形式主义理论不谋而合。因为法律形式主义强调“法律推理应该依据客观事实、明确的规则以及逻辑去解决一切为法律所要求的具体行为。假如法律能如此运作,那么无论谁作裁决,法律推理都会导向同样的裁决。”假使“如果P则Q”的逻辑构想能将法律完全简化成几何公式的话,意味着在设计机器语言时只要遵守法律推理的逻辑,便可以得出和法官一样的判决结果。

史蒂文·J·伯顿 

《法律和法律推理导论》

张志铭、解兴权 译

中国政法大学出版社,1998 


只不过这种闭合式的法律推理观建立在一个极为机械、有限的视角上,暗含了要求法官不以个人判断影响法律推理活动的要求,并同时忽略了在司法裁判中首先要解决的几个问题:1、识别:案件事实中的哪些因素应该或可以被机器识别为影响裁判考量的“因子”;2、裁量:这些因子在最终的裁判结果中应该如何安排相应的权重系数?

因为看似闭合的规则体系其实只具有暂时的正确性,当场景或条件发生变化后,这套规则就会被多种“外来”的因素推翻(这些因素却可能会成为法官裁量时的重要因子)。这和一些特定领域内的技术性任务,如下棋不太一样,后者可以使用语义界定较好,范围固定的术语。但要让计算机程序去理解人类语言,并作出认知和推理则比较困难。这种复杂性成因源自于在司法裁判的的法律推理过程中,需要对原有规则中定义不严密、含义开放的概念,以及由于更多的新知识出现后,而使得原有相对单一性的规则发生变化等情况分别做出识别和处理。整个过程中就涵盖了多种认知技能,如评判事实、条文解读、类比推理以及辩证思考。而计算机在理解、识别案情以及裁决等方面都存在着缺陷。

可以通过一个简单的案例来说明这种分析路线的复杂性。

在某医疗纠纷案件中,患者因术后病情复发而起诉医院,认为医院在手术过程中存在过错。从医疗侵权的证据规则上来看,由于实行的是推定过错责任制度,只要医院无法完成举证责任,就将承担败诉的结果,逻辑和规则看似都相当清晰。但如果,院方随后举证:

患者本人的身体体征过于特殊,因而导致了病情复发。

在此院方根据自己的操作经验提出了看法,认为“病人本人的身体特征”可以是阻断过错认定的要素,这个反驳要素在法律字面规则上并没有体现,但需要没有医疗专业知识背景的法官去衡量这种因素的可能性。再请看:

院方提出的一位专家证人出庭作证说:

该病症在临床上罕见,术后易复发,据临床文献报导显示复发率为43%。

如果说前一个因素是从经验出发,那么这个辩驳则是诉诸于“科学化的临床统计材料”。法官要解决的问题便是这两个因素是否具有说服力,是否可以认定为阻断医院具有过错的介入因素,如果可以,又该如何给这两个证据分配在推理过程中相应的权重系数。作为“法官”的人工智能首先需要面对证据的筛选工作,判断哪些信息、以什么方式可以提交给解决事实争议的数据处理系统,然后再以一个“判断会计师”的基本形象,将所有与案情判断有关的信息换算成数字,来表示每一项证据的推论含义,以及需要赋予的重要性,最后再通过某种加权计算公式来得出最终的结果。即使机器可以完成前序的证据筛选工作(或由人工来代替筛选工作),但由此引发的进一步质疑是,将法官的思考过程用代数算法来表示是否可行,以及应选用哪种方程式来合并这些数值?如果人工智能在设计机器语言时解决不了这两个问题,后续的工作就很难展开。


(二)机器“认知”的短板:如何理解和评估案件

人工智能化的司法裁判需要模拟的是,当法官在面对审判信息而做出的认知策略。需要注意的是,当法官参与到一个案件过程中时,其对事实的理解是一个活跃的重新构造理解过程。因为在这个过程里,法官会根据庭审过程中所接收到的信息,进行组织、发挥和再解释。我们可以通过下列假设陈述来阐明这一过程的复杂性:

“众人参加甲的生日聚会。当所有人都到场的时候,大家开始唱生日歌,甲开心地吹灭了蜡烛。”

当多数人听到这段描述时,都会自然而然地推断出,在生日晚会上有个蛋糕。我们推断出有蛋糕,是基于对生日晚会传统的经验性理解(因为蜡烛只可能出现在某样东西的上面)。但对于机器来说,这个过程就很难实现,因为上述语句中并没有出现“蛋糕”的字样。这就好比我们在日常开车时,如遇见交警在路边举手示意时,会直觉性地意识到自己可能违反了某项交通规则一样,判断的根据来自于对警察的权力、通用的手势等这些文化背景的了解。但如果是一辆自动驾驶的车辆,便会对这种现象“疑惑不解”或“视而不见”。

认识到构造性的理解在现实的法律审判情境中意义重大。因为一方面,数量众多的证据都是在几天内集中呈现出来;其次,这些证据通常都是以不连贯、碎片化的方式出现:不同的证人也许就一连串事件中的不同部分作证,不同的物证就案件中的不同事实证明而出现,这些证据的出示并不可能按时间或者因果顺序进行系统地排列。于是才会出现控辩双方就这些证据提出特属于自己的“案情理解模式”。法官需要在这些互相竞争的“案情理解模式”中选择可信的一方,或者凭借着自己的经验和知识,做出自己的理解。

确定哪个证据相关,取决于对证据事实中因果关系的解释,案情中相关证据的提取、事件的推断、及其因果关系的连接,是以生活经验、知识为背景,对证据所作的多种演绎推理和逻辑推理的结果。正是因为法官会构造不同的案情理解模式,因而会进一步影响到对案件的识别过程。

当然,法官根据所出示的证据,所构想出来的案情理解模式可能不止一个,然而通常只有一个理解模式会被认为是“最佳”。哪一个会被识别为“最佳”取决于法官对于该案情理解模式的信任程度,或者说是案情的可接受程度。这同样是人工智能难以逾越的障碍之一。如当有证人作证,“犯罪嫌疑人在案发当时随着携带有刀具”,类似的表述会立即让法官加强被告有罪的信念。但如果有证据显示,“犯罪嫌疑人的职业是生鲜鱼类的贩商,因此所携带的刀具其实是一把剖鱼刀”,则又会使法官减弱被告有罪的信念。也就是说,证据在被用于判断之前,是经过法官组织、阐述和解读的。

法官会依据自己对案情的理解模式,以及该模式对证据的涵摄程度,作出对审判过程中所出示证据的“识别”。其中连贯性、可能性和完整性是影响证据识别过程的重要指标。连贯性体现在被筛选出的证据中,是否存在内在矛盾;可能性体现在此类案情理解模式是否与裁判者的认知产生矛盾;而完整性则体现在筛选出的证据是否能组合成法官所预期的案情理解模式中的所有部分,如果有一个或多个成分信息的缺失,就会降低原案情理解的可信度。对这三种成分的评估将会组合起来产生对一个“最佳”案情的识别。

机器不仅在理解案情方面存在“认知”短板,而且在裁判能力上也有缺陷。法官在进行判决时所接收的指示信息往往都是非常抽象的,且十分冷僻的专业性词汇,如刑事责任能力、故意与过失等。这些抽象的要件通常是关于行为人精神状态、犯罪环境条件以及构成犯罪的行为来进行罗列和表述。从认知的角度来看,这是一个将之前接收到的案情与判决范畴要件进行鉴别、匹配和归类的过程。机器之所以在这个阶段也难以发挥其数据处理的优势在于,这些犯罪要件,如对动机、行为、精神状态的追问,包括整个罪名叙述,其实都与人类社会对于行为序列的一般性描述有关。它是以人类认知的模式进行组织,而非以机器语言进行描述。

除了涉及到上述在法律层面的复杂性以外,司法裁判的另一特点就是其社会影响力:个案中涉及的利益、情感以及最终的裁判结果,都会影响到整个社会对司法工作人员的整体印象,以及社会对司法系统的看法。法官在做决定时,极少能顺着一条单一的推理模式做出判断,很可能要反复思考、权衡各种因子及其权重系数,来最终得出一个他认为合理的结论。很多审判中(尤其在刑事审判)其实暗含着法律与政治交叉的背景和目的。因此人工智能的设计思路不应仅只追求审判活动表面的统一化,而是要协助法官(如根据刑罚的几类经典目的:报复、威慑、预防和恢复)去权衡统一。即使一位非常职业的法官也可能会错判,或是结果对而推理有问题。尤其在涉及法官裁判中的定量部分,就更难以和其他案件做对比,公众不买账,认为裁判不公的关键的问题是:为什么会同案不同判?不同判是否意味着这些案子就是判错了呢?一个可能的解释是,这些案件运用了不同的裁判进路:报复性、威慑性、预防性、恢复性(指罪犯的悔过自新)都是几个比较重要的点。不同的法官着眼点不一样,因此也会得出不同的结果。

司法活动的这些特点表明对它的研究应采取谨慎的态度。人工智能想要介入的前提要件是通过运算法则将司法裁判工作精确模型化,这个过程极为复杂:因为没有一项法律推理会比法官的裁判工作更考验能力。司法裁判往往需要判断证据的可采性、评价证据的证明力度、解读法律条文及其他规范性文件的含义和目的,尤其是在刑事案件中,要在惩罚和怜悯之间权衡。如此知识覆盖面大、技术含量高的工作,人工智能难以胜任。




司法裁判智能化辅助系统的展开:

要素约简算法以及案件相似度匹配


虽然人工智能项目在取代法官裁量推理这个领域的野心很大,但就目前人工智能技术的发展状况来看,还不能完全实现此类(裁判)的模拟。况且,很多人,包括计算机科学家、法学家和民众并不打算让计算机系统完全、独立地取代法官的工作。研究者也意识到使用僵硬的计算机模型去取代司法裁量权可能过于冒进,与其打造一个不可能实现(又或许是梦魇)的“自动化”法官,不如寻求建立一个实用性工具来支持和协助司法活动,或者建立一个新式的分析工具来帮助理解和模型化司法决策。因此一个智能化的审判体系不是要取代法官,而是要为法官提供更多可供参考的意见。这种新型的裁判辅助模式是通过要素分割的路径来解决人脑知识和记忆的有限性,代之以人工智能的检索能力来解放法官(律师)的脑力劳动。

Anne von der Lieth Gardner

An Artificial Intelligence Approach to Legal Reasoning

The MIT Press, 1987


(一)ASSYST系统

ASSYST系统的主要功能是根据美国联邦量刑指南帮助决策者挑选出有参考价值的信息,而并非代替法官决策。其数据库涵盖了基层法院,高级法院以及英属哥伦比亚上诉法院。其交互界面和功能性菜单大致可以完成如下操作:

1.系统用户可以从列表中选择合适的法律领域。

2.用户将从违法行为列表中选定一个行为。

3.用户对该违法行为进行简单的描述。如抢劫:年龄范围,是否使用枪械以及是否有犯罪记录。

在经过上述案情描述后,用户(法官)可以选择下列任何一种方式:

1.用户可以查阅在数据库中所有符合案情描述的图表,并根据列表查阅个案情况。

2.也可以查阅英属哥伦比亚上诉法院的所有或相关判决。这些案件将会是以裁判的种类来进行区分检索的。

3.系统也允许用户根据加重情节或减轻情节进行检索。

4.用户还可以查阅英属哥伦比亚上诉法院判决中有关适用裁量权的原则或具体情节。


(二)SIS系统

审判信息系统(Sentencing Information System,简称SIS)建立的初始目标是:“通过信息的分类处理来推动审判的连续性与一致性”,并认为“提供法庭审判案件的数据信息会比审判委员会或是发展一套审判手册更易于保证审判的一致”。

与ASSYST系统类似,用户在使用该系统时需要输入以下几类信息:

1.审判法院(基层或高级法院)

2.适用的法案,章节数或是主要犯罪行为特点

3.其他犯罪行为是否已被吸收进主要犯罪行为中。

4.主要犯罪行为数

5.之前的犯罪记录

6.行为人是否处于假释期

7.辩诉交易

8.行为人年龄

然后系统会在输出端给出具体的数据统计信息。之前的犯罪记录是以下列四种方式呈现:(1)没有犯罪记录;(2)没有作为主犯的犯罪记录;(3)至少有一次犯罪记录;(4)至少有一次犯罪记录,并被收监。而犯罪类型则按照以下几种方式陈列:(1)毒品犯罪;(2)性犯罪;(3)欺诈;(4)财产犯罪;(5)人身侵害;(6)驾驶类犯罪;(7)违反监狱管理/越狱。


(三)辅助系统的取巧与问题

可以看出,裁判智能辅助系统的设计思路其实是将案件拆解成不同的要素(Dimension),再以不同的运算法则,如补充、删减和改变事实中不同要素的方法来生成假设,并将此假设再与新的案件进行比较论证。即在机器语言视角下的法官裁判过程就应该是:

1、对目前手头待解决的案例事实特征进行归纳,如将案例中的特征归纳为a、b、c;

2、查询裁判辅助系统中可以成功匹配要素的案件,比对手头案件与指导案件中的特征,如果手头案件中涵盖有上述的特征,则待决案件也应适用系统中同样的规则(原则)P。

此类程序设计办法旨在为用户(法官)提供一系列过往类似案件的裁判信息,允许法官了解他正处理的案件的相关特定信息,同时也会列出法院以前通过的类似范围案件的处罚。因此,从形式上来说,一个裁判智能辅助信息系统是描述性而非规范性的:它不会包含审判者在特定案件中应该怎样用这些信息来帮助做出判决的内容,而是以技术优势给法官提供某个特定案件的“平均裁判水平”,以便法官能够根据数据库中的数值对自己手头的案件做出初步的估计。

不过,制约此类系统发挥作用的因素也有很多,如系统中数据的多种变量因素的无序组合方式,即是容易被诟病的问题:“所谓的犯罪记录肯定是按照以下几个因素来定义的:(1)前犯的次数;(2)最近一次违法的时间;(3)以前的犯罪记录中是否有使用过暴力;(4)从第一次犯罪到现在的时间跨度;(5)本次犯罪行为是否比之前犯罪更严重;(6)犯罪人最近所判刑的性质及轻重情况等,这些因素虽然看上去很简单,但若仔细揣摩,光是这六种变量就有接近700多种的组合方式,那究竟该如何理解犯罪记录呢?”

在每一个案件中类似于像犯罪记录这样的变量参数会有很多,这些参数的组合甚至可多达近万种。对于一个法官来说,如果想要用好这个系统,起步工作就必须熟悉数字形式的信息,并分配好这些参数的量级,如此庞大的工程量会使每一个法官望而却步。其次,统计数据必须是要在相似案件中才能发挥作用,如果能做到匹配的类似案件可能会非常少,那就意味着数据库中的统计数据意义就不会很明显了。

虽然裁判辅助系统试图为司法裁判提供参考,但从“接收信息的法官会如何将该信息与自己手头的案件进行匹配适用”这个过程中,就可以看出人脑思维和计算机工作原理的区别:对于电脑来说,就必须按照一个一个的细节来进行匹配分析:对于一个统计型的数据库来说,特别是存在着庞大的变量因素时,如果需要用户(法官)自行对犯罪行为中的多个事实情况进行拆分评估,就极容易“造成和掩盖系统的前后不一致性”。而对于人脑来说,理解案件是一个全观性的工作,相较于机器提前化的要素分类方法,人类在处理识别案件差异化的能力水平是有优势的。因为当机器在处理案件要素时认为一个案件可以有意义地分裂成各种分离和抽象的独立因素时,不可避免地要否认案件中信息间的关联意义。例如在处理累犯案件时,机器的分析方法会尽力分开记录每一个定罪,或者,只是记录某一个主要定罪。但是,这似乎并不是法官考虑案件的方式。在考虑判决的过程中,法官似乎并不愿意只对多次犯罪记录的指控做出考量,而是会将犯罪行为与其社会背景等因素结合起来,以故事推演的模式来综合权衡。

进一步的问题是,为了被归类或者联系到一个典型的情形时,个别情况就必须被视为“类似”(案件)并对应于某一种类型。这其实并不能解决司法自由裁量权的问题,因为当法官判定案件是否与另一案件类似或案件是否与某一类型相符时,就会使用这种自由裁量权。我们只是可以承认,无论如何都可能存在有效的人工智能化方法来使法官的判刑合理化。然而真正的危险是这可能消除了法官的自由裁量权,而不是使其合理化。




知识的表达与理解如何更有效率:

司法裁判是否真的需要人工智能化?


“司法裁判是否需要人工智能化”与“司法裁判是否可能人工智能化”是两个问题,后者是可以脱离现实的智力试验挑战,研发的目标也许只是想看看智能技术在与法学结合的道路上能走多远。但如果我们的目标是创造出一个可操作、具有实用价值的系统,就有必要了解系统使用者(法官和律师群体)的需求,仔细考虑前者问题。

一名法官为何要自寻烦恼,去根据这套复杂的咨询系统来进行排列组合,而不自己直接进行判罚?法官是否有从系统中获取裁判信息的强烈需求?他们是否清楚地意识到这个系统有存在的必要?这不是提供一些技术解决方案并且“天真”地期待它能自我运转那么简单。不关注法官的现实需求,而仅凭“为司法裁判提供参考,提高裁判的精确性”之类的冠冕旗号,将可能成为研发失败教训的注解。

首先,即使这套系统在技术上趋于完美,并可运用于实践的话,一些法官必然会将其视为对独立权力的威胁。法官们在历史上已经表现出对于那些企图影响他们自由裁量权因素的敏感度,因而也可以推定强加给他们某个电脑决策支持系统的态度。抵触、不接受的态度势必会成为项目实施的不利影响;而且,这些系统会对法官的专业身份造成负面影响,触发公众,或是行政官员像审查报表一般来挑战法官的职业操守,引发尴尬。除非法官们自愿拒绝自由裁量带来的决断空间,建议用一套流水线式的工作规则来完全代替他们的判决。这可能出于面对大量增加的工作压力和有限的预算及人员支持,因而不得不开发出一种新的,资源消耗较少的架构体系,以便加快进程,让法庭能尽快处理下个案件。在这种需求背景下,原被告所揭示的多样化社会问题才会被压缩分类到不同的流水线上。

其次,了解真正指导审判权威性的根源所在,或许才是解答此类系统能否真正发挥实效的决定性因素。如果审判的权威性是来自于上级法院或是其他主体,那么法官也就无需重视其他平级(或下级)法院的判决数据。法官甚至不认为有关注这类信息的必要。因为他们毕竟生活在一个需要关注现有实践但却又没有奖励回报的工作环境中。在一个倡导司法是为社会管理而服务的体系模式下,当法官们仅仅被视为立法等机关意志的技术实现者,便意味着法官不太可能与立法者、行政部门的意愿经常产生分歧。如果不能强制法官对此信息系统加以关注,也难怪法官会产生对这类信息的冷漠。因此试图利用数据来规范法官的裁量行为,表面上看起来非常新颖,但事实上却存在误导和空想的可能性。类似于像裁判辅助系统的形式,如果仅仅只是作为司法体系内部同行之间的交流,或许是件好事,但未必会受到欢迎。




结语


虽然试图将法官的推理过程简化至一个单纯的逻辑模型(simple logical models)的想法并不现实。不过,这样一种研究路径并不是毫无意义,相反,对于法律与人工智能研究来说还具有方法论的启发意义。因为编制、模拟有关司法裁判思维活动的程序,将某种思维程序送进计算机运行,检验正确性,这样一种思想实验可使“外行人”得以借助人工智能科学的敏锐透镜去考察法律推理的微观机制,加深对此类思维活动具体细节的了解。故“一个成功的专家系统很可能比其他的途径对法理学作出更多的(理论)贡献。” 司法智能化的历史,既说明了法律在与人工智能化结合过程中的难点,也提供了诸多就目前学科知识所能提供的解决方法。许多精密化的模型和技术,如案例推理技术(case-based reasoning)、正式逻辑辩证(formal dialectics)、理论建构(theory construction)、神经网络(neural networks)、论证与协商(formal argumentation and negotiation)、智能化文书起草(intelligent document assembly)、司法裁量权辅助系统等都借用了人工智能的敏锐透镜直接或间接解释了法律推理的过程,促进对了法律问题更系统的研究。

但依然需要强调的是智识上的挑战,未必适合于转化为大量实践的可能性和需求性。人工智能一直将模仿人类的认知过程——观察、学习、组织语言、处理数据并最终得出结论——作为重点研发技术路线。但在处理司法裁判问题上,也许分析法律问题产生的社会环境会比模拟人的思维过程重要的多。很多时候法官在面对案件时会花费大量的时间为搞清楚问题是什么上,他们的需求会远不止“请帮我找到某法律第几条”这么简单。因为如何去分析和理解问题才是关键。至于究竟运用何种技术(电脑还是人脑)去解决,相对并不那么重要。










法律思想





本文系“人工智能与法律推理 ”第6期

感谢您的阅读  欢迎关注并分享




往期推荐 | 法律与语言专题

Vol.169   熊明辉:论法律逻辑中的推论规则| 规范逻辑专题

Vol.171   王洪:法律逻辑研究的主要趋向| 规范逻辑专题

Vol.172   陈锐:规范逻辑是否可能| 规范逻辑专题

Vol.173.1   雷磊:走出“约根森困境”?(上)| 规范逻辑专题

Vol.173.2   雷磊:走出“约根森困境”?(下)| 规范逻辑专题


更多专题 关注我们

 →法思百期精选:Vol 101.2【法思】百期特辑

 →教师节专题:Vol.216 法思专题索引






法律思想|中国政法大学法理学研究所

微信ID:lawthinkers

邮箱:lawthinkers@126.com

法律思想,每周一三五19:00为您推送


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存