聂友伦: 人工智能司法的三重矛盾
人工智能司法的三重矛盾
摘要:目前主流人工智能司法属于“数据驱动”类型,其试图从海量司法数据中发现相关性并形成算法模型,以之预测待决案件的结果。人工智能司法的理论预设为“基于充分数据,通过科学算法,确保结果公正”。然而,预设与现实之间的差距巨大,人工智能司法的技术逻辑在数据、算法与结果各层面都存在足以使其断裂的矛盾:第一,样本的结构性缺失、潜在因素的标记不足、低质数据的大量存在,不能满足作为技术前提的数据充分性要求;第二,虚假相关的无法排除、算法歧视的隐性生成、预测结果的不特定性,使得算法模型难以获得科学性保证;第三,价值判断的被动失效、先例数据的隐含错误、地方差异的强行拉平,构成了结果非公正性的来源,严重降低了实践应用的可接受度。以上矛盾形成了人工智能司法自我拆解的离心力。未来人工智能司法的发展重点应被置于提高算法模型的可解释性方面。
关键词:人工智能;矛盾;相关关系;正当性;可解释性
来源:浙江工商大学学报, 2022年第2期
聂友伦:华东师范大学法学院副教授,法学博士,主要从事刑事诉讼法、司法制度研究。
引言
梦想照进现实。20世纪80年代被认为“泡沫已破”的人工智能,在大数据技术与机器学习算法的加持下,重回历史舞台。时至今日,形形色色的人工智能逐渐融入社会生活的方方面面,连以彰显客观理性为著称的司法场域也概莫能外。典型的智能化司法系统,包括用以评估犯罪者社会危险性的LS/CMI与COMPAS、针对轻微犯罪提出量刑与处理建议的HART、致力于民商事在线争端解决的MODRIA等。在政策推动的背景下,我国部分省市的司法机关也研发出了功能各异的司法人工智能,如上海的“刑事案件智能辅助办案系统”、北京的“睿法官”智能研判系统、河北的“智审”审判辅助系统、浙江的“凤凰金融智审”智慧庭审平台等。
不同于过去基于神经网络建模等模拟法律推理输出结论的智能化系统,当下的司法人工智能主要依托大数据展开。随着信息技术的发展,数据变得容易获取与便于储存,通过机器学习算法对既有海量数据加以运算,可以发现不同因素之间存在的相关关系,进而,基于已知条件自动预测未知结论的梦想便重新具有了实现的曙光。大数据人工智能在商业领域的成功应用,激发了政治实体以相应技术推进与完善社会治理的愿景。就司法领域而言,大数据人工智能将由如下方式制造:将自然语言处理后的司法数据输入机器学习算法,然后通过监督学习、半监督学习等模式分析相关性,得出一种或多种预测司法决策的模型。在获得相应模型后,司法人员只需输入待决案件的各类数据,系统即可输出预测性的决策结论供其参考。此后,若有实际的司法决定作出,则将该决定反馈至模型,供算法实现进一步优化(见图1)。
人工智能司法的理论预设可扼要归结为:基于充分数据,通过科学算法,确保结果公正。其中,数据的充分性是前提,算法的科学性是保证,结果的公正性是重要的正当性来源。虽然韦伯式“法律自动售货机”在技术上已并非不可能,但“售货机”出售的“商品”质量如何、能否满足“顾客”的需求,仍是悬而未决的问题。由于技术的障碍与应用的克制,目前投入实用的司法人工智能仅被定位为提供参考结论(如社会危险性预测、量刑预测)的辅助工具,但辅助性宣称不足以强化技术应用的可接受性——若理论预设存在罅漏,则辅助价值也要打一个问号。在司法人工智能技术的逻辑链条中,任何一环出现断裂都可能导致整个系统的宕机甚至崩溃。矛盾潜藏于梦想与现实之间,理论预设的成立不代表实际情况如同预计。在笔者看来,无论是数据、算法还是结果,在实践中都体现出了人工智能司法本身的悖反性特质——数据是伪充分的,算法是不科学的,结果难言完全公正。凡此三重矛盾,皆会形成人工智能司法自我拆解的离心力。通过现象阐释,揭示人工智能司法存在的本体性问题,一并探讨其在未来的发展方向,即是本文写作的目的。
一、数据的充分性与伪充分性
较之以往依靠显式编码、封闭规则的“模拟推理型”司法人工智能,目前主流在研及实际应用的司法人工智能已经转向基于大数据训练分析的“数据驱动型”。在数据驱动型的技术路线中,数据是作为出发点存在的,司法人工智能需要从过往大量数据中发现相关性,以此构建模型并适用于未来。以量刑预测为例,刑事审判涉及的任何事实性因素都可能对量刑结果产生影响,但究竟哪些因素是真实变量、不同因素的权重如何,却隐藏于数据之中。欲构建智能化量刑系统,就必须先抽取有效刑事判决所载因素并予以量化,再按照不同案由进行分类,形成个罪量刑预测的训练集、验证集与测试集,继而输入算法进行机器学习,最终经过不断调参与评估得到包含各影响因素及其权重的量刑预测模型。
算法模型的准确度很大程度上取决于供其学习的数据规模,数据越充分,模型表现越佳 。申言之,只有让机器在足够充分的数据中学习,人工智能司法的算法模型才可能获得相当的效度与信度。虽然无法给作为程度指标的数据充分性划定明确标准,但仍存在三个可供判断的维度。第一,案件样本要足够大,以全样本为最优。为得到准确的算法模型,应尽量对所有信息加以考虑,否则可能出现完整性问题——残缺模型对原始样本与集体经验的隐性肢解往往导致建模失去意义。第二,因素标记要足够全,尽量降低主观影响。由于无法一开始划定与司法决定存在相关性的因素,单凭经验对因素进行人为标记可能排除某些真实变量,致使模型的可靠性减损。此外,一些潜在的影响因素如上级干预、媒体介入等未在样本中得到反映,也会导致标记的不充分。第三,数据质量要足够高。只有优质的数据才能训练出准确的模型。但是,从大样本中提取的司法数据,其质量很难完全得到控制:一方面,数据多以司法文书为中介加以反映,多一个环节便多一层风险;另一方面,某些政策及随之而来的“运动式治理”往往使特定司法决定偏离正常范围,难免批量制造出无法作为经验基础的数据。
当前人工智能的技术突破得益于大规模数据收集与贮存技术的成熟。一方面,使用分布式爬虫等数据采集程序结合自然语言处理技术,能够对特定的数据化信息进行有效抓取,若配合OCR自动识别,数据抓取的范围还可以拓展至尚未数据化的图文信息;另一方面,存储设备的单位价格呈现指数级下降,加上云存储技术的跨越式发展,永久存储数据的成本逐渐接近于零。依靠前述技术,我国各级司法机关已经建立起了相应的司法数据库,分类汇集了大量司法数据,如最高人民法院的大数据管理和服务平台便汇总了全国3500多家法院、1万多个人民法庭的审判流程、执行信息、法律文书、庭审活动、司法人事、外部协查等各类数据。在掌握大量数据的条件下,数据充分性似乎能够得到保障,但是,此处的“大量数据”仍与“大数据”相去甚远,其貌似充分实际却不充分,形构了数据的伪充分性样态。
司法数据的伪充分性首先源自样本的缺失。大数据,是指不用随机分析法这样的捷径,而采用所有数据的方法。数据驱动型人工智能的预测效果之所以大幅提升,原因在于使用尽可能全的数据从而排除了样本选择随机性不足的固有缺陷。一旦数据库的来源样本存在相当程度的缺失,随机性问题便会以别的方式出现。较之全样本而言,带有缺失的样本本身就可被视为某种被动选择的结果,以此析出数据集供算法学习,得出的模型必将导致与小数据模型同质的弊端。调研显示,实践中的一些人工智能司法系统便存在类似问题,如样本集中于若干特定年份以及特定省份等。不难看出,司法数据库的建设可能并未达到充分性的要求。甚至,若缺失样本与数据库中某类样本具有高度似然性,且两者在性质判断上存在差异,机器学习的输出结果则很可能背离现实。较为典型的是微罪案件的样本。预测刑事判决的算法模型主要基于生效判决载明的数据学习而来,但并非所有刑事案件皆以判决结案——经公安机关立案的刑事案件,约有75%在审前已得处理(撤销案件或不起诉),其中绝大部分为微罪案件。对于此类案件,除具体案情外,是否起诉对案件的实体结果存在很大影响:若检察院决定不起诉,案件便将成为实际的无罪样本,无法进入样本库供机器学习;若检察院决定起诉,出于安抚被害人、尊让同侪等因素的考量,案件大概率将得到有罪判决,继而成为供机器学习的样本。申言之,由于司法运作的现实使然,微罪案件在样本库样本中通常显示为有罪,而未进入样本库的大量类似案件则事实上被无罪处理。如此,一旦将微罪案件交由以有罪判决样本为基础的算法预测,便很难得出无罪的结论。
其次,对潜在影响因素标记不足也会导致数据的伪充分。司法数据往往内嵌于复杂且专业的法律文书之中,必须经由挖掘、清洗与汇总方能获取。以刑事判决书为例,其需要数据化的因素十分繁杂,如被告人情况(年龄、前科、身份、主犯或从犯等)、罪数(一罪或数罪)、案由(涉及罪名)、犯罪所得(因犯罪获得的非法所得数额)、造成损失(因犯罪造成的物质损失数额)、法定情节(自首、坦白、立功、认罪认罚、分则特殊情节等)、酌定情节(犯罪动机、犯罪手段、犯罪地点、侵害对象、犯罪后态度等)以及判决情况(有罪或无罪、刑罚、刑罚执行方式等)。为获取充分数据,技术人员应先对判决书中各类因素(包括但不限于前述因素)予以标记并赋值,再进行挖掘与清洗。因素标记是数据化的起点,若对某些应当标记的因素没有标记,这些未被标记的因素便会游离于所得数据之外,继而造成数据充分性问题,导致预测模型失准。因素标记虽可藉由人工筛查做到尽量精细,但仍无法实现完全覆盖。一方面,特异性因素难以准确标记。比如,犯罪的酌定情节通常因案而异,犯罪动机、犯罪地点等很难得到精细的类型化。笔者在调研中发现,已有的一些量刑辅助系统便仅纳入了个别酌定量刑情节,而未考虑更为复杂的因素。另一方面,判决书缺失因素无法标记。比如,在有被害人的刑事案件中,被告人退赔的充分程度对其量刑存在重要影响。考虑到当事人的利益保护,判决书中通常不会写明具体的退赔数额,因而,对此连续变量便缺乏标记的可能性,只能以离散变量模糊处理。
最后,大规模低质数据的存在更将强化数据的伪充分性。数据充分性预设并非仅是对数据“量”的要求,数据“质”的优劣同样重要,其要求数据很好地表征了所要预测的对象。算法模型的可靠性只有在获取优质数据的前提下才可能达致,否则难免使“错误的前提导致错误的结论”。根据造成数据质量低的原因不同,相关问题大致分为因样本处理导致的外源性问题和样本本身存在的内源性问题。前者的致因主要为数据清洗度不足。依靠信息抽取技术能够有效将样本中针对性的非结构化信息转化为结构化数据,但这些数据很可能并不准确,如文书中“本院认为”部分出现过“自首”不表示被告人自首情节被最终成立,人工清洗是必不可少的环节。但据笔者调研所知,一些已经投入使用的司法人工智能,由于在数据清洗环节缺少司法人员参与,数据准确性存在一定问题。后者通常是由某时某地司法决定的政策性偏向导致。比如,当治安环境出现恶化时,中央或地方政府将出台针对性的“严打”措施,在实施“严打”的区域与期间,相应案件被告人的刑罚明显更重。相对于其他地区或期间的治安类案件,此类样本析出的司法数据难免存在特定偏好,很难将其视为法律适用的客观反映。
二、算法的科学性与不科学性
算法是司法人工智能的功能核心,其将问题情境转化为限定条件,将问题要点抽象为计算变量,将整个问题切换为数学模型,通过公式运算求解答案,体现为机械化的运算过程。从技术逻辑上看,算法模型的运作本质上乃一种相关性预测,其基于生成性(贝叶斯决策)或辨别性方法,试图分析先例来估计当前或未来的一系列变量的取值范围。以针对刑事被告人或服刑人员的风险评估算法为例,其先通过学习体现被羁押人或再犯罪人社会危险性因素(如犯罪情况、人际关系、个性、家庭、社会排斥程度)的先例数据,确定风险计算模型,再将被评估者的历史数据输入系统,由算法输出相关性结果(通常是一个数值),显示被评估者逃避诉讼或再犯新罪的可能性。
算法的关键词是相关性,其赋予了算法科学化的意涵。人对世界的认识基于经验展开,若根据过去经验,达成一定条件可能产生某种结果,则未来条件满足时,便能作出相应结果预测。“从小偷针,长大偷金”,古人意识到,曾经故意违法的人未来犯罪的可能性更高。通过朴素的经验认识,可以得出行为与倾向的关联,但类似意识缺乏理论支撑,尚未进入科学范畴。随着统计学的发展以及经验数据的积累,对未来预测的精确性与准确度逐渐提高,使事物之间的相关性及其程度得到了科学化的说明。对于违法行为与犯罪倾向的关系,可以通过大量案件的数据分析得出相关性是否显著的结论,以之作为未来风险判断的参考——结论在宏观上能够基于不同样本或统计方法复现,使其具有了某种程度的科学性。基于大数据的算法模型是统计学的高阶应用。智能化算法通过对充分数据进行运算,能够识别出各种影响结果的因素,再加上数以亿次的学习、反馈、调参循环,最终形成高维度的算法模型,其可靠性进一步实现了跨越式提升。质言之,在发现相关性及其应用层面,算法无疑是科学的。
算法的科学性是对统计学意义而言的,即透过大数据学习构建出的算法模型,确实包罗了各项影响结果的相关变量,各变量的参数设置也大致符合样本规律,对未来的预测亦可达到相当程度的准确性。不过,算法的统计科学性是否表示其在司法中的应用也是科学的?从过去的裁判经验推演未来的司法决定,看似相当诱人且符合理性,但潜藏的问题却不容忽视。在微观的法律或司法科学意义上,算法很有可能并不科学。
首先,算法中变量的随机性可能引发虚假相关。经由数据“喂养”,算法可以发现变量之间的相关性,但其真伪有时很难判定,在遗漏标记关键因素或忽略样本整体变化的情况下尤其如此。所谓伪相关,系指两个本无相关性的变量因一个中介变量存在而在统计上显示出的相关关系。有研究发现,海滨地区的冰激凌销量与溺水事件的发生存在相关性,这看似能佐证食用冰激凌会诱发抽筋之假设,但实际情况却只是因为天气炎热使消费冰激凌与选择游泳的人数同时增加了。司法数据中的伪相关同样存在。研究表明,犯罪率与地区改革开放的程度存在相关性,改革开放较早的沿海地区犯罪率总是较内地更高,但这并不意味着改革开放是犯罪的真正原因。伪相关主要源自变量选取的随机性。某些看似相互独立的变量,有可能同时受某一因素影响,而在抽取与设置变量时,操作者往往无法注意影响的存在。由于输入数据之间关系不明,司法人工智能形成的算法模型也会纳入部分伪相关,从而造成相关性滥用的风险,而且,数据越多,出现重复伪相关的概率越大,出错的可能性也就越高。纵使部分伪相关能经变量替换等技术方法加以识别,但因复杂系统固有的涌现性,伪相关又无法被完全排除。一旦伪相关被纳入模型,必然会在特定情况下产生错误的结果,将其适用于不问过程及容错率高的商业领域可能不生问题,但与寻求因果逻辑以实现决定可接受性的司法却无疑相矛盾。
其次,算法可能生成或加深法律适用中的偏见。就理论预设而言,因数据及其内在规律都是客观的,故反映相关性的算法也应具备无偏性特征。然而,从结果来看,算法得出的结论往往充满偏见。“算法歧视”现象已经成为了反对司法人工智能的重要理由。在社会危险性评估领域,专业媒体ProPublica刊文指出,COMPAS系统的预测结果明显体现出对非裔人群的偏见,其被错误标记为高再犯可能性的几率几乎是白人的两倍。社会危险性与肤色无关,但算法似乎将族裔作为了隐性的评估指标,其致因大致有二:一是供算法学习的历史数据存在偏见,而反复的训练与验证将以反馈循环的方式使过去的歧视缀入模型;二是算法设计存在问题,其在度量过程中使用的变量或分类本身会带来歧视。对于前者,非裔人群的贫困率较高,而相对贫困程度与犯罪率之间存在相关性;同时,警察等执法人员普遍带有偏见,倾向于对非裔实施拦停、盘问、拍身与搜查,使得非裔犯罪被发现的几率高于其他族裔。种种因素推高了非裔(形式上的)的犯罪率,如此一来,根据历史数据便会得出非裔再犯率更高的结果。对于后者,社会危险性评估工具通常将曾被逮捕与指控的次数作为关键变量,但因偏见使然,非裔的被逮捕率更高(这又为非裔的高逮捕率提供了理由),故相应算法设计明显不利于少数族裔。司法者的客观中立是公正司法的先决条件,看似科学的大数据相关分析更准确、更快且不易受偏见影响,但事实上,算法模型本身又是一个囊括过去大量偏见的集合,使用其进行裁判某种程度等同于接受既往偏见的影响,这对司法而言很难说是科学的。
最后,不同算法的个案预测结果存在不特定性。给定数据之间的相关性及其权重乃客观存在,从感觉上看,作为一种科学认知与精细计算的结果,展现数据规律的算法模型应当具有特定性。换言之,就使用相同数据集形成的算法模型而言,在输入相同条件后,应当输出相同结果。不过,事实并非如此。算法的理论依据、编程逻辑、学习方式存在的差异,会使预测模型的变量与参数设置不尽一致,从而导致不同算法在同等条件下的预测结果大相径庭。在调研中,笔者曾经尝试将同一交通肇事案的数据分别输入两个不同地区使用的量刑辅助系统,结果显示,两者的量刑结果相差四个月。造成差异的原因可能在于具体变量的设置方面。在统计学上,忽略回归模型的关键自变量,很可能导致相应的参数估计值有偏。但是,所有影响量刑的因素(如各类酌定情节)无法穷尽标记,而任一影响因素在不同个案中都有可能成为关键因素,这使得算法预测的准确性对个案而言并不可控。比如,A算法既会因纳入了自变量X且赋值适当而对甲案预测准确,也会因未考虑自变量Y或赋值失当而对乙案预测失准,B算法则可能正好相反。某种程度上讲,对个案适用算法模型如同抽鬼牌,虽然抽中的几率不高,但总有可能得到错误的预测结果。
三、结果的公正性与非公正性
人工智能司法的诸多可见优势,如提高效率、节约成本等,不足以供给其适用的正当性,关键在于结果是否能够满足公正的要求,毕竟公正才是司法的生命线。一种流行的判断标准如下:当司法人工智能作出的裁判比平均水平的法官更可被接受与更具说服力时,则认为前者具有替代后者的正当性。智能化裁判的接受度论证,核心论点聚焦于司法结果的统一——既然先前案件的生效裁判已被接受,那么对后来的类似案件作类似裁判,也应被推定为具有可接受性。要言之,基于先例数据训练形成的算法模型,能够为类似案件提供稳定且一致的裁判结果,确保同案同判,进而统一法律适用标准、限制法官自由裁量,最终实现司法公正。
在一定程度上,结果统一性、可接受性与公正性可以等而视之。假设先例A的生效判决决定对某一盗窃者判处4年有期徒刑,而后案B中的被告人实施了事实与情节完全相同的盗窃行为,法官是否可以在法律容许的裁量范围内判处3年或5年有期徒刑?这在法律上似乎并不重要,因为无论是判3年还是5年都不构成违法裁判,但结果与先例的不一致仍会造成裁判的可接受性问题,乃至被认为是不公正的。对后案作出与先案相同的判决是最稳妥的方案,此处简要提出两点支持理由:一是正义的可视性,它要求保证当事人可以意识到平等对待的存在。对当事人而言,这种意识越强烈,就越不会对裁判的正确性产生怀疑,裁判的可接受度就越高;对法院而言,通过同案同判能够反过来向外界宣示平等对待的价值,以提高公众对判决的可接受度。二是信赖利益的保护。先例判决会使类案当事人产生合理且正当的信赖,即便这种信赖缺乏保护依据,法院出于维护司法权威、稳定法律秩序等考量也允宜予以保护。质言之,保证结果的统一性有助于各方接受裁判,其构成了公正性的有效来源。
较之单纯的类案推理,人工智能司法解决了过往同案同判语境下先例不足与先例过剩的问题,算法模型使裁判统一度得到强化,这对结果公正性的提高看似有益。传统意义的同案同判体现为点对点的二维样态:对于待决案件,首先需要发现类似先例,再将先例中的特定裁判理由析出,继而将待决案件中的事实涵摄其中,最后得出结果(见图2)。不过,若不存在类似先例或者类似先例过多且裁判理由各异时,以上方法便很难直接适用。人工智能司法的统一裁判机制不是通过查询类似先例,而是基于大量先例数据构建算法模型实现的,其预先将先例数据化,形成数据集对算法进行训练并得到模型,当出现待决案件时,直接将案件信息输入模型,随后得到结果,这体现为点对面的多维样态(见图3)。从结果来看,先例及其裁判理由已经内化为算法模型,以之处理案件,一则能够使未决裁判与已决裁判相连结,二则能够保障未来类似裁判的高度统一,事实上构成了同案同判的高阶形态。
然而,若脱离同案同判尤其是“决定论形式主义”的语境,人工智能司法实现的结果公正性就显得极为可疑了。比如,对上文盗窃案中的被告人,基于同案同判的要求判处4年有期徒刑,似乎便得以达致裁判的公正性,但若两案情节稍有不同或将其他因素(如两案的时间间隔、犯罪地点等)纳入考量,该结果仍可能有失公正。人工智能司法同样面临类似问题,如无法识别与处理个案包含的特异性因素、部分样本先例已经失去可接受性、忽略各地实际情况的差异等,这容或将导致结果的非公正性。
首先,人工智能司法隐匿了法律适用的过程,使个案正义难以妥当地实现。传统意义的同案同判并未舍弃涵摄,先例的结果不能直接决定后案的走向,若经与先例对照,法官发现后案的特殊性形成了支持差异化裁判的实质理由,则仍需进行价值衡量并作出决定。而在人工智能司法的场合,输出的结果将完全取决于输入的数据,司法评价的意义被取消了,价值判断失去了立锥之地。申言之,因价值判断不可被通约为事实判断,实现个案正义所需的衡量难以藉由数据进行精确表达与运算,故单靠算法模型无法确保个案正义。那么,能否通过引入人的因素解决人工智能司法的价值判断难题?事实上,即便授权法官对输出结果进行调整,也很难保证最终裁判的妥当性。个案正义要求的价值衡量,虽然一定程度上已经包含于自变量与因变量的相关关系中,但模型不包含的变量,其对裁判的影响便会被忽略。由于算法黑箱的存在,待决案件涉及的特殊因素是否已预先为算法考虑在内是未知的。在此基础上,是否应基于个案特异性调整输出结果也是未知的。甚至,因无作为对照的个案先例,待决案件的特异性能否被法官发现,同样是一个未知数。在法律适用被遮蔽、相关关系替代因果关系发挥作用的情况下,法官根本无从得知的输出结果从何而来,遑论个案正义的实现。
其次,人工智能司法采用的数据质量不明,使结果暗藏结构性偏误的风险。结果的准确性对数据的充分性提出了极高的要求。一旦数据不完备或质量低,经由数据训练形成的算法模型就必生问题,随即可能导致结果失准。前文已述,人工智能司法使用的数据并不完备,但即便数据具有数量上的完备性,其质量仍会对结果造成影响。数据质量很大程度取决于先例的正确性,而恰是先例的正确性难以保证。此处主要包括三种情形。第一,先例自始就是错误的。生效判决的法律效力不能为其正确性提供担保。错误的先例数据会影响算法模型的准确性,而错误的集中出现将引致更为严重的问题。比如,浙江省高级人民法院出台的《关于部分罪名定罪量刑情节及数额标准的意见》将“非医学需要鉴定胎儿性别3人次以上,并导致引产的”规定为非法行医罪的构成要件,该意见在实施数年后被认定为违法无效,但当地法院以此为依据作出的有罪判决已经多达1000余例。一旦相关数据被纳入人工智能系统,未来的类似案件将极有可能被自动作出类似错误处理。第二,先例当时是正确的,但如今已不可接受。先例的正确性将随时间发生变化。比如,“运动式治理”期间集中作出的判决明显更重,当运动结束常态恢复后,这些判决似乎就变得不那么合理了。又如,以往“醉酒挪车”通常被作为醉酒驾驶处理,但近来的司法实践已有松动迹象,一些省份不再将其作为犯罪或将其排除出“驾驶”范畴。若将先例数据一概录入人工智能系统,前者难免整体推高相关案件的量刑预测结果,后者则会延续性地判定类似行为有罪,其结果都难言公正。第三,先例至今保有正确性,但却暗含偏见。类似情形的大量存在导致了算法歧视,基于正确数据的模型最终依然将输出不公正的结果。比如,假定每次针对少数族裔的执法行动都是正确的,但因执法行动的发起本身就带有选择性,以正确样本训练的算法仍会将歧视编入模型,致使对未来个案预测失当。
最后,人工智能司法难以妥善处理地方差异,无法保证本地的司法治理效果。《宪法》第33条第2款规定:“中华人民共和国公民在法律面前一律平等。”在我国,统一法律适用、实行同案同判具有天然的正当性。但实际情况却是,司法标准在全国范围内从未得到过完全统一,即便对刑事案件而言亦是如此。各省乃至各市、县普遍制定了地方性的定罪量刑细则,同一案件在不同地区接受审判,最终结果可能差异显著。典型的是财产犯罪,其“较大”“巨大”“特别巨大”的数额标准几乎是一个省一个样——在沿海地区未达立案标准的案件,到了内陆地区可能会被判处数年徒刑。不过,考虑到不同地区经济水准、民生条件等差异,地方因地制宜地出台有利于本地司法治理效果的司法标准,其实也非不当之举。质言之,司法实践中存在的地方差异有其合理性甚至必要性,为了保证法律得到贯彻落实,中央理应尊重不同的地方需求,赋予地方一定的变通空间,这对于强化地方治理、维护全国大局、预防制度风险等方面有着重要意义。建立统一的司法人工智能系统,带有强行拉平地方差异的意思,很可能使裁判结果在各地都出现公正性的问题。以诈骗罪为例,数额巨大(处3年以上10年以下有期徒刑)的起点在北京为10万元,在广西则为3万元,这大体上与两地人均可支配收入成正比。若使用两地数据构建通用的智能量刑系统,则对诈骗数额在3至10万元间的案件,结果必将在北京显得畸重而广西显得畸轻。虽然现阶段的人工智能司法呈现地方化样态,但从调研情况看,各地系统使用的数据来源并不限于本地判决的案件,可见这种因地方差异导致的非公正风险已经成为某种现实。
四、人工智能司法往何处去?
当下的现实是,人工智能司法在法律工具主义与技术乐观主义的双重作用下狂飙突进,但真正意义上的“法律自动售货机”似乎仍是遥不可及的梦想。欲使人工智能取代司法者独立作出裁判,须依序回答如下问题:前提是否存在?技术是否可行?应用能否被接受?从司法人工智能的目前状况及发展趋势来看,由于矛盾内嵌于系统诸关键结点,前述问题无法得到肯定的答案:第一,样本的结构性缺失、潜在因素的标记不足、低质数据的大量存在,不能满足作为技术前提的数据充分性要求;第二,虚假相关的无法排除、算法歧视的隐性生成、预测结果的不特定性,使得算法模型难以获得科学性保证;第三,价值判断的被动失效、先例数据的隐含错误、地方差异的强行拉平,构成了结果非公正性的来源,严重降低了实践应用的可接受度。以上三重矛盾不仅架空了人工智能司法的基础,而且彻底解决的希望也相当渺茫。
人工智能司法在数据充分性、算法科学性与结果公正性等方面存在的矛盾已经部分为相关理论与实务人士所认知。对此,业界较为一致地认为,将人工智能司法严格限定为司法者的辅助工具,即可在享受技术带来的如防止司法决定过度偏离、保证司法标准统一适用、提高司法机关办案效率等红利的基础上,避免上述矛盾隐含风险的现实化。不过,如此两全其美的设想可能只是“看上去很美”而已。司法应用人工智能的前提在于后者能为前者提供“正确”的解决方案,但前文论证却在一定程度上表明,算法给出的答案无法保证正确性,这动摇了人工智能司法的基础。即便将答案定位于“参考答案”,自动生成且披上科学外衣的数据预测也会影响裁判结果,最终仍有很大几率成为“标准答案”。从司法者的角度看,径行接受算法模型的间接支配,一则有助于减轻审理判断的工作量,二则有利于防范不必要的职业风险,此时再强调智能化系统的辅助性,似乎只剩形式上规避伦理苛责的价值。对于直接提供结论且无法说明过程的司法人工智能,其在司法中的嵌入本身就会对诉讼的正当程序造成冲击,这是辅助性宣称无法纾解的问题。
未来的人工智能司法将何去何从?随着人工智能的技术发展,算法预测的准确性已达相当程度,即便存在本体上的诸多矛盾,亦不能掩盖技术可能为司法带来的巨大红利。仅以人工智能无法确保结论可靠为由,完全排斥其在司法领域的运用,难免有因噎废食之嫌,毕竟传统的法官裁判也可能出现错误。但需注意,无论传统的法官裁判正确与否,其都应内含一个或数个从大前提到小前提的涵摄过程,该过程及相应说理为结果提供了可被接受或反驳的形式理由,而这恰恰是人工智能司法的关键缺失。申言之,司法是一个探求与揭示因果的规范性过程,人工智能所能发现的仅为因素之间的相关规律,由于相关不蕴因果,其本身无助强化裁判的规范论证。不过,司法人工智能之间存在可解释性程度的差别,若算法模型能够较为清晰地反映各变量及其权重,则司法者仍可以在一定程度上围绕结果进行说理,以维护自身主体性、裁判可接受度与司法权威。比如,在社会危险性预测中,若算法提供的结论明确标示了被试者各相关因素的大小与分量,则司法人员便得以之作为规范论证的参考。人工智能在司法中的可用性取决于其是否具备可解释性。因而,欲使人工智能司法得到实质应用,相应算法模型就需要提供输入数据与预测结果的因果说明,或者至少应当使结果具备事后的局部可解释性。
沿此思路,人工智能司法未来的发展重点应被置于提高可解释性方面。目前人工智能司法产品往往仅注重预测的准确性,对机器学习的可解释性关照不足,这使得司法者无法确切了解决策依据及其可靠性,要么导致正确预测被抛弃,要么造成错误决策现实化。算法模型的可解释性,既可在建模之前通过有意识训练可解释性强的自解释模型、广义加性模型或引入注意力机制予以事前实现,也可利用解释方法或建构解释模型对既有模型予以事后实现。对于在研及已经投入使用的司法人工智能,皆应根据实际情况强化模型的可解释性。可解释性应达何种程度?鉴于可解释性尚无科学的评估体系,可行办法是建立计算机、人工智能、法学等领域专家组成的统一委员会,由其对各类司法人工智能进行分别审查:就事前可解释性而言,重点审查模型的内在解释能力;就事后可解释性而言,重点审查解释结果的保真度和一致性。对于未通过个别审查的司法人工智能,应严格限制其在司法过程中的应用。但是,在司法过程外适用此类系统,则应被允许。通常而言,可解释性较差的人工智能往往是因模型复杂度高所致:复杂模型的拟合能力更强、预测准确度高,但模型参数量大、工作机制复杂、透明性低,使得其难以得到较好的解释。鉴于此类人工智能较高的准确性,适用在那些主要以结果为导向的领域往往能够获得更好效果,如作为法律服务机构的预测工具、审判监督部门的初查工具等。
相关阅读
商品书目
微信号 : DigitalLaw_ECUPL
探寻数字法治逻辑
展望数字正义图景
战略合作伙伴:上海中联律师事务所