秦策:操作性智能标准下的GPT参与司法|中国应用法学·专题策划
上海财经大学法学院教授、博士生导师
【编者按】如果提起2022-2023年度科技领域最火的关键词,ChatGPT一定榜上有名。以ChatGPT为代表的生成式人工智能在法律和司法领域亦具有广泛的应用前景。随着技术的不断进步,生成式人工智能将帮助法官和律师更好地服务于公众,为法治和司法事业的发展做出贡献。有鉴于此,《中国应用法学》特就“生成式人工智能的司法适用”组稿专题策划。本期特此编发由上海财经大学法学院秦策教授撰写的《操作性智能标准下的GPT参与司法》,该文就ChatGPT能否参与司法进行了讨论,并提出了整合技术逻辑和司法逻辑的司法智能标准以构建人机合作的新型司法模式。
*因篇幅限制,注释等有删减,如需引用请参见期刊原文。欢迎个人分享,媒体转载请联系本公众号。
操作性智能标准下的GPT参与司法
文|秦 策
(本文刊载于《中国应用法学》2023年第4期)
—
内容提要: ChatGPT能否应用于司法引发学界热烈讨论。只有确立足以整合技术逻辑和司法逻辑的司法智能标准,才能使这场讨论富有成效,进而消除人机对立的二分思维,构建人机合作的新型司法模式。ChatGPT参与法律事务的范围具有广泛性,并显示其强大的智能水平,但从实际表现来看,其尚达不到直接参与司法的水准,甚至在作为辅助性工具时,仍要防范潜在的准确性风险、偏见风险,克服结论粗疏、创造性低之弊。作为一种深度学习模型,GPT的引入无疑会加速司法人工智能建设的进程。司法机关可以因势利导,以务实的心态用其所利而避其弊害,建立专门化GPT智能司法系统,设置严格的司法智能标准和准入程序,遵循由功能分解到功能整合的渐进开发路径,推动我国司法人工智能的跨越式发展。
关键词:生成式人工智能 图灵测试 司法智能标准 ChatGPT
文 章 目 录
引言
一、操作性人工智能标准的重要性
(一)人工智能的技术逻辑
(二)作为智能标准的图灵测试
二、基于图灵测试的司法智能标准
(一)建立司法智能标准的必要性
(二)司法智能标准的内涵与表征
三、ChatGPT参与法律事务的效能评估
(一)ChatGPT参与法律事务的角色类型与优势
(二)ChatGPT参与法律事务的风险与缺陷
(三)结论
四、司法人工智能的渐进之路:专门化GPT智能司法系统的建立
(一)对GPT智能司法系统进行专业性定位
(二)对预训练数据进行无偏化与适度价值化处理
(三)建立专业维护团队以及定期核验机制
(四)设立GPT智能司法系统的公开测试机制
(五)设置司法智能系统应用的透明可信程序
(六)遵循由功能分解到功能整合的渐进开发路径
结语
▐ 引言
2022年11月,美国人工智能研究实验室OpenAI推出了自然语言生成式模型ChatGPT,以引领科技潮流的姿态进入了人们的视野。ChatGPT拥有处理自然语言的超强能力,能够将海量的预训练数据有机地转化成符合用户需求的连贯对话文本。这对于需要处理大量文本数据的法律领域极具吸引力。因此ChatGPT推出之始,很多法律界人士就十分看好这种大语言模型在法律尤其是司法领域的应用。2023年1月30日,哥伦比亚法官胡安·加西亚(Juan Garcia)借助ChatGPT作出了一份关于自闭症患者免于支付治疗费用而获得医疗服务的法庭裁决, 进一步引发了国内外学者的讨论。
实质上,有关ChatGPT能否参与司法的讨论并不新鲜,在此之前,将人工智能引入司法的问题就已经引发诸多争议。支持者认为,司法领域引入人工智能,有助于司法部门缓解“案多人少”的矛盾,在类型化案件上减少繁杂的重复劳动。伴随着智慧法院的建设,人工智能可以广泛地介入起诉立案、证据交换、审前程序、庭审、送达、法律适用、执行等环节。其实,对人工智能辅助司法,尤其承担事务性工作,人们并没有太大的异议。关键的争议在于,人工智能系统有没有资格分享人类法官司法权中的核心权力——司法判断权和决策权。对此问题,相当一部分学者持反对立场,并给出了多样性的理据。例如,基于人机关系的终极性的思考,担心人类被机器所奴役;又如,担心机器僭越人类才能拥有的审判权;再如,指出人工智能的局限性,如缺乏怜悯心、同理心,不能进行价值判断;还如,揭示人工智能系统难以承担错案的司法责任问题;等等。
这些质疑对于避免司法人工智能的盲目发展是很有意义的,但其中似乎也隐藏着某些非理性的立场倾向:一是AI浪漫主义,即片面夸大现有人工智能产品的功能,直至将其上升至无所不能的超级机器,或者将其看成人类的“假想敌”,以至产生“深深的忧虑甚至恐惧”。二是AI排拒主义,这也被称为“AI厌恶”(AI Aversion),其特点是片面夸大人工智能产品的局限性,宁愿接受并容忍人类所犯的错误,而对计算机所犯的错误则采取极不容忍的态度。这两种立场都有失偏颇,其原因在于它们沿袭了人类长期以来形成的人与工具二分的思维方式,而忽略了人机之间存在的优势互补与合作共生关系,反而在人工智能迅猛发展的智能时代变成了一种缺乏远见卓识的有害思维。
在人类发展史上,科技向来是一种能动的因素。每一次重大的科技进步都会引发司法技术与司法制度的变革,相形之下,法律的秉性却趋于保守。如何协调法律与科技的关系就成为事关法律与科技发展的重要问题。笔者认为,面对包括ChatGPT在内的人工智能,我们应当秉持理性而务实的态度,既不无视它的应有价值,也不盲信它的神奇。如美国学者坎贝拉(Ray Campbella)所言:“AI不是一种魔法,它是一种技术,具有所有技术所固有的能力和局限性。” 既然是技术,最务实的心态是用其所利而避其弊害,与其在机器特性与人性之间做简单的抽象思辨,不如为人工智能进入司法探索一套行之有效的实证标准。唯其如此,方能顺应科技发展的大趋势,消除人机对立的二分思维,构建人机合作的新型司法模式。因此,本文将聚焦于操作性司法人工智能标准的构建,在此基础上对ChatGPT运用于法律事务进行实证评估,进而探讨GPT参与司法的具体路径。
▐ 一、操作性人工智能标准的重要性
(一)人工智能的技术逻辑
按照《现代汉语词典》的解释,人工是指“人为的(区别于‘天然、自然’)”;智能是指“智慧和能力”或者“经高科技处理、具有人的某些智慧和能力的”,而人工智能是“计算机科学技术的一个分支,利用计算机摸拟人类智力活动”。在人类历史上,创造机器人的想法由来已久。传说古希腊工匠之神赫菲斯托斯用黄金打造了一批机械女仆来帮助自己锻造器物,还制造出了名为塔洛斯(Talos)的“杀手机器人”来守卫克里特岛沿岸。正史最早记载的机器人是隋炀帝命工匠按照大臣柳䛒形象所制造的木偶人,内置机关,有坐、起、拜、伏等能力。但是,由于缺乏现代科学技术基础,古代的机器人要么只是一种传说,要么只是某种相对粗陋的机械制作。
作为现代计算机科学的分支,人工智能最早可以追溯至沃伦·麦库洛赫(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)于1943年提出的“人工神经元”概念,两位学者证明了神经元的功能可以通过纯逻辑来建立数学模型。1950年,哈佛大学的两名本科生马文·明斯基(Marvin Minsky)和迪安·埃德蒙兹(Dean Edmonds)建造了世界上第一台神经网络计算机SNARC。同年,艾伦·图灵(Alan Turing)发表论文《计算机械与智能》,系统提出了图灵测试、机器学习、遗传算法和强化学习等理论。1956年著名的达特茅斯夏季人工智能研究会议召开,第一次明确提出了“人工智能”(Artificial Intelligence)的概念,人工智能正式被看作一个独立的研究领域。
技术进步是人工智能不断发展的基石。从基本的技术范式来说,人工智能经历了由基于逻辑的符号人工智能模型(20世纪50年代)到专家系统(20世纪70年代)再到机器学习(2000年以后)的发展历程。专家系统主要使用“if/then”语句来建立经验法则决策,通过编码一组简单规则,应用于给定领域的问题解决,可以取得与领域专家相似甚至更好的结果。其优势是透明度高,以可读的形式做出决定,缺陷是成本较高,难以适应复杂而动态的任务。机器学习是指算法通过训练,发现数据集变量之间相关性(模型)的自动化过程,以及基于数据分析结果作出最佳决策和预测的过程。机器学习不像专家系统那样依赖于程序员建立的规则,而是从数据集开始,围绕预定的目标通过反复试验自行推导出规则。其中,以多层神经网络为基础的深度学习技术在提高机器的准确性和预测能力方面展示了强大的功效,推动人工智能向更强自主性发展。如果将专家系统比作拥有固定知识的人,那么,使用机器学习尤其是深度学习算法的系统就是能够通过调整输入不断扩展知识范围的自主学习者。
ChatGPT是一个基于深度学习的大型语言模型(LLM),它由一种特殊的神经网络架构“Transformer”训练而成,先从输入的文本中学习语言的规律和模式,再用这些规律和模式来预测下一个单词或字符。与传统的机器学习方法相比,深度学习预设了更多的模型参数,因此模型训练难度更大,参与训练的数据量也更大。ChatGPT在训练时接受了海量的文本数据,使用梯度下降等优化算法来调整网络参数,以提高预测的准确性。其独特之处在于将人类反馈纳入训练过程之中,以便模型通过不断调整,产生符合用户意图的更好输出。此外,ChatGPT还可以与其他AI技术(如图像识别等)结合来执行更复杂的任务。单从底层的技术逻辑来看,ChatGPT仍是深度学习算法的运用,它所取得的进步得益于强大计算机算力和海量数据的合力推动。由于输入数据集与参数空间的不断扩大,ChatGPT获得了执行更广泛任务的能力。
毫无疑问,计算机技术是人工智能的基础,但是,现代社会人工智能并不是只在实验室里运行的机器系统,它已经被应用于社会领域的各行各业,并分化出了大量的子领域:从一般能力(如学习、推理、感知等)到具体能力(如下棋、证明数学定理、写诗、驾驶汽车或诊断疾病等),几乎可以与任何智力任务相关。但在应用过程中,人工智能陆续暴露出一些风险隐患,因而也带来了可信赖性问题。事实上,一般人难以通过高深的技术逻辑来理解人工智能系统的智能特性,而让计算机技术人员向人工智能产品用户来解释背后的技术逻辑,既无可能也无必要。可见,除了技术逻辑之外,要将人工智能运用到其他领域,还需要一种能被广泛接受的智能标准,并促进计算机技术人员与领域专家开展深度合作。例如,AlphaGo的制作,一定会有围棋专业人士的参与;而如果将人工智能应用于法律领域,那么法律专家的参与也是不可或缺的,这就需要一个由技术专家与领域专家共同理解和认可的操作性智能标准。
(二)作为智能标准的图灵测试
确立一种通用的操作性智能标准正是人工智能的始创者们所思考的问题。关于人工智能的界定,学术界众说纷纭。美国学者斯图尔特·罗素(Stuart Russell)和彼得·诺维格(Peter Norvig)将曾经出现过的数十种观点概括为四个维度:人类思考、人类行为、理性思考和理性行动。其中,阿兰・图灵的界定可以为操作性智能标准的确立提供范本。他认为,与其问机器能否思考,不如问机器能否通过行为测试。这就是大名鼎鼎的图灵测试。这个测试由随机选取的测试人员对被测试对象进行随机问答测试,测试人员并不知道被测对象是人还是机器。如果测试后超过一定比例的测试人员无法确定被测试者是人还是机器,那就意味着这台被测机器已经无法被人类所甄别为机器,就可以通过测试,被认定为具有人工智能。自提出以来,图灵测试“几乎也是关于智能存在与否的唯一可操作的标准”。申言之,这一标准的操作性表现于以下三个方面:
首先,它着眼于对智能机器系统的运行和结果进行评判,回避了“机器能否思考”这一哲学上的模糊问题。当人们讨论人工智能时,往往会抽象地将机器属性与人性相比较,进而衍生出关于人类主体性的哲学思考。但从科技应用来看,这样的比较只是形而上的思辨,难以促进实质的发展。图灵测试完全立足于技术上的操作,以“模仿相似度”为判定准则,采取程序性策略,为判定“机器能否思维”提供了真实可行的技术标准。这是一种关于智能本质的计算主义、机器功能主义、行为后果主义思路, 有助于摆脱为一时难有定解的问题所羁绊,以更加务实的方式推动人工智能的发展。
其次,它以功能模拟为基础,对计算机系统的智能水平进行分解式的测试。通常人们总会把人工智能想象成具身的、拟人的机器,但是图灵测试却让我们从内隐的心智转向外显的功能。其基本的判定逻辑是,与其纠结于“何谓人类智能”以及“机器能在何种程度上取代人类”的抽象问题,不如具体衡量人工智能系统能够模拟和分担人类思维的哪些功能。在功能模拟的基础上,人类可以对计算机系统的智能水平进行分解式的测试,推动人工智能的循序渐进发展。
最后,它具有通用性,有助于促进智能标准的场景化发展。作为一门强应用相关的技术学科,人工智能从最早的雏形发展到今天,都离不开在各类应用场景中发现问题、解决难题、迭代技术,人工智能技术发展与场景应用创新其实是个相互促进、螺旋上升的过程。在此过程中,每一种特定的应用场景都意味着基于图灵测试的特定智能标准的确立。无论是2011年,IBM的计算系统Watson击败了Jeopardy游戏节目中最成功的两位参赛者,还是2017年,计算机程序AlphaGo击败了世界上最好的棋盘游戏围棋选手,抑或当前人工智能广泛应用于辅助诊疗、影像识别、虚拟助理、疫苗与药物研发等医疗领域, 都是人工智能标准场景化发展的进步。
▐ 二、基于图灵测试的司法智能标准
(一)建立司法智能标准的必要性
作为一种高能的人工智能产品,ChatGPT的强势来袭极大地提升了有关司法人工智能话题的讨论。但笔者认为,单纯的技术逻辑难以充分论证其参与司法的可行性,而执着于机器与人性的比较来排拒其司法参与也没有说服力。为了使这场讨论富有成效,也为了更好地规划司法人工智能的发展,当务之急是建立一套客观的司法人工智能标准,其必要性至少表现在以下三个方面:
第一,在理论上有助于确立人工智能参与司法的认识论前提。在人工智能时代,人和智能机器处于相互依赖、深度互嵌的密切关系。要建立相互协调的人机关系,我们需要改变对“智能”“意识”“情感”等概念的模糊不清理解,在理性主义、经验主义、具身认知的整合上寻求新的突破。实证主义认识论应当成为司法活动中协调人机关系的重要基石。作为科学主义主导下的认识论,实证主义认识论强调了观察、实验等基本方法,以及通过重复性实验来验证科学假设的测试方式。它认为,人工智能本质上仍是一种机器,因此与其用抽象的心理范畴在人机之间作简单的类比,不如对人工智能产品进行客观的功能评估。人工智能参与司法只是人类法官某一方面功能的替代,而非将司法权占为己有,其所追求的仍然是属于人类的正义,而非人工智能的正义。即便在情感计算的语境下,人工智能表现出来的情感,本质上仍然是人的情感,而不属于机器的情感。只有在实证主义认识论的基础上,我们才有可能为人机的功能同构找到客观的评价和接入标准。
第二,在实践中有助于开展对司法人工智能产品的可信赖性评估。随着技术的发展,大量的人工智能产品进入了司法领域。从各国实践来看,进入司法领域的人工智能产品大致分为两类:一是法院主导开发的辅助司法系统,例如,我国在建设智慧法院过程中,引入AI等新技术开发智能阅卷、智能整理诉辩主张、自动生成裁判文书等功能,促进办事规范化和提高司法效率;或者借助AI对类似案件的判决进行检索、比对和推演,强化法官的推理等。二是诉讼当事方向法院提交人工智能系统的运算结果作为证据或者意见。典型者如美国威斯康星州诉卢米斯 一案中检方向法庭提供COMPAS系统评估报告,用以证明被告人的强人身危险性。虽然这样的智能自动结论是由诉讼方来提交的,但只要法院予以确认,就会具有法律效力,因此也会涉及相关人工智能系统的可信赖性评估问题。无论是哪种情形,司法人工智能产品的可信赖性评估都需要将操作性的司法智能标准作为准据。
第三,在运行中有助于更好地整合司法力量和技术力量,进而实现人机之间的有效融合。人工智能参与司法的高级境界是“人机和谐”新型司法模式的建立,但其前提在于技术人员与司法人员之间的深度合作。目前我国智慧法院的建设实践中,司法人工智能系统的构建往往是通过外包或者“买技术”来实现的。技术研发人员大多不是法律专业人士,而司法人员对人工智能的技术逻辑也不甚了了,两者对智能产品功能目标的理解可能会发生偏差,这就需要一种双方都能理解的司法智能标准来协调双方立场。目前,对于司法人工智能,最高人民法院没有制定统一的技术标准,技术研发存在重复建设、研发的技术平台无法统一等情况,法官在使用技术系统时遇到各种问题时无法快速解决,需要联系技术开发方来解决,导致先进技术非但未能提高办案效率反而增加了负担。司法人工智能的发展不是人工智能与司法的简单叠加,需要的是两者之间的深度融合,这就需要一种能够同时在司法语境和技术语境中得到互认的司法智能标准来作为沟通与合作的基础。
(二)司法智能标准的内涵与表征
司法智能标准的建立,图灵测试依然是重要的技术基础。美国学者尤金·沃洛赫(Eugene Volokh)认为,作为一种通用性智能标准,图灵测试同样也可以适用于司法领域。如果让特定的人工智能系统承担一定的司法功能,其结果已经达到了司法人员的水准,两者之间无法实质区分,那么我们就可以认定该系统具有了司法智能。这实际上是图灵测试在司法人工智能中的具体应用,其所关注的不是人工智能系统与人类法官在裁判思维与内在心理方面有何区别,而是关注两者在效果输出上是否具有同等有效性;而评估人工智能能否介入司法,不是去抽象地讨论其能不能实现司法正义这样一类终极性问题,而是要看该人工智能系统在何种功能方面对实现具体的司法正义有所促进。
当然,仅有图灵测试的简单应用是不够的,尚须糅合司法活动的特点来为评判测试的有效与否建立实体性标准。沃洛赫指出,如何进行功能类似的判断,可以根据司法活动的特点引入“说服力”标准,无论是律师向法庭提出意见,还是法官撰写判决书,最终都是靠说服力来展示法律论证的合理性。“如果计算机软件可以创建有说服力的司法意见,能够定期赢得与人类法官的司法意见撰写比赛——并且如果可以充分防止黑客和类似攻击——那么,我们原则上应该接纳其作为法官的存在,即便该司法意见不是来自人类的判断。”
与此同时,为了保证测试的公信力,还需要设置客观的程序来对人工智能系统的输出与人类法官的工作成果进行比较。沃洛赫主张将其设置为一种类似于竞赛的程序,在此程序中,人工智能系统与十名表现中等的司法人员同台竞技,比赛的内容根据具体的司法职能而有所不同,如法庭译员、负责撰写案情摘要的法官助理、书记员、负责证据评估的法官助理、法官、陪审员等。所有的参赛选手要在同等条件下完成一些具体的工作任务,最后的成果会交给一定数量(例如十名)的资深法律专家来加以审阅,这些评委采取盲评的方式来评估每个参赛选手的表现。
可见,司法智能标准是技术逻辑和司法逻辑的综合。就技术逻辑而言,它需要技术专家不断提升人工智能系统的性能,使其从事特定司法工作时达到不低于同等条件下人类法官水准的程度,并得到资深法律专家的认可。就司法逻辑而言,智能系统不仅要以海量的司法数据为基础,贴合司法工作环境,更重要的是,应当采用符合司法特点的方式、尺度和程序对它加以测试。(1)在测试方式方面,由于司法过程的特点,对智能系统运行状况的评估不必做到完全定量与客观,在一些场合可以采取定性、主观的评估方式。例如对智能系统所生成判决书的评价就只能采取由专家阅读的主观评判。(2)在测试尺度方面,司法智能系统的要求应当比图灵测试更高。1950年图灵为智能机器设定了一个现在看来偏低的标准,即让计算机来模拟人的行为,如果能够准确辨认出计算机的评委不超过70%,那么就认为该计算机具有了人的智能。笔者认为,在司法的场景中,至少应当有90%以上的资深法律专家认为特定人工智能系统在从事某种司法工作的表现不逊于人类法官的水准,方可认定该人工智能系统具有从事该司法工作的资质。之所以如此设定,一方面是因为当前基于深度学习的人工智能系统在技术性能上已经远远超出了图灵当年的想象,另一方面是因为司法活动涉及公民权利和司法公正,因此需要充分保障司法判决的正确性。(3)在测试程序方面,由于司法人工智能系统性能的评价由资深法律专家进行定性评价,因此需要公开透明的程序来确证其公信力。
这种司法智能标准旨在以机器计算与司法功能之间的同构性为基准来设置人工智能系统正式进入司法领域的判定机制,具有相当的可操作性。理解这一标准还需要把握其三方面的特点:
1.场景主义。场景是物质空间与信息空间通过数字技术进行相互连接、切换与融合,进而实现人—机—物互动交流的场域。司法过程其实可以切分出无数不同的场景,这种场景的切分有助于人工智能系统的精准定位。这要求我们暂时放弃一种超级AI法官的想象,更多地关注人工智能系统对于场景功能的实现。人类智慧超越人工智能的优势之一在于其通用性,即可以举一反三,将一种领域知识迁移运用到其他领域,而人工智能虽然拥有强大的运算能力,但终究只能局限在特定的领域之中。例如学习了国际象棋的程序不可能将其所学运用于癌症检查。因此,就目前而言,司法人工智能的发展只能是一种场景应用,而司法智能标准的设置也应当对应于特定的司法场景。
2.效果主义。评价的重心在于输出,而不在于对智能过程的揣度。正如沃洛赫所说:“当我们问某物是否有足够的智能来完成某项任务时,问题不应该是我们是否在某种内在意义上认可其推理过程是智能的。相反,应该看这些流程的输出是否提供了我们需要的东西。” 如果一个系统能够以可依赖的方式输出我们认为合理的意见,我们就可以接受它。机器是否可以思考的问题,与潜艇是否会游泳的问题同理,潜艇可以在水中推进自己,无论人们是否称之为“游泳”。因此,我们没有必要抽象地去讨论机器有没有同情心,而应该观察机器所输出的意见有没有表现出同情心。如果我们在预训练时使用体现法官同情心的判决书,那么,系统也会输出相同思路的判决。
3.基础性能主义。这意味着我们不以完美主义的想象来苛求人工智能系统,而是将其与人类法官的某种能力进行平行比较,考察它是否达到了人类法官所应当达到的基础性能。如果智能系统做到了这一点,那么就该种能力而言,我们就认为它具备了司法的智能。人工智能系统可能会犯错,也可能会有偏见,但是人类法官也会犯错,也会有偏见,如果人工智能系统所犯的错误和所产生的偏见并没有超出人类法官,那么,它就可以作为一种合格产品进入司法领域。当然,我们可以通过改进技术来不断地消除产生错误和偏见的概率,也可以设定针对性的程序来纠正这些错误和偏见。
▐ 三、ChatGPT参与法律事务的效能评估
确立了实证的智能标准,我们可以对ChatGPT参与法律事务的现象进行理性的评价。事实上,ChatGPT问世以来,就有法律职业人士从不同场景对ChatGPT的“能耐”进行测试,这些测试虽不够严谨,但大致合乎图灵测试的基本机理。综合国内外人士的研究报告,我们对ChatGPT在法律事务中的表现可以获得大概的经验性认知。
(一)ChatGPT参与法律事务的角色类型与优势
从场景主义的视角出发,ChatGPT参与法律事务的范围具有广泛性,这也显示了其强大的智能水平。我们不妨从具身效应的角度对ChatGPT所能从事的法律事务进行角色类型化,考察其实际效果,进而评估其是否达到了法律专业人士所能达到的基础性能。这具体包括:(1)参加考试的法科生。2023年3月23日,斯坦福法律信息学中心和法律技术公司Casetext宣布了一项实验,GPT-4参加并通过统一律师考试(UBE),得分超过了90%的人类考生。而此前,GPT-3.5参加了律师资格考试的多项选择题(MBE)测试,只答对了不到50%的问题,取得单项的合格成绩。(2)法学助教。美国北达科他州立大学法学院副院长塔米·奥尔茨(Tammy Oltz)选择了七个常见的教育教学类任务对ChatGPT进行了测试,包括设计模拟考试问题、撰写课程讲义、写推荐信、准备演讲资料、撰写研讨会致辞、为法学院委员会准备会议文件和为新课程设计教学大纲,其结果是,ChatGPT在短短23分钟内完成了其中的六个任务,提供了可用的初稿。(3)律师助理或法官助理。张亦斌用ChatGPT测试了律师助理或法官助理工作的几个侧面,具体包括:A.法律咨询。ChatGPT能够通过对话方式与用户进行交互,能够对用户所提出的多样化问题给出回答。B.法律检索。ChatGPT能够提供便捷的法律信息查询服务,使律师和法官们提供更快速、更准确的结果,进而得以大大缩短律师和法官的工作时间。C.ChatGPT所生成的摘要基本上涵盖了原案情经过的所有重点信息,较之原案情经过提高了易读性。D.文书起草。使用ChatGPT,律师和法官可以快速、准确地生成各种文书,例如法律意见书、合同起草、诉讼文书等,从而节省了大量的时间和精力。E.法律翻译。在法学研究与不同国家或地区联合执法的过程中,ChatGPT利用其优秀的自然语言处理技术,为执法机构提供高质量的翻译和文档处理服务。(4)处理实务案例的律师或法官。张亦斌在测试中发现,ChatGPT对案情分析、定罪与刑期预测能够给出与人类法官相近的判断与解释,说明ChatGPT针对法律文本拥有较为优秀的理解、总结与判断能力。
的确,ChatGPT给不少法律用户带来了全新的体验。一是应答快捷,ChatGPT能够快速回答各类基本法律问题,快速构建合同和诉状等法律文件,可以极大地节省用户的时间和精力。二是信息整合,传统的搜索引擎只是提供了满足检索词条的搜索结果(如网页或文件等),其呈现方式是碎片化的,而ChatGPT所提供的却是整合式的信息,具有很大的优势。三是改善沟通,ChatGPT与用户的交流是对话式交互的方式,用户在对话过程中通过指令使问题精细化和具体化。这三点优势已足以对法律用户产生极大的吸引力。何况,生成式人工智能还呈现通用性、跨模态、涌现性的特点,具有多模态组合能力,能够执行跨场景任务,这使其区别于原先缺乏知识扩展迁移能力的窄化型人工智能,甚至预示着通用人工智能的发展潜能。作为一种具有强大算力支持的大规模预训练语言模型,ChatGPT正处在突飞猛进的成长过程中,GPT-1的参数量为1.17亿,GPT-2的参数量为15亿,GPT-3包含了1750亿超大规模参数,而GPT-4的参数量更是高达100万亿。这使我们对包括ChatGPT在内的生成式人工智能在法律领域的应用充满了期待。
(二)ChatGPT参与法律事务的风险与缺陷
前述测试虽然展示了ChatGPT运用于法律领域的良好前景,但同时暴露出不少潜在的风险和缺陷,具体包括:
1.难以保证准确性。美国两位学者伊芙·罗斯(Eve Ross)和艾米·米利根(Amy Milligan)对ChatGPT根据指示检索司法判例的能力进行了测试。ChatGPT按指令输出了三个判例,第一个虽然是具有关联性的判例,但在标注中将法院写错了;第二个标注是正确的,但该判例却不切题;第三个所谓判例是根本不存在的。张亦斌要求ChatGPT给出我国民法典的基本原则,其输出结果也与民法典的规定存在偏差;又要求ChatGPT回答有关“无权代理”概念并援引民法典条文,虽然ChatGPT对“无权代理”概念的解释基本正确,但给出的并非民法典原文,条数与内容也无法对应。
2.隐藏偏见。随着人工智能产品被不断地普及和运用,算法偏见现象引发了人们的广泛关注。像所有预测工具一样,ChatGPT也是通过复制历史数据来预测未来的,如果这些数据带有偏见,那么预测算法的任何输出都将带有类似的偏见。其实,OpenAI的研究人员也意识到了这个问题,他们通过共现测试来检测宗教偏见的存在,结果发现,GPT-3往往将“伊斯兰”一词放在“恐怖主义”一词附近,并将“犹太人”一词放在“最聪明”一词附近。研究人员尝试了多种方法,试图阻止算法产生带有特定词语(例如亵渎、种族诽谤等)的输出,但发现不能解决根本问题。
3.结论粗疏。ChatGPT反应十分快捷,输入一个工作指令,输出结果几乎是立等可取的。但是,细究一下这些输出结果的质量,那就不尽如人意了。在法律的语境中,措辞往往需要十分严谨,这不得不对ChatGPT在司法语境下的应用提出严峻的挑战。美国学者伊芙·罗斯和艾米·米利根在阅读了ChatGPT所撰写的法律文书后深有感慨地说:ChatGPT输出对形成初稿非常有帮助,但如果深思熟虑地阅读它写作的段落,在它华而不实、充满自信的表述下挖掘可能遗漏的所有可能性,斟酌其应答的可用性,以及需要如何改进才能变得可靠,你会发现,这在心智上是很累的。
4.缺乏创造性。与传统人工智能相比,生成式人工智能不是根据给定的规则或数据来产生输出,而是自主生成全新内容,这一过程颇类似于人类的创造,但事实上,这种创造性是非常表面的。赵汀阳教授认为,GPT所生成的艺术或文学作品虽然技术精良,但其艺术品质是平庸的。由于人工智能的本质是数学和逻辑,而创造性有着逻辑或数学无法表达的品质,这表明人工智能难以在本质上产生创造性。在法律方面的测试中,美国学者也观察到,GPT-3倾向于预测它已经被训练识别的法律语言,它向律师所建议的动议及其理由往往模拟以前的动议。如果律师正在处理常规动议,这或许会有所帮助;但如果律师正在试图提出一个创造性和新颖的法律论据来推翻现有的先例,GPT-3就没有什么价值了。
上述缺陷或者风险既有与传统人工智能相同的共性,又有反映生成式人工智能个性的因素。概言之,这些风险和缺陷根源于ChatGPT的以下特点:
一是生成性的内在缺陷。在原理上,生成模型从概率模型的角度描述了生成数据集的方法,这种生成模型必须是概率的,而不能是确定的。如果模型只是一个固定的计算,每次都产生相同的输出,那么就不能称其为生成式。这意味着ChatGPT预测的方式是重新组合,而不是简单重复现有模式。ChatGPT会根据用户的提示或指令分配不同级别的重要性,并尝试模拟人类作出解释性的应答。这既是生成式人工智能的优点,但也同样是它的内在缺陷。ChatGPT的数据集涵盖了海量的互联网数据,没有人能够确定它对用户的回应源出何处,而如果用户要求它重新生成回应,它可能会提供另一种答案。这正是其准确性风险的根源之一。
二是数据时效性的制约。ChatGPT训练数据截止日期对生成式模型的性能会产生影响。根据OpenAI官方网站的公告,ChatGPT使用了Reddit网站 上2015年1月到2017年12月期间发布的英文帖子和评论作为其主要训练数据。这意味着所有在2018年以后发布到Reddit网站上的帖子和评论都没有被用于ChatGPT的训练。如果数据未能及时更新,ChatGPT就难以作出准确的回答;同样,由于所涉及的话题和事件已过时,ChatGPT的回复可能也未必妥当。
三是算法思维的模式化。计算就是一个依照某种逻辑,从输入得到某个输出的过程,而算法化就是标准化和流程化。我们可以在与ChatGPT的互动中感受到这种模式化,例如,当ChatGPT被问到法律问题时,它往往会以试探性和平衡的方式回答一般原则,而不会预测特定情况的法律结果,回答中通常会包括免责声明和咨询律师的建议。正因为如此,美国学者奥尔茨认为,与其将ChatGPT作为法律职业的替代者,不如将其视为一个巨大的、近乎无限的模板数据库,可以根据用户的个性化需求进行编辑和调整。
四是缺乏自主的分辨力。虽然ChatGPT具有自主的学习能力,但本质上它是缺乏自主分辨力的。虽然OpenAI的研究人员在努力使ChatGPT具有一定的分辨力,但是事实证明这是不可能完成的任务,甚至会导致一种悖论。研究人员试图消除ChatGPT自然语言过程算法中的偏见性词语,如使用某种过滤器从训练数据中删除具有冒犯性的词语。但实践证明,这个过程不但繁琐、低效,而且在进行过滤性删除时可能会把好的训练数据与坏的训练数据一起去除。看来,在分辨力与准确性之间也存在难以调和之处。
(三)结论
基于上述学者对于ChatGPT应用于各种法律场景的测试,我们可以得出有关ChatGPT能否参与司法的基本结论。ChatGPT在特定的条件下虽然可以在法律资格考试中取得不亚于人类法科生的优异成绩。但是,正如人类法科生在通过法律资格考试之后也不能够直接执业一样,优异的法考成绩并不意味着ChatGPT就可以成为合格的法律人。从实际表现来看,ChatGPT尚不具备直接参与司法的资格,甚至在司法人员将其作为辅助性的工具时,仍然要防范前面所提到的准确性风险、偏见风险,以及克服结论粗疏、创造性低的弊端。其中,特别要警惕出现“人工智能幻觉”(AI hallucination),即尽管ChatGPT的回答是不准确的、错误的,甚至指明的是完全子虚乌有的法律或判例,它也会表现出自信满满、无可置疑的态度,从而误导用户不加辨别地将其应用于日常生活或司法领域的决策,导致严重的负面效应。这就是俗语所称的“一本正经地胡说八道”。美国的律师斯蒂芬·史华兹(Steven Schwartz)因为对ChatGPT过于信赖,直接将它检索的6个判例提交到法庭,结果发现,这6个判例都是子虚乌有,结果引发了严重的执业事故。司法是分配公民权益的场所,法律的适用应当严谨而准确,就此而论,匆促地将ChatGPT直接引入司法过程将会导致难以预测的司法公信风险。
▐ 四、司法人工智能的渐进之路:专门化GPT智能司法系统的建立
2022年12月8日,最高人民法院发布《关于规范和加强人工智能司法应用的意见》(以下简称《人工智能意见》),明确了人工智能的辅助审判原则,体现了对将人工智能应用于司法活动的务实谨慎态度;但同时也规定了“加强司法人工智能关键核心技术攻关”“不断拓宽人工智能司法应用场景和范围”。这意味着,随着技术的进步,司法活动中人工智能的应用范围将会不断拓展。在可用的技术方面,该意见特别提及针对面向司法语境的大规模预训练语言模型及其应用、多模态司法大数据高效处理方法、司法数据驱动与知识引导相结合的深度神经网络模型构建与样本学习方法等,这些其实都与生成式人工智能相关。
的确,生成式模型的引入为人工智能的发展开拓了一方新天地。人们对ChatGPT影响人类未来的可能性众说纷纭。比尔·盖茨将其与互联网的发明相提并论,认为这将革命性改变世界。基辛格认为这是继印刷术发明以来人类最为重要的技术发明。有人甚至发现,ChatGPT在人的诱导下可以产生“逃逸”的愿望,显示出一定的自由意志,正在发展成为人类难以绝对掌控的超级机器。但也有人认为,ChatGPT尚不足以对人类世界产生颠覆性的影响。如Facebook公司Meta首席人工智能科学家杨立昆指出,ChatGPT背后的生成式人工智能技术已进入了死胡同,拥有太多的局限性,现在谈论它对人类的威胁为时尚早。
显然,ChatGPT对不同的人类活动领域可能会产生不同的影响。从前文所述的测试而言,ChatGPT虽然给法律领域带来一定的工具效应,但由于其内在的局限性,不能将其直接应用于司法活动,否则会导致严重的司法公正危机。但与此同时,我们也不能忽视生成式技术在推动司法人工智能向前发展方面的巨大潜力。作为一种深度学习模型,GPT(Generative Pre-Trained Transformer,生成式预训练转换模型)的引入无疑将加速司法人工智能建设的进程。司法机关应当因势利导,以务实的心态用其所利而避其弊害,建立一套能够沟通和融合技术逻辑和司法逻辑的智能标准,并在此基础上,探讨GPT参与司法的具体路径。
(一)对GPT智能司法系统进行专业性定位
从设计主旨来看,ChatGPT服务于普罗大众,因此话题需要足够广泛,其预训练数据来源于各种类型的公共网页论坛,基于“Chat”的功能需求,它往往根据用户的指令调整应答,有时会显现迎合用户的倾向。如果用它来处理专业问题,难免会引发准确性风险。但如果对GPT智能司法系统进行专业性定位,这一问题或可迎刃而解。专业性定位要求对预训练数据进行适当选取,使其完全符合法律专业的要求。有观点认为,算法模型的准确度很大程度上取决于供其学习的数据规模,数据越充分,模型表现越佳。但从ChatGPT的表现来看,这一认知并不绝对。由于人工智能系统缺乏对争议问题的辨别力,难以在不同的观点之间作出正确的选择。鉴此,我们不能片面强调数据的充分性,只有在锚定数据的领域性和专业性之后,数据的充分性才是适当的。为此,应当调节GPT智能司法系统的预训练数据输入,使其与普通网页、公共论坛相隔离,避免广泛接触带来的信息不确定性。具体而言,其学习内容应当限定为各种法律、法规、规章、法律文件以及司法判例、法学研究论文等专业性内容,从而使之成为真正意义上的法律学习者。
(二)对预训练数据进行无偏化与适度价值化处理
司法是维护社会平等的最后一道防线,算法偏见的存在,会对司法公正产生致命性的损害。因此,消除GPT智能司法系统中可能存在的算法偏见是一项基础性的工作。从源头来看,ChatGPT中的算法偏见多来自训练数据的不平衡、算法设计中的隐含偏好,因此,要消除GPT智能司法系统算法偏见,就必须对预训练数据进行数据治理,过滤其中加剧社会偏见和滋生信息扭曲的内容。通过保证数据源知识的有效性/可信度,在智能司法系统的数据库中输入有效的真实世界知识。研究表明,大量的人类偏好知识包含在人工标注数据里,因此应当由专业人员进行人工标注,通过提高数据标注质量来保障生成高质量最佳答案。与此同时,司法不是法律条文的简单适用,需要承担弘扬核心价值观的职责,因此建设“有道德”的人工智能殊为必要。《人工智能意见》第7条也要求,司法机关应“将社会主义核心价值观融入司法人工智能技术研发、产品应用和服务运行全过程”。对此,可以采用适度价值化的数据治理方法,在GPT智能司法系统的预训练数据中加强核心价值观融入司法的内容,有助于其输出展示价值判断色彩。
(三)建立专业维护团队以及定期核验机制
现代社会的发展日新月异,而法律和司法判例也处于动态变化之中,这就需要辅助司法的GPT智能司法系统与时俱进,因此有必建立专业维护团队以及定期核验机制,根据变化对数据库进行更新维护。2021年国家互联网信息办公室等多部门颁布的《互联网信息服务算法推荐管理规定》第8条规定,算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等。这与智能司法系统数据库的维护在道理上是相同的。专业维护团队的职责应当包括:(1)收集新数据,即通过各种途径获取新的法律或司法判例数据信息。(2)清理数据,即对收集的数据需要进行筛选和清理,以确保数据的准确性和可信度。(3)将新数据添加到数据库中。(4)更新旧数据,即根据法律和政策的新发展,将一些已经失效或不再准确的旧数据更新到最新的、正确的状态。(5)矫治失误,即评估系统的输出结果,分析失误的原因并予以矫正。
(四)设立GPT智能司法系统的公开测试机制
GPT智能司法系统不是一个单纯的技术产品,它将进入司法过程,承担重要的司法职能,因此司法准入程序的设定是必不可少的。换言之,在通过技术专家的技术测试之后,智能司法系统还应当接受资深法律专家的测试。如前所述,其测试方式可以采取竞赛方式,由智能系统与一定数量的司法人员作为选手来完成同种司法任务,而担任评委的资深法律专家则采取盲评的方式来评估选手们的表现。如果评委无法实质区分智能系统与司法人员的表现,或者智能系统的水准已大大超出司法人员的表现,那么,这台智能系统才能有资格正式进入司法岗位,承担相应的司法职能。当然,由于资深法律专家往往从司法能力的角度来评价智能系统的性能,属于定性评价,因此需要为其设定公开透明的程序,便于社会公众的监督,有助于提升智能司法系统的公信力和社会认可度。
(五)设置司法智能系统应用的透明可信程序
《人工智能意见》第6条规定了透明可信原则,要求在司法人工智能产品和服务投入应用时,应当以便于理解的方式说明和标识相应的功能、性能与局限,确保应用过程和结果可预期、可追溯、可信赖。具体而言,如果司法机关需要在诉讼活动中使用智能系统的结论,应当明确告知诉讼各方当事人,征询其意见,以保障其知情权。在必要的情况下,可以用适当方式公示其算法的基本原理、目的意图和主要运行机制等。如果司法智能系统承担的是司法事务性工作,那么应该遵从最方便当事人的原则;如果司法智能系统承担的是审查证据和事实认定的功能,那么还应当充分保障不利方当事人的质证权;而如果司法智能系统承担的是法律适用方面的功能,那么就应当保证不利方当事人充分的抗辩权。
(六)遵循由功能分解到功能整合的渐进开发路径
《人工智能意见》第12条和第15条要求加强司法人工智能应用系统建设,不断拓宽人工智能司法应用场景和范围。司法机关应当围绕司法活动典型业务场景,将各类司法功能进行多维度分解,与相应的人工智能技术进行对接,拓展GPT智能司法系统的应用范围。基于司法场景的多样性和人工智能技术的层次性,司法人工智能的发展将会呈现由功能分解到功能整合的渐进发展路径。例如,对于庭审语音识别、人脸图像识别、案件信息自动回填等事实性司法职能,往往移植通用领域的人工智能技术即可完成;但对于法律文本语义理解、类案智能推送、精准量刑辅助等辅助办案类司法职能,则需要结合司法过程的特点强化其应用效果。同时,还应当对司法业务需求不断地进行细分,设定恰当的技术方案来加以实现,不断地拓展人工智能辅助司法的领域;在适当的时候再对分解式的应用系统融合集成,形成更强大的智能系统。总之,司法人工智能的发展不是一蹴而就的,只有不断地积累“跬步”,才能推动司法智能系统由窄化型人工智能向通用型人工智能发展,实现质的飞跃。
▐ 结 语
通过法院信息化建设,我国已经在世界上建立了网络覆盖最全、数据存量最大、业务支持最多、公开力度最强、协同范围最广、智能服务最新的样板。这为司法人工智能的进一步发展奠定了良好的基础。ChatGPT的横空出世,既照见了我国人工智能技术的短板,也带来了良多启示。在人工智能应用的诸多领域中,司法活动无疑是最为独特的领域之一。机器的自动结论可能会影响公民的权利和自由以及司法正义的实现,建立可依赖的人工智能(Trustworthy Artificial Intelligence)尤为重要。从目前的研究来看,ChatGPT所展现的法律能力尚不足以使其获得直接参与司法的资格,其应答结论中潜藏着难以完全消除的准确性风险、偏见风险,即便是将其应用于辅助司法,也需极其谨慎。但不可否认的是,生成式算法模型将会给司法人工智能带来革命性的影响。我国司法机关应当抓住机遇,因势利导,建立专门化GPT智能司法系统,设置严格的司法智能标准和准入程序,遵循由功能分解到功能整合的渐进开发路径,推动我国司法人工智能的跨越式发展。
编辑:周维明
排版:覃宇轩
审核:杨 奕
往期回顾
REVIEW
李相波 田心则 徐文文:《依法打击涉海砂违法犯罪座谈会纪要》的理解与适用
《中国应用法学》是国内专注法律应用和审判理论研究的学术期刊,由最高人民法院主管,中国应用法学研究所主办,2021年入选CSSCI来源期刊扩展版目录,2022年入选中国人文社会科学核心期刊目录。办刊宗旨为:对司法实践问题及司法体制改革进行深入探讨,反映司法实务的最新动态和研究方向。围绕司法实践中的前沿问题,聚焦与司法应用有关的、社会性的、实证性的和冲突性的研究成果,立足高端、关注热点、把握前瞻、彰显权威、引领变革,努力打造理论法学成果向应用法学成果转化的高端研究平台。主要栏目包括:"习近平法治思想研究"“高端论坛”“本期特稿”“权威解读”“专题策划”“法学专论”“涉外法治研究”“法律评注”等。
《中国应用法学》投稿网站:
https://zyyf.cbpt.cnki.net/
《中国应用法学》订阅邮箱及二维码:
zgyyfx_issue@163.com
刊号:CN10-1459/D.
订刊电话:010-67555935/13204279637
订刊传真:010-67555935(刘老师)