董学华 周慧|检察视角下人工智能嵌入法律语言的现状、挑战及应对
董学华
上海市静安区人民检察院党组书记、检察长周慧
上海市静安区人民检察院第六检察部检察官
要目
一、检察视角下人工智能嵌入法律语言应用的现状二、检察视角下人工智能嵌入法律语言的趋势及挑战三、人工智能嵌入法律语言的赋能策略一、检察视角下人工智能嵌入法律语言应用的现状
1.形式层面的智能化:智能办案辅助轻应用
一方面,静态的法律语言如法律条文、格式法律文书生成层面为检察办案赋能,极大简化事务性工作进而提高办案效率,是目前弱人工智能技术运用最为广泛的形式之一。(1)形式要件的抓取和识别。主要包括:在检察机关统一业务应用系统中,运用OCR识别等技术开展文本扫描与数据归集,完成影像输入、影像前处理、文字特征抽取、比对识别等任务,用于案卡信息识别、要素抽取、证据校验、关系抽取、人物识别等。(2)法律文书辅助生成。运用数据挖掘、数据解析技术,对法律语言要素分类,从大量非结构化、半结构化司法文书、裁判数据中挖掘规律,实现简单法律监督文书的自动生成、监督线索初步抓取等,为上层业务场景提供基础性支持。(3)法律文书辅助审查。从文本规范性、内容涉密性等角度,对法律文书公开审查进行关键要素识别检索,辅助提高在校对、公开、备案等环节工作效率。
另一方面,为动态的法律语言即各类办案活动调查、讯问、讨论、庭审等检察工作场景中借助人工智能手段,更好地优化办案质效、传递法治精神。比如,基于移动网络技术、传感器技术和智能语音转写设备,为互联网庭审、远程讯问、互联网听证直播、推门听庭等提供支持,对动态的法律语言进行处理识别,自动生成司法活动笔录等,为办案活动提供更高效、更智能、更便捷的支撑服务。
2.实质层面的智能化:法律语言要素的解析和运用
在实质层面,人工智能对法律监督的变革与重塑,已经不单停留在工具层面办案装备的技术改善,更深层次在于对司法办案理念、方式、效能的变革与重塑。(1)智能量刑辅助。如上海206系统、湖北省检察机关研发的智能量刑辅助系统,基于法条与案件总结的量刑关联要素,通过知识图谱、语义抽取及分析等人工智能技术融入量刑算法设计,依托通过海量的同类案例判决形成同类案件量刑参考数据,为案件办理提供更加准确的量刑建议参考。(2)司法案例检索推送。如“上海检察司法案例智能检索系统”,基于对裁判要旨、案例事实认定、法律适用等的深度挖掘,构建知识图谱,强化司法解释、案例指导等智能化分析展现,为推动类案强制检索功能落地、落实司法责任制提供智慧助力。(3)智能化检察服务终端设备。如呼和浩特市检察机关研发的“小智”就是利用人脸识别、语音识别、语音交互等关键技术研发的接访机器人,具备智能分析案件当事人服务需求,业务咨询、案件查询、普法宣传等功能,并进一步优化交互场景下兼具灵活性与人性化的检察服务体验。
在法律界,快速的反应能力、缜密的逻辑能力、丰厚的数据储备、高效的输出能力,一直是人工智能应用研发的目标愿景。可以看到,当前检察机关人工智能相关应用已经具备了一定的文字处理和人机交互功能,但仍停留于弱人工智能阶段,距离真正意义的人工智能依然具有差距。早在2018年,美国硅谷的一家律师事务所研发了一款可以为拟上市创业公司自动生成所需文件的程序,将律师的账单时间从20-40小时减少到了几个小时。2022年10月,最高人民法院发布《关于规范和加强人工智能司法应用的意见》也明确提出要加强“面向司法语境的大规模预训练语言模型及其应用……基于新一代人工智能的审判辅助系统等关键核心技术集智攻关。”2022年末,创成式人工智能语言模型的诞生,则已经突破“工具”范畴,实现弱人工智能到强人工智能的转变,在文本创造、自动翻译等多场景均有技术改进,并能在持续使用通过大量的数据来训练修缮自己的模型。作为知识密集型职业,人工智能自然语言训练模型在法律等专门领域应用也成为可能。今年1月,人工智能企业DoNotPay的“机器人律师”也将迎来首次出庭,通过远程连线方式为被告提供建议,人工智能在传统法律咨询、格式文书起草等静态语言之外,在庭上反驳对方观点等动态法律语言活动中也将占据一席空间。今年以来,多家互联网企业宣布加强创成式人工智能开发力度,持续打造更加开放即时、安全性更高、更负责任的人工智能。可以预见,数字化转型中,人工智能在法律领域的应用也将成为大势所趋。
二、检察视角下人工智能嵌入法律语言的趋势及挑战
像专业法律人那样具备法律理念,运用法律规则和法律逻辑进行价值判断,是人工智能发展的终极设想。创成式AI“破层出圈”引领了新一轮创成式人工智能的浪潮,这得益于自然语言处理领域的工程探索,离不开海量的文本语料以及RLHF核心技术(Reinforcement Learning from Human Feedback,基于人类偏好的强化学习方法)、SFT(Supervised Fine Tunning,监督下的微调模型)、Cot(Chain of thought,技术提示)等技术积累。在文字创作场景下,创成式人工智能应用能够完成协作、改写、修正、翻译等功能,基于海量的语料库根据使用者简单的指令生成逻辑连贯、事实丰富的语段,并根据要求完成相关改写任务或联系上下文进行翻译,通过使用者训练提升翻译的整体性、准确性和可读性。尽管目前在商业变现及细分领域应用仍处于起步探索阶段,对于法律领域这一天然的语言密集型领域,人工智能技术强大的语言处理能力可以以文字助手的身份嵌入大部分法律语言相关工作,特别是对于诸如法律文书的要素式拟写、智能生成以及庭审等交互式场景具有高度契合性。
1.目标价值的相通
2.功能价值的互促
3.规范形成的同塑
1.引领法律语言传播模式变革
2.助力国家治理体系和治理能力现代化转型
3.倒逼法律监督专业化水平提升
4.加速推进法律语言体系的更新迭代
强人工智能技术的应用可能改变数字检察默认的线上化-数字化-智能化的发展路径,进一步加速提升全量业务效率,如进一步替代检察办案中的基础性工作,优化与当事人交互场景中的检察服务,为办案开展相应数据分析和法律咨询等。但法律语言领域有其特殊性,对于强人工智能在司法领域的应用,应当充分评估其优势、风险,进而寻求科学的实践路径。
1.实体认定:言词证据“实体性求真”难度增加
人工智能能够从人类的思维方式出发,模拟人类的语调、语气甚至情感的口语化表达。一旦应用于司法领域,法律文本呈现的内容既可能是当事人真实意志,也可能只是借助人工智能理解力、学习力、逻辑力进行的创造性表达。人工智能辅助生成的语言可能没有或有限包含文本作者身份痕迹,却可能包含开发者或训练者身份的直接痕迹,这将为检察官在审查言词证据时,提供一种反思性的评价标准。比如,对于悔过书、谅解书、辩护词等主观意志强烈的有关文书材料,从实体认定层面,人工智能的介入可能导致无效的、不可靠的或甚至纯AI生成的伪造品的出现,如果检察官无法准确识别当事人是否使用以及在何种程度使用了人工智能语言生成工具,这对认定被告人主观恶性、认罪悔过程度、被害人过错程度等涉及实体处理的重要因素将产生一定影响甚至偏差。
2.表达内容:法律术语的失范化可能
法律语言中特定术语的稳定性要求与自然语言表述的通俗性存在天然的冲突,法律语言专业性与受众通俗需求之间存在的客观冲突,不会因为语言模型的辅助而完全消弭。一方面,在技术层面,自然语义处理技术在法律语言领域应用中,通用的分词方法、知识图谱构建技术等,尚无法完全适应司法实务尤其是刑事司法领域对精确性、专业性的较高要求。比如“正当防卫”并非“正当”与“防卫”的组合,而是一个特定的法律术语结构,又比如,“共同的犯罪”和“共同犯罪”具有截然不同的涵义。如果训练数据集缺少有关数据,人工智能生成法律语言可信性就存疑,甚至可能包含事实错误或虚假陈述。另一方面,从外部角度,如果应用者(特别是普通公众)被人工智能生成的看似严谨的答案迷惑,也可能导致法律语言产生歧义或者法律上的争议,进而影响法律思想的表达和传递。
3.权益保障:“数字弱势群体”语言权利保障新命题
在刑事诉讼过程中涉及语言相关权利如民族语言、被告人辩解、依法获得辩护等,强智能化语言模型应用将带来语言权利保障的新命题。其一,可能因“数字鸿沟”导致有关应用主体行权困难,例如,在文书智能生成、语音转化等技术应用场合对法律文本的更改权、删除权、访问权等。其二,可能加剧诉讼投机行为,例如,已有国外律所针对基于过往案件判决计算“最容易被法官信服”的辩护表述进而采取最佳辩护策略,或对某地区同类进行智能画像进而对管辖司法机关进行针对性筛选甚至进行投机诉讼。其三,可能增加诉讼主体实质性不平等,比如在法庭对抗中,“数字弱势群体”由于应用意识、应用能力等方面差异在陈述、辩论、辩解处于劣势地位,“数字优势群体”借助强大的人工智能支持可以拥有更加逻辑严谨、声情并茂的陈述,以在诉讼中占据有利地位。
4.逻辑挑战:“算法困境”导致的法律信任危机
强人工智能语言模型可以进行深度学习智能化案件预测,并具有庞大的数据池(目前包含真伪不明的数据)。算法的多元化可能导致裁判结果的多元化,但司法裁判的结果是唯一的。其一,可能导致司法人员“反直觉”问题,囿于强大的计算能力,办案人员可能在办案中下意识地靠近人工智能给出的平均判决结果的“历史最优解”,在“算法偏离”以往司法经验时,可能产生自我怀疑甚至焦虑。另一方面,可能引起对公众对司法处遇结果的怀疑,目前诸多人工智能应用的其开放性特点让公众也可以借助智能手段对有关案件裁判结果进行预判,当预测裁判结果与实际偏离度较高时,可能会质疑检察机关司法公信力。
三、人工智能嵌入法律语言的赋能策略
1.安全性原则
2.辅助性原则
3.人性化原则
4.伦理性原则
1.建立法律术语标准化数据库,处理好法律语言规范化与通俗化的关系
人工智能语言模型嵌入法律领域主要解决法律语言的生成与输出问题,法律语言中特定术语的稳定性要求与自然语言表述的通俗性存在天然的冲突。其一,建立专业法律术语语料库,对法律语言中常用多频词予以分类固定,解决语义分歧、文本重复等问题。其二,建立标准化数据库外联机制,基于中国本土语境,解决法律语言与大众语言转换问题。根据数据特征和用户需求进行动态调整和反馈,进而实现自我更新和优化,带动数据治理智能化水平的提升。
2.形成法学理论和法律逻辑框架,协调好技术逻辑与司法逻辑的关系
人工智能对治理工具方法进行全方位的创新突破,由原有封闭、单向的治理体系转向更加开放多元智能,但人工智能创制的语言基于一种技术逻辑。对于司法人员而言,司法逻辑既包含诸如三段论演绎等传统逻辑学内容,也包含事实推理、法律解释学与法律推理、判决推理等综合内容,并将其应用于具体案件处理结果的证立中。在人工智能应用场合,一是应当注重处理好司法逻辑与技术逻辑的转化关系,发挥法学逻辑的基础作用并将其结构化提炼和嵌入人工智能应用之中。二是在人工智能辅助场合,司法官应当更加重视对法律价值的阐释,着眼于技术逻辑与司法逻辑的差异,在法律语言的逻辑修辞、对话方法等方面发挥人脑的独特价值。
3.构建法律语言内部循环更新机制,平衡好语言多样性与法律滞后性的关系
法律是社会的调控规则,相较社会主观层面不可避免地存在滞后性,其实际效果往往也落后于人们对法律实施效果的期许。法律语言能够彰显法治理念的进步与超越,促进法律文本向法律实现的成功转化。一是建立常态化收集反馈机制,及时反馈法律语言应用中存在的滞后性问题,根据新法及司法解释等,更新专业法律术语库。二是健全跨界数据集成处理机制,针对当前数字检察建设中,跨界数据源复杂化、差异化以及技术处理的高成本等问题,结合数据处理技术,促进各类集成、融合、共享。
1.对应用尺度的合理把握
除遵循安全性、辅助性、人性化、伦理性等基本原则外,在具体应用中,从横向上,细分法律语言领域并探索场景化应用。加强检察官各类场合语言的发掘、跟踪、研判与整理,对人工智能语言模型应当进一步细分。比如,根据法律语言的表现形式,分为静态语言(言词证据、法律文书、内部办案文书等)和动态语言(询问讯问、法庭辩论、释法说理等);根据检察官的办案阶段,细分为受理、审查、起诉、庭审、送达、执行等阶段,应当在法律术语标准化数据库基础上,及时归纳、总结、提炼形成场景化法律语言表达,以计算机的处理优势来高效的达成目标。
从纵向上,细分对人工智能语言模型的需求层级并递进展开。根据对办案的辅助价值,人工智能技术应用从办案效率(扫描、录入、记录等)—办案质效(事实查明、逻辑论证、量刑辅助等)—办案效果(诠释理念、美化修辞、庭审效果等)的路径,从基本需求向高阶需求的发展路径。根据技术难易,人工智能语言模型在应用中,应当从当前文本扫描、文本识别等重复性劳动、模板化文书生成等工作向高阶转型,包括智能化案例强制检索、精准化量刑建议等方面可行性研究,辅助生成案件处理的法律意见等;对办案中涉及的专业领域借助“AI+检索”完善技术性事实查明机制,更好地应对经济社会发展带来的新问题。
2.对应用逻辑的严谨判定
一是从实体上,提升检察官对检察业务核心法律文书、关键言词材料的审查甄别能力,着眼于人工智能已经出现的问题和可能产生的风险,及时制定相应工作规则。二是从程序上,积极寻求检察环节破解算法歧视的规制路径,进一步拓展检察监督范围,加强利用大数据、人工智能等科技手段识别投机诉讼、虚假诉讼行为,警惕创造非法内容,保障法律文本创造的合法性及合理性,全面保障“数字人权”。
3.对应用空间的科学预留
从法的实施上看,技术变革对法律语言的重塑功能无疑是直接而深刻的,对技术变革塑造功能的最佳回应,需要通过语言的反复审视和更新调整,实现对科技成果和发展趋势的有力承载。人工智能的开发,是为了辅助和代替我们更快、更好地完成某些任务或进行某些决定,但科技的发展速度远远快于立法的跟进速度,对于人工智能这一新兴技术,一是在规范制定上,应当适度将一些前沿探索纳入规范化轨道,包括对过时技术的有效删改和对成熟经验的及时增加,处理好法律与科技的配合问题。二是适当对部分领域作相对原则性规定,提供足够的发展空间和回旋余地。对于人工智能在诉讼活动、释法说理等相关领域的应用,在兼顾安全的前提下预留一定的空间,更有利于激发科技创新生产力,提升司法效率和办案效果。
往期精彩回顾
上海市法学会官网
http://www.sls.org.cn