【网聚法言】第十期:人工智能介质下审判路径范式构建透析——法律知识图谱的模型构建
转眼间,
杭州互联网法院
成立已经两年多了
时光像电影回溯一样
在眼前心底一帧一帧闪过
这期间,
我们既有
全域创新、建规立制的宏大气象,
也有
点上发力、法言探微的细腻瞬间。
REC
这期专栏,主要就是讲讲我们法官在审判执行案件、探索规则过程中,不经意间在心头笔尖上流淌出的”互联网司法故事“。
人工智能介质下审判路径范式构建透析
——法律知识图谱的模型构建
作者
叶胜男 杭州互联网法院互联网审判二庭副庭长
李波 浙江省高级人民法院研究室主任科员
【论文摘要】 人工智能与司法实践有机融合已成为趋势,司法需求非常迫切,而人工智能审判作为一个“聪明但不独立的助手”,给司法应用带来契机。本文第一部分以互联网法院实际运行机制入手,从正面视角出发,通过智能化的信息可溯源、链路可互通、机器可抓取、图谱可汇制等特质追索人工智能审判的可能性。但法律知识图谱并不是一个黑盒子,神经网络算法突破了传统的线性思维逻辑,人工智能审判仍然有技术边界。第二部分以技术思维缺陷为探针,从反面视角出发,进一步研究得出限制人工智能审判应用的局限性问题,即法律知识图谱没有衍生性、人工智能无情感、“标准化”冲突、人工神经网络适用案件类型存在局限性。最后为司法审判的智能化寻找到一条切实可行路径,即构建法律知识图谱的模型。
一、融合:人工智能审判的可能性—以互联网法院为例
互联网法院全程在线、全程留痕的特性给人工智能审判带来了更大契机和广阔的天地。法律实务界将人工智能审判视为一个“聪明但不独立的助手”,即“以海量数据为基础,以类型化案件为突破口,通过提炼裁判规则、研发最优算法、归纳既有经验,以实现在类型化案件中裁判规则、司法经验,完成有限智能化。”[黄京平:《刑事司法人工智能的负面清单》,载《探索与争鸣》杂志,2017年第10期,第86页。]
(一)信息可溯源互联网法院受理的案件均为互联网案件,即法律关系产生、变更、消灭在互联网上的案件,其整个过程需要完全依托互联网技术或者完全发生在互联网上,因此诉讼来源于网络,信息可追溯、可留痕。当事人起诉的案件信息均从网上诉讼平台录入,比如信息网络传播权类纠纷案件都可以实现结构化录入,因此人工智能审判特别适合应用于互联网法院。互联网法院的电子存证平台、司法区块链平台均可以通过时间、地点、人物、事前、事中、事后等六个维度即解决数据生成的认证问题,让电子数据的生产、存储、传播和使用全流程可信。因此,相比于传统法院,互联网法院对于网上信息处理更具有优势,人工智能审判更容易实现。(二)链路可互通从链路上,互联网案件的信息是互通的,比如网络购物案件中淘宝信息订单等信息,证据可以保持从头到尾的一致性,信息互通没有障碍,机器可以在任一环节抓取证据。在诉讼效果上,全链路使得诉讼所有信息都可沉淀、可挖掘、可应用,能够真正形成司法大数据,极大的拓展了诉讼信息的功效和诉讼的功能。最典型的杭州互联网法院的司法区块链,具有全链路功能,通过实名认证、CA、时间戳、加密、隐私保护、风控、信用评价等,使得区块链中所存储的信息分布于多个服务器甚至所有网络用户的数据库中,在保证被存储数据与原始数据可以一一对应、无法篡改的情况下,也使得任何一个环节的电子证据容易被抓取。
(三)机器可抓取互联网案件因法律关系产生、变更、消灭在互联网上,事实相对清晰,以互联网侵权为例,该侵权行为主要是指利用信息网络侵害人身权益、财产权益的行为,其侵权对象,如作品、商标、宣传内容等往往存在于网络环境下,因下载、链接等网络行为而发生,侵权行为实施的渠道、途径都发生在网上,事实相对容易固定,故审判相对容易,机器比较擅长处理这类信息。以信息网络传播权类纠纷案件为例,这类案件具有高标准、重复性大、可定量的特点,在事实方面【作品名称】、【作品作者】【作品授权日期】【授权公司名称】【侵权时间】【侵权账号ID】【侵权账号名称】【作品首次发表时间】【发表地点】【被告注册资本】【被告经营范围】等要素相对比较清楚,机器可以通过关键词等方式进行抓取。(四)图谱可汇制构建知识图谱的主要目的是获取大量的、让计算机可读的知识,包括知识获取,即从非结构化、半结构化以及结构化数据中获取知识;数据融合,即将不同数据获取的知识进行融合构建数据之间的关联;知识计算及应用,即基于知识图谱计算功能以及基于知识图谱的应用。大量的法律专业人才和技术人员通过构建法律知识图谱,来实现技术和法律的融合。目前华宇元典法律知识图谱内容的提炼过程大致经历了这几个步骤:小样本研究,监督学习,人工标记,人工检索,强化学习,交叉验证,原型开发,模型测试,部署试用,模型调整。 法律知识图谱属于垂直行业领域的知识图谱,从图示的直观形式来看,它是众多法律要素组成的知识库。法律知识图谱是机器进行法律知识推理的基础,它将法律规定、法律文书、证据材料及其他法律资料中的法律知识点以一定的法律逻辑连接在一起形成概念框架,它的概念框架上的每个知识实体或概念又分别与法律法规、司法经验、案例、证据材料等相应挂接,从而建立起法律概念、法律法规、事实、证据之间的动态关联关系。不同于英美法系的判例法,在中国是成文法的背景下,知识图谱将法条和司法解释用更加有逻辑的语言表达出来,且比文字更加明确,更加有逻辑。知识图谱优势在于可以根据法条、司法解释的更新进行迭代,因此可以构建出知识图谱为主,大数据为辅助,类案为辅助的人工智能审判框架。(五)黑盒子的悖论 人工智能审判的“黑箱”可以被解读,AI像人一样具有复杂学习的能力,可以从许多看似不相干的事物中产生一个认知。神经网络算法可以描述不相干的事物,其采用网状的非线性函数,在不相干的元素中建立一个假设的逻辑关系,然后通过海量的数据来检验这种假设的正确性,淘汰正确度低的假设,保留正确度高的假设,如果通过简单的线性逻辑去反向理解它产生结论的原因,就相当困难。但是法律知识图谱并不是一个黑盒子,神经网络算法突破了传统的线性思维逻辑,图像领域的许多标准任务上已经有一定的可解释性。实践操作中,人工智能审判中每个环节法官都可以参与,比如证据认定环节、事实认定环节等等,法官知道自动生成裁判文书的推理过程,如图2所示,人工智能审判的整个框架都在审理案件逻辑,最后出裁判结果。二、阻碍:人工智能审判的局限性——从技术的本质特征角度
但是机器不是万能的,法律知识图谱没有衍生性,目前的人工智能审判都是通过案由进行分类,一种案由的法律知识图谱只适用于特定案件,没有衍生学习能力。法律专业壁垒在法律知识图谱的构建中,乃至在法律大数据领域,都是难以逾越的。法官具有全面学习的能力,法官是全能的,但是机器人无法具备,只有人类输入什么,机器人才会接收什么。
(二)人工智能无情感
有人认为,人工智能缺乏人类智能“心性、灵性和智性”混合体中的“灵性”成分,根本无法与人类法官相提并论。法律事务从业者认为“至少在某些方面”人工智能与人类法官注定存在差距,由于“人工智能审判的局限性、法官审判工作的逻辑性、系统性、法官的职业性和经验性”等三方面的原因,导致司法人工智能无法取代法官。[潘庸鲁:《人工智能介入司法领域的价值与定位》,载《探索与争鸣》,2017年第10期,第104页至105页。]
必须承认的是,像案情整理和法律检索甚至是IPO这种标准化程度较高的工作,都能由机器人承担,关键点在于复杂案件中的事实认定和法律适用的问题。“法律的生命不在于逻辑,而在于经验。”潘德克顿法学的法律体系发展出一套“概念法学”,主张用逻辑的方法解释实在法,法官就是对法律进行逻辑操作的机器,不允许司法对立法进行解释和续造,但最终失败。
机器是没有感情的,这使得机器人虽然不会被情绪所影响,能够做到绝对地无所偏私,但是也不会使用情绪,不会理解情感,也不会理解何为正义感。即使机器人有学习能力,有大数据运算能力,但是也无法像法官在面对一个主动认罪的被告人时做出的思考:“是不是可以考虑减少一个月,酌定从轻处罚”。特别在民商事案件中,很多案件的服判息诉都是因为法官在审判过程中体现的公信力、人文关怀和人格魅力,而机器无法体会。因此法官需要不断学习更新,需要对社会和人生具有深刻理解,充满创造性、富有正义感。
(三)“标准化”冲突
人工智能审判面临的挑战之一在于当前目前人工智能审判的“标准化”的要求与当前人类司法的“可靠性、相对性、适度性、独立性、可控性”存在间接的潜在冲突。有人认为,无论是ODR(online dispute resolution,ODR)还是正式的判决系统,通过使用多渠道的更好且易用的信息,并去除诉讼当事人的外表信息(如种族、性别、体重等),都能够有效降低判决过程中的主观偏见性。也有人认为,“具有相对性的民商法司法裁判都具有明确的上位法依据,主要体现为正式制度适用的差异,因此作为判定司法责任基准的裁判尺度,是以相对性为基本特征的。”[黄京平:《刑事司法人工智能的负面清单》,载《探索与争鸣》杂志,2017年第10期第92页。]人工智能审判提供的是标准化审判,而法官由于长期、良好的司法专业训练对审判工作没有完全统一的标准尺度,特别对于疑难复杂案件,人工智能审判对于判决书说理论证等需要法官自由发挥的部分无法胜任。
(四)人工神经网络适用类型的局限性
人工神经网络由输入层、多隐层、输出层构成,每一层都有若干个神经元,神经元之间有连接权重,是模仿神经网络行为特征并进行分布式并行信息处理的算法模型。由众多神经元的连接权值而成的神经网络系统,具有深度学习的能力。[【美】Start J.Russell、Peter Norvig:《人工智能—一种现代的方法》,殷建平、祝恩、刘越、陈跃新、王挺译,清华大学出版社2013年版,第254页。]人工神经网络对没有严格定律隐含层神经元数量的选取,其可以通过经验、训练来获取,但是对层级化结构、要件化、标准化要求较高,故而限制了适用的案件类型。遵循“确定请求权基础-解构要件-证明要件-事实认定-法律适用”识别路径的要件事实型民事裁判案件内在契合了人工神经网络的特征,实体法规范、构成要件以及要件事实构成逻辑严密的网络,能够使得机器从案件事实中区分出基本层次,最适合通过汇制法律知识图谱来实现智审。
三、应用:人工智能审判的模型探究——要件事实型民事裁判论
要件事实型民事裁判论是指,明确要件事实法律性质后,依据民事实体法规范结构、民事诉讼审理机构展开的民事裁判方法。[许可:《民事审判方法:要件事实引论》,法律出版社,2009年版,第2页。]其裁判逻辑为:“识别请求权基础规范—请求权基础规范的要件解构—争点整理—证明责任分配—争议事实认定—涵摄得出裁判结论”,综合实体与程序,最终得出结论。人工智能易于模拟具有确定的审理对象、明晰的法律规则、经审理后确定的案件事实以及规范的程序规则,这些内容都是要件事实型民事裁判论的核心要义,因此要件事实型民事裁判论从性质、结构、方法上,都是人工智能知识积累的较好选择。
序列标注方法上,学界提出了LSTM-CRF模型做序列标注,在LSTM层后接入CRF层来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。在英文NER任务中先使用LSTM来为每个单词由字母构造并拼接到词向量后再输入到LSTM中,以捕捉单词的前后缀等字母形态特征。
(一)模型总体路径分层标注的解读
首先,根据原告诉讼请求以及事实理由明确案由、诉讼标的,以确定案件审理的请求权基础规范,再将请求权基础规范解构为若干要件,对请求权基础解构下的第一层次的要件事实进行标注。
其次,标注要件事实的证明与认定过程,审理过程中,被告对于原告诉请会进行答辩,原告要对其所主张的事实承担证明责任,只有完成高度盖然性的要求,原告的事实理由才能法官认定。在此过程中,法律专家需要对证明责任分配和证明标准予以标注,提供给机器学习。被告针对原告诉讼会提出事实抗辩或者间接否认的积极防御,就需要对事实抗辩与间接否认的证明责任分配及证明标准的节点予以标注。
再次,标注证明路径。证明路径可以分为两种:一种路径是直接证明,当事人通过举示证据而直接证明事实,另一种路径是间接证明,当事人通过间接证据来证明间接事实,法官依照经验法则推定主要事实。法官专家可以按照此二维路径对个案证明方式予以标注,并形成司法大数据,机器就可以依照证明方式的知识点进行深度学习。
最后,标注请求权基础规范能否适用的法律效果。请求权基础规范的各个要件事实均被认定为真的情况下,请求权基础规范能够得以适用。法律专家可以对各要件事实认定情况、裁判结果加以予以标注。
综上,通过要素解构要件事实型民事裁判论,可以实现对实体法规范、各要件事实、事实主张与抗辩、抗辩与间接否认、证明责任、直接证明与间接证明、裁判结果等各要素形成分层次、分阶段标注,这些要素也可以提供给机器规范化、标准化、体系化的知识积累。需要注意的是,机器在此过程中需要对起诉书、证据、庭审笔录等字、词、语句、篇章学习、理解、记忆,进行表征学习,文本表征里面分为三个部分:词级表征、句级表征、篇章级表征,可使用模型有词级表征模型:Word2Vec,Glove,Bert;句级表征:CNN,RNN,Bi-LSTM,GRU;篇章级表征:RNN-Attention,GRU-Atten。
(二)案例演示——以信息网络传播权类纠纷案件为例 信息网络传播权纠纷是典型的要件事实型民事裁判类纠纷,法官可以根据请求权基础规范的构成要件,将待证事实解构为若干要件事实。绘制法律知识图谱的过程中,法律专家根据要件事实论完成层级解构和标注以后,机器可以有效学习。在信息网络传播权纠纷中,包括以《中华人民共和国著作权法》第三条、第九条、第十条、第十一条、第二十五条、第四十七条、第四十八条,《中华人民共和国侵权责任法》第九条为请求权基础的侵权损害赔偿之诉。 首先,标注请求权基础要件包括著作权人享有权利的种类和范围、作品权属确定、著作权授权转让关系确定、原告作品与被诉侵权人作品的内容比对、合理使用或法定许可使用的范畴、被诉侵权行为的认定。其次,标注要件事实、证明过程。原告诉请的要件事实包括原始信息网络传播权的归属、信息网络传播权转授权的事实、文章或者图片侵权的时间、地点、过程,就侵权损害赔偿之诉来说,原告只要以著作权登记证书、声明书、转让协议等权属证据证明了作品性质、作品权属,并提供公证书、截图、录屏等证据证明侵权事实,即可证明侵权成立。个案中,被告可能对权属事实提出抗辩,认为原告不享有著作权,转授权关系不成立,或者侵权比对中认为不构成相同或者实质性相似,侵权不成立。抗辩事实包括侵权图片、文章已经删除,被告没有获利、服务器流量截图等事实证据。再次,标注证明路径。直接证明路径为原告主张权利的作品属于《中华人民共和国著作权法》第三条、第十条保护的作品、著作权类型成立,且该作品受著作权法保护的期限已经届满,原告作品先于被告作品产生,分析原告作品作为权利载体的表达形式和特点、被诉侵权人的作品表达形式和特点,进行作品比对,最后审查被告使用被控侵权作品的情形是否属于合理使用或法定许可使用的范畴,以上要件齐全,侵权成立。间接证明路径主要针对被告的抗辩理由,在难以进行直接证明的情况下,需要提供作者手稿、授权时转账记录等间接证据证明作品权属,并在庭审中进行详细比对原告作品和被告侵权作品,法官在以经验法则为大前提下进行间接证明。针对著作权是否成立、原告是否享有著作权、作品比对的权利阻却事实,被告承担证明责任。因此为建构机器学习的前提,将权利妨碍事实、权利消灭事实、权利阻却事实等各类具体情形予以明细化、类型化,并予以标注,供机器学习,如此就可以形成围绕被告抗辩的人工智能裁判知识。无法直接证明作品权属、侵权成立、事实推定过程、经验法则、高度盖然性等间接证据达到民事诉讼优势证据原则的要求,侵权即告成立。两种证明路径标注后供机器学习,从而实现精准推送与精确辅助。最后,对裁判结果进行标注。信息网络传播权的侵权损害赔偿之诉中,驳回原告全部诉讼请求、驳回原告其余诉讼请求,判令被告赔偿原告等裁判结果的事实依据、法律依据进行要素解构和标注。特别是请求权基础、要件事实、证明过程、证明路径等事实成立或者部分成立导致不同的裁判结果进行标注,供机器深度学习,最终相应的法律知识点作为分支结构,形成一颗决策树。目前一颗决策树的法律知识图谱被验证不足,法律图谱应当是立体形态的,且只是引擎的一个环节,多种图谱通过逻辑符改造搭建成引擎,最终绘制成立体决策树。本文内容刊登于《人民司法》2019年第31期