合同智能审核关键环节——基于样本标注的合同语料库建设
近年来,自然语言处理和机器学习技术逐步在识别及处理文字、图像、语音等多个知识领域大展拳脚,替代了大量机械性、重复性的工作。合同语言作为语言学在法律学科上的应用,具有规范化、模式化、稳定性强的特征,相较于庞大的语言学词义知识学习,人工智能技术对于合同语言的处理则更为得心应手。
在合同审查情境下,自然语言处理技术主要通过统计和规则相结合的方法,运用统计模型从合同语料库中学习合同语言知识,进而把合同语言知识作为机器学习模型的参数实现合同要素的抽取,并在应用的过程中对规则参数不断进行修正,最终使模型训练效果达到最佳。能够作为参数用于机器学习的合同语言知识数据必须是规则化、量化的信息,称为合同语料库,通过标注建立的高质量语料库是机器学习算法得以运转并建立良性循环的基础。
建立面向自然语言处理的合同要素分类体系
建立高质量合同语料库的前提是从合同语言工程的角度建立合同要素分类体系。完善的合同要素分类体系离不开专家经验的梳理和整合,需要熟悉各类合同业务的专家从各类型合同的主体行为风险防控、法律规则、内部规则、业务管理等内外部要求出发,结合合同业务场景、法律性质、合同标的等维度,分析合同审查的基本规则,设计自然语言处理能力胜任的风险点,并基于合同审查规则,判断服务于审查规则实现的合同实体,为同类合同实体命名,确立合同要素,分析各类要素的规律和特征,设定要素之间的关联关系。北大法宝整合北大法学院多位法学学者的专家经验,逐步建立了合同通用审查,以及购销类、建设工程类、技术服务类等12类专项合同审查要素体系,并在多个项目中得到有效验证。
建立客观标注标准,确立样本标注流程及标注规范
合同样本标注是指标注人员通过将合同文本中的标注对象与要素候选集合进行匹配,选出最合理的要素值作为标注结果。在进行数据标注前,应根据不同标注平台的实际情况和所需要的标注数据特征建立不同数据集,制定规范的标注流程,标注流程的初始阶段,标注管理员应根据不同的标注需求,将待标注数据划分为不同的标注任务,每个标注任务都有不同的标注规范和标注点要求,因此标注规范至关重要,标注规范应尽量详细,尽可能提示标注的所有注意事项,并对所有需要标注的要素进行释义,同时制作标注实例,规范标注标准,统一标注方法,尽量减少标注人员主观判断引起的歧义和偏差。
合同样本标注要求标注人员对预设的合同要素在各类合同中进行准确识别,具备合同审查经验的标注人员能够更好地判断合同文本中表述是否匹配相关要素定义,在建立标注角色时,应对各标注任务配备相应的标注质量审核人员,标注审核人员应对各类场景的要素判断更为熟练,能够完成数据统计与数据校对,把控标注质量,适时修改错误并补充遗漏的标注。
建立具备共享性和可扩充性的高质量合同语料库
高质量、多样本的合同语料库是保证合同审核训练模型强壮的基础,然而,因合同数量存在限制,且包含大量敏感信息,当前市场上的各类合同智能审核产品都在为解决语料问题而或多或少消耗成本。为保证用于标注的合同数据安全性,避免商业秘密泄露,用于标注的合同样本可以删除敏感信息,同时采用数据治理、数据分割等方法对数据标注的全生命周期进行监控。如果能够整合数据,规范合同标注培训,制定统一的标注标准和审核流程,使用开放的标注平台,建立具备共享性和可扩充性的高质量合同语料库,实现合同语料库的开源,将高质量的数据集应用于不同的训练任务,以训练更强大的模型,并使这些模型在训练过程中自动创建更有挑战性的数据集,建立良性循环,则能极大提高机器审查各类型合同的相关指标,实现法律科技的突破。
北大法宝在法律科技及企业法务领域深耕多年,已服务多家大型央/国企,公司基于多年来大量法律法规、司法案例等法律数据的标注基础,逐步组建了涵盖标注管理人员、标注质量审核人员、标注人员的合同标注团队,并通过标注积累和模型优化,形成了高质量的合同语料库,依托北大法宝人工智能研究院强大的算法团队,推出了法宝来签产品。
法宝来签是一款面向中小企业法务及律师服务的合同科技产品,基于法宝多年沉淀的合同范本知识库,通过智能算法技术能力,不断优化企业合同审核中相关法律风险提示,助力企业法务更高效、更精准、更专业地对合同风险进行全方位的判断与掌控,旨在为用户提供良好的合同撰写、智能审核工作体验。
责任编辑 | 吴晓婧
审核人员 | 秦立兴 张文硕
本文声明丨本文章仅为交流之目的,不代表北大法宝的法律意见或对相关法规/案件/事件等的解读。
▼ 往期精彩回顾 ▼
图文解读|中央企业合规管理办法中央企业合规管理办法正式发布(附与公开征求意见稿智能比对)“践行合规管理办法”——中电科十四所合规管理二期顺利上线
合规强化年,智慧法务月:企业合规工作该如何开展——从合规产品角度看合规强化年 智慧法务月:数据安全、反垄断等专项合规审查工作中的合规义务及责任条款
合规强化年 智慧法务月:外部合规义务清单与企业业务的智能匹配
合规强化年 智慧法务月:要合规先立规,某大型央企智能立规实践
附全文 | 国务院国资委就《中央企业合规管理办法》公开征求意见
对面的法务看过来(二):北大法宝全面响应《关于进一步深化法治央企建设的意见》的实践分享!
国家电网:提升法治数字化管理能力 打造央企法治数字化转型“硬核”成果
央企法务人员达3.2万 ,其中90家央企将依法治企纳入考核评价体系
点击下方公众号名片
获取更多信息