实战 | NLP文本智能应用研究与创新实践
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 华夏银行信息科技部 李大伟 徐小芳 关杏元
NLP(自然语言处理)是人工智能领域的一个重要分支,应用非常广泛。近年来,金融行业特别是银行业也在很多业务上尝试使用NLP技术,特别是NLP文本智能。华夏银行深入开展应用研究,结合自身需求,构建了企业级的NLP文本智能开发部署平台,实施创新实践,在审计、运营管理、客服等领域落地了一批示范项目,探索出一条适合华夏银行的新技术应用创新路径,为银行同业快速转化研究成果和提升自主掌控能力提供了思路。
研究背景
1.需求现状
当前,华夏银行正如火如荼开展数字化转型升级,对AI的需求,表现非常强烈。大家普遍反映在现有的文本处理工作中存在非常多的痛点和难点,例如,在文本分类、归纳、提炼、校验审核、关键信息提取等工作中,主要依靠熟练和有经验的人在做,为此投入了大量的人力、耗费了大量的精力,但效率低、效果差。而且,在众多项目内部也存在大量文本分析处理的需求。经过探索研究,我们认为,NLP技术可以为这些需求提供较好的解决方案。
2.NLP文本智能简介
NLP文本智能就是利用计算机完成对文本中的字、词、句、篇章进行识别、分析、理解、生成等操作。NLP文本智能可帮助人们高效完成文本分类、归纳、提炼、校验审核、关键信息提取、搜索、翻译、自动问答等工作。
3.能力和应用现状
商业银行的NLP文本智能能力一般主要服务于客服相关场景。除此之外应用于智能客服外部业务和内部管理的案例较少。其功能和应用范围相对固定,对外输出拓展性不强。
因此,我们认为很有必要加强NLP文本智能应用研究,努力开拓NLP应用创新。
应用研究
应用研究就是研究(技术)如何应用。一要研究技术是什么,原理是什么,做到“知其然,知其所以然”;二要研究怎么使用,方法是什么;三要研究应用场景是什么,怎么与具体的业务场景相结合。
1.原理、思路和方法的研究
“技术研究的深度决定应用水平的高度”。面对众多的NLP需求,华夏银行启动了NLP技术的应用研究工作,组织骨干力量着手研究、梳理、总结NLP核心技术原理、实现思路和主流方法。
NLP关键的技术点众多,包括分词、文本向量化、文本分类、聚类、文本相似度、关键词提取、知识图谱等。我们采用逐点突破的方式,一个一个啃骨头。比如分类问题,首先要搞清楚文本分类技术的基本原理和实现方法,其次要了解每种方法的优劣。文本分类技术包含许多不同的算法,如TextCNN、BERT、FastText、SVM、LSTM等,哪个效果更好,哪个更适合我们的需求,这就涉及到算法选择问题,需要结合具体需求和数据验证算法有效性、准确率、召回率等,通过一系列的指标对比综合衡量,最终选择相对最佳的算法。
目前,团队已完全自主掌控了文本分类、聚类、文本相似度、关键词提取等技术的应用方法。
2.前沿技术研究
自然语言处理技术发展日新月异,最新的算法、模型、方法、框架等应用效果不断提升,跟踪其前沿技术、掌握其应用方法非常必要。领先的技术,如ERNIE2.0、XLNET、BERT、FastText等算法和模型都是最近由百度、谷歌、Facebook等公司提出。经过研究,我们掌握了这些先进算法的基本原理和应用方法,结合我们的业务需求开展了实际应用,取得良好效果。
3.原型开发
原型开发实际上是一种快速确定需求的策略,是对用户的需求进行提取、求精,快速建立最终系统工作模型的方法。
就创新应用研究来看,原型开发有三个目的,一是验证技术的有效性、可用性;二是快速实现核心功能,进行效果展示,获取真实的客户体验;三是通过不断迭代优化,为最终产品的实现打下坚实基础。
针对文本搜索、文本分类、信息抽取有关的需求,我们均完成了原型开发,其实现效果获得业务部门的认可。
打造平台
为满足应用场景快速落地和批量推广,进一步提升NLP文本智能应用安全性、稳定性、客户体验。在前期应用研究的基础上,华夏银行瞄准先进技术水平,组织创新资源,打造了共性关键技术支撑平台-企业级的NLP文本智能平台。
1.架构
系统整体架构如图1所示,NLP智能平台系统结构分为三层。
图1 NLP系统整体结构
底层负责对NLP算法、数据、实验、模型、服务等进行统一的调度和资源管理,实现模型训练和服务部署。
中层为引擎层,包含多个专业领域的NLP功能模块,如自然语言理解和内容分析,未来可扩展对话管理、问答、搜索等偏上层的模块。
上层为应用层,针对具体需求进行定制化应用开发,如文本处理、智能搜索、舆情监控、对话系统等。
2.功能
作为NLP能力的核心,自然语言理解和内容分析引擎模块集合了文本分类、实体识别、聚类、自动摘要、关键词提取、相似文本、文本纠错等功能,能够完成最经典的几种文本分析任务。具体功能及适合的应用场景如图2所示。
图2 NLP平台功能及适合场景
3.特点
该平台是通用的一站式NLP文本智能开发工具,支持完整的模型全生命周期管理,支持服务的镜像导出,支持微服务部署,内置了丰富且先进的NLP算法仓库(关键算法达到39种),积木化的功能模块搭建,便于功能的进一步扩展。
该平台的建成,填补了华夏银行NLP文本智能开发部署平台的空白。
创新实践
基于NLP文本智能平台及有关技术,我们在审计、运管、客服、贸易金融等领域均开展了创新实践,具体的任务或场景包括热点分析、相似文本、文本分类、关键信息提取。
1.热点分析
应用NLP技术(文本分类和文本聚类)实现柜面及运维相关系统中文本内容的智能分类、归纳、提炼,并进行热点可视化展示。热点分析建模的逻辑设计如图3所示。
图3 实现逻辑
热点分析建模,具体步骤一是通过对部分现有评论数据进行人工热点类别标注,可以获取训练数据和评估数据,并运用文本分析引擎训练分类模型;二是分类模型自动检测新生评论的类别,当业务范围出现变化,产生了新的评论类别时,可以将无法正确检测的评论数据投入分本分析引擎的聚类模型,进行无监督的标签聚类;三是通过挑选有意义的类别和相应的评论数据汇入原始训练数据,可以进行分类模型的训练更新,以发现新的热点。
2.相似文本
相似文本是NLP应用领域的一个经典问题,也是贯穿智能客服离线、在线和运营等几乎所有环节最核心的技术,广泛应用于搜索、推荐、对话等领域。我们对所有的文本建立了向量库,然后使用待搜索文本的向量与向量库中的向量进行匹配检索,计算文本相似度,最后统计输出相似度最高的几个文本向量。
我们应用相似文本技术实现了生产支持的智能审单、审计问题的智能定性、合同文本风险条款智能识别、审核比对等需求。
3.文本分类
文本分类是NLP技术所能解决的最经典、最重要、最基本的任务类型之一。文本分类建模的实现过程包括分词、文本向量化、算法选择、建立训练网络、训练生成模型等步骤。
我们利用NLP平台提供的文本分类功能完成了客服投诉工单、生产事件的多维度智能分类和模型自迭代更新。智能分类速度快,准确率高,稳定性强,有效减轻客服人员的工作负担,生产支持工单审核时长缩短50%。应用效果获得业务部门的一致好评。
4.关键信息提取
关键信息提取包括实体识别、关键词提取等技术。其中实体识别是指识别文本中具有特定意义的实体,包括实体类(如人名、地名、机构名、专有名词等)、时间类(如成立日期、开始时间、结束时间、生效日期、签署日期等)、数字类(如金额、年龄、总价、数量等),实现过程的第一步是识别出实体词边界(位置信息),第二步是识别出实体的类型。实现方法包括基于正则规则和基于机器学习。
在合同审核场景中,我们通过NLP实体识别和关键字管理实现了合同文本中关键信息快速定位和提取,辅助业务人员比对审核,在确保审核准确度的前提下,大幅提升审核效率。
目前,我们针对热点分析、相似文本、文本分类、关键信息提取4类问题分别形成了解决方案,针对类似的需求我们可做到快速复制、批量推广。
总 结
以需求为导向,我们按照应用研究(原理、思路、方案、原型开发)、打造平台、创新实践、批量推广逐渐演进的技术路线(详见图4)开展了NLP文本智能应用探索,在关键领域、关键环节实现突破,投产数十个模型和服务,取得了初步成效。应该说,我们找到了一条行之有效的路径,可以为业界其他新技术应用创新提供借鉴。
图4 技术路线
下一步,我们一方面将扩大NLP技术的应用范围;另一方面考虑进一步扩充NLP功能,提升NLP能力,比如增加知识图谱模块,为开展风控、搜索、舆论分析、反欺诈、知识推理等应用实践提供技术支撑;再一方面要实现多技术融合,比如在合同审核中增加OCR技术,实现图片到文字的自动转化,进一步提高合同审核的数字化和智能化水平。
往期精选:
(点击查看精彩内容)
● 实战 | 交行信用卡“买单吧”在鸿蒙技术生态中的探索与实践
● 实战 | 结合恒泰证券实际工作经验对券商数字化转型的理解
《金融电子化》新媒体部:主任 / 邝源 编辑 / 傅甜甜 潘婧