实战 | NLP技术在银行理财产品销售场景的运用实践
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 中国光大银行信息科技部 张彬 王熙辰
自然语言处理(Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。得益于AI技术的发展,NLP技术渐臻成熟。伴随着商业银行中人工智能开发技术的普及,NLP技术在银行领域的自研AI应用中逐渐崭露头角。本文将介绍在银行理财产品销售场景中,NLP技术在财产证明要素提取环节的应用。
相关背景
随着数字化转型的推动,商业银行在业务飞速发展的过程中沉淀了海量数据,非结构化数据逐渐成为了商业银行支撑业务发展的新引擎。因此,加大数据领域探索,深入挖掘海量数据所蕴含的巨大潜在价值,成为当前银行从业人员的共识。以往的金融数据分析大多集中在客户行为分析、营销预测、风险管理等数值分析方面,对于文本处理相对较少。在语音识别 (Automatic Speech Recognition, ASR)、光学字符识别 (Optical Character Recognition, OCR)技术的加持推动下,业务对非结构化文本、语音、图片的内容挖掘需求日益增长,要求也越来越高。对此,运用NLP技术可使银行相关任务实施落地,如财产证明要素提取、智能语音分流、简历分析等,辅助提升银行服务能力,实现降本增效。本文将以财产证明材料提取环节为例,介绍在银行私募理财产品销售流程中,要素提取的运用。
应用场景分析
在银行私募理财产品销售场景中,传统的业务流程需要消耗大量人力成本审核客户的资产材料,以核验用户金额、姓名、开票日期、开票机构合规性等问题。此类审核工作一方面效率低并且无法线上化,另一方面出错率较高。为推动该业务数字化转型,使用人工智能技术对现有交易流程审核关键节点进行智能化改造。如图1所示,用户通过手机银行上传收入证明、征信报告等待审核材料,通过OCR、NLP关键信息抽取模型服务,精准提取用户上传的财产证明中姓名、收入、资产等关键信息要素,在线实时返回审核结果,秒速告知客户财产证明材料中存在的问题,方便客户自主审核而无需排队等候,从而进一步优化人工成本,降低合规风险,提升业务审批效率。
图1 银行理财产品销售在线自动化审核流程
智能提取服务解决方案
1.业务流程设计
业务流程设计如图2所示,具体步骤如下。
a. 用户通过客户端,上传审核材料到后端系统中,用户选择审核材料的类型。输入的审核材料类型为手机截图、电脑截图、收入证明、征信报告等图像信息。
b. 图像信息通过OCR识别后,文本信息传入NLP服务,服务内部通过NLP技术抽取各个材料类型的关键信息。此步骤为核心模块,涉及数据预处理、财产证明多分类模型、关键信息抽取模块(开放域Key-Value提取模块、表格结构化模型)和数据后处理等重要模块。
c. 接口输出用户名字、用户资产、日期等信息,配合业务的逻辑反馈前端。
图2 业务流程图
不同财产证明材料提取采用不同技术方案,材料类型分类准确是后续提取信息抽取准确的基础。因而智能提取服务在用户提交材料类型的基础上,采用算法检测用户选择图片类型和图片实际内容是否匹配。分类范围包含:手机网银截图、web网银截图、银行存款证明、理财持有证明、收入证明、简版征信报告。其逻辑如下:输入为文本信息和用户选择的类型,输出分类概率表,即该资产证明材料为对应六种材料类型的置信值。业务系统通过置信值可以判别上传的图片类别是否准确无误。
2.技术流程设计
技术流程设计如图3所示,具体步骤如下。
a. 资产认证材料的OCR识别结果,首先进入文本分类模块以实现业务流程中的材料分类步骤。利用粒子群算法BPSO进行特征选择,Polynomial算法进行特征非线性变换以及特征融合技术等增强特征后,结合ERNIE2.0算法进行文本分类任务。
b. 为进一步增强分类模型的准确性,智能提取服务结合Platt Calibration校准算法,以及保序回归校准算法,增强预测结果可靠性。
c. 根据材料分类结果,结合各类材料特征,智能提取服务将财产认证资料分为流式文档、表格文档、制式文档等,并根据各类文档特性的不同,分别选取Ernie Encoder开放域Key-value抽取、基于GCN的表格结构化模型等方法,辅助以建立好的银行名称字典库等进行信息抽取。
d. 关键信息抽取后,进入业务逻辑判定模块。该模块通过正则以及业务逻辑等先验知识进一步标准化输出结果。
图3 技术流程图
3.核心模块设计
关键信息抽取模块是智能提取服务的核心,其采用了多种NLP技术,以保证不同类型材料均可以得到有效的信息抽取。其核心NLP技术为开放域KV提取,以及表格结构化提取。
(1)开放域KV抽取
开放域Key-value抽取技术是基于Ernie Encoder以及Subject Tagger实现,用于从给定的一段文本中抽取用户自定义的任意字段(以下称为key)对应内容(以下称为value)。其通过行内数据训练后,完成从财产证明材料文本中抽取姓名、资产金额等内容,形成结构化信息,完成有效的信息抽取任务。下面以收入证明资产证明为例,详细介绍模型的原理。
图4 开放域KV提取
开放域 Key-value抽取技术整体包含以下文本预处理、意图输入数据构建、value抽取3个基本处理部分,处理流程如下。
系统通过预处理,规则引擎将整篇文章分为三段S1[姓名句]、S2[资产句]、S3[日期句]。
a. 首先去除文本中的空格等完成干扰字符去除,并使用分词模块按照字符粒度分词。记处理后的待抽取文本为T,处理后的每个待抽取字段K_i。
b.然后拼接字符串Si,按照规则拼接字符串:[CLS] Ki [SEP] T [SEP],其中[CLS]为文本开始的特殊标志符,[SEP]为文本结束的特殊标志符。
通过模型计算模块,根据提取任务构造意图。
如姓名提取子任务为例:构造问题“文档中["姓名"]是谁?”将["姓名"]作keys,姓名信息字符串S1作为doc,调用模型。
调用阅读理解模型,提取出来的相关要素(KEY)的预测值(VALUE)。
a. 获取字符对应id:获得上述组合后的字符串后,通过查询词表,获得每个字符对应的字符id为W_id,并获得对应的句对id与位置id。
b. 设Ki对应字符id长度为lk,对应文本长度为lt,则对应的句对id为Sid=[xj],其中
对应的位置id为Pid=[yj],其中
c. 将上述id其转化one-hot编码后,生成每个字符对应的词向量Token Embedding、句对向量Segment Embedding与位置向量Position Embedding,具体如下:
其中W为各embedding矩阵,x为各one-hot编码向量Di。
将三者相加后作为输入的特征向量,经过阅读理解模型进行深层次语义提取后,获得每个字符的最终语义特征向量。
d. 将每个字符的语义特征向量映射至二值空间:采用多分类器,得到每个字符的二分类输出:
若
将该字符标记为“ I ”,否则标为“O”。将连续为“ I ”的字符拼接到一起,则构成了一个完整的value预测,输出所有的完整value作为抽取结果。
(2)表格结构化提取
资产证明材料、银行存款以及理财证明均会出现大量表格信息文本,并且由于各家银行的证明材料中的表格结构均不相同,难以采用统一的表格提取策略,成为智能提取服务的难点。本文根据文本特征,将数据非表格区域、有线表格区域以及无线表格区域的对应文本特征进行抽取。
针对非表格区域,通过资产持有证明模型提取非表格区域的关键信息(姓名和日期);针对有线表格区域,利用表格识别得到的字段的行列号完成行列对齐,然后根据行列对齐的结构完成关键信息(用户资产、币种)的提取。针对无线表格区域则(如图5所示),基于图卷积神经网络 (Graph Convolutional Network, GCN) 建立无线表格文本内容、文本位置以及结构位置的标签。即智能提取服务将会获取各个字段的坐标以及语义信息,以表格的key以及value作为GCN模型的节点,以各个节点的位置以及语义关系作为GCN的边,从而预测各个字段的临近关系以判断key-value信息。
图5 基于GCN的无线表格信息抽取算法
应用价值
1.结果分析
测试用例为随机抽取的各类材料数据分别100张,资产区域为有线表格区域。
表1 抽取结果
图片类型 | 信息抽取准确率 |
收入证明 | 姓名:90.8% 收入:85.9% 日期:93% 收入年限:80% |
手机截图 | 姓名:79% 日期:93% 资产:83% 银行名称:95% |
电脑截图 | 姓名:79% 日期:93% 资产:76% 银行名称:95% |
理财证明 | 币种:94% 姓名:98% 日期:85% 资产:79% 银行名称:98% |
资产证明 | 币种:99% 姓名:85% 日期:92% 资产:85% 银行名称:99% |
央行征信报告 (简版) | 贷款:90% 姓名:97% 日期:98% |
说明:样例已经排除OCR识别错误(效果仅作参考)。金额允许10元误差,比如10100.1约等于10103。
目前,该服务已经应用在私募理财产品销售流程生产环节,模型准确率平均达80%以上。
2.应用意义
(1)线上智能化交易提升客户体验。
当前疫情的挑战仍然需要警惕,银行提供“非接触”服务能力给客户带来更安全体验。通过AI技术帮助客户实现私募产品线上合格投资者智能核验等功能,使得客户不论身在何地,均可足不出户使用合格投资者智能核验的优质线上智能化交易旅程体验。
(2)推动银行财富管理业务智能化发展 。
当前金融科技已成为财富管理业务发展的重要驱动力,通过人工智能、大数据等新技术的应用可以有效的帮助银行从标准化、线上化向个性化、智能化进行升级。通过应用AI技术在合规销售、交易风险管控等方面助力财富管理业务迈向智能化发展新方向。
(3)降低人工核验成本、核验标准有效统一。
运用NLP、OCR技术改造银行私募理财产品销售场景,将原有人工审核的流程替代为AI智能审核,节省人力的同时还规避了了人工核验标准不一,材料重复提交等风险问题,也同时避免提交虚假无关的影印财产证明材料。
展 望
通过对NLP技术的探索运用,有效地提升了银行私募理财产品销售流程智能化。目前,该开放域Key-value抽取技术通过差异性训练,也可应用在地址比对模型中提取省、市、区、详细地址等内容。通过地址比对模型可以完成多种创新场景的应用,如应用到智能外呼、数字人的核身场景,通过AI询问客户并对比客户在系统预留地址信息,进而判断是否是本人,增加核身技术的多元化。
后续将持续探索金融领域的OCR+NLP应用场景,例如在托管单自动接入录入完成自动审核;在财报自动识别录入场景节省人工录入;在私行代销文档智能风控审核场景,完成在销售准入审查环节实现智能审核,包括“发行准入条件审查”实现对产品资料和审批意见一致性的智能审核。
为了支撑业务对非结构化数据挖掘、分析的需求,后续本文将继续探索NLP技术在银行的应用与研究,通过完善的NLP开发、训练、投产、后评价全流程体系,推动NLP能力向着组件化、产线化、服务化、平台化的建设目标迈进。
往期精选:
● 实战 | 助力客户体验提升——NLP在分析客户反馈场景下的应用
《金融电子化》新媒体部:主任 / 邝源 编辑 / 傅甜甜 潘婧