查看原文
其他

一场AI技术引发的金融业“降本增效”

百度AI 2023-03-16

“全面赋能千行百业”是 AI 的重要使命,政务、法律、金融、医疗、制造等传统行业智能化程度越来越高,在效率、成本和收益方面蕴藏着巨大的开拓空间。其中,金融业,就正在 AI 技术的赋能下,发生着一场“降本增效”的变革。本文详细聊聊这个话题。

我们分别从“场景”、“技术”和“工具”层面进行展开。

 场景 


场景层面,提到 AI+金融,可能会有人很快想到“股价预测”,但其实比起令人琢磨不透的股价波动,金融行业存在着更多收益确定性高、AI 价值附增显著的业务场景。举几个例子:

  • 基于 CV 技术实现“印章弯曲文本检测与识别”;
  • 基于 NLP 技术实现的“上市公司公告风险事件提取”、“保险领域智能问答系统”;
  • 基于跨模态技术实现的“扫描版合同关键信息抽取”、“表格识别与属性分析”、“双录稽查场景智能音视频质检”;
  • 基于 CV 检测技术、智能推荐技术实现“银行网点来客画像分析与精准营销”等。

可以说,AI 正在深入到金融行业的方方面面,酝酿一场巨大的“降本增效乃至增收”的行业变革。

 技术 


深耕技术深度和先进性常常能在互联网行业产生可观的收益,同样的,只要方向对,先进的 AI 技术用在传统行业的场景里同样能起到事半功倍的效果。

以金融保险领域客服业务场景为例,客服系统对客服人员有一定的专业性要求,导致企业人工成本高;实际场景中,用户常见的问题占了60%~70%,这部分人工重复性工作费时费力,因此,众多金融企业搭建了智能 FAQ 问答系统。常见的方案有诸多不足:

  • 一种方式基于保险关键字的问答匹配,该方法效果有限,无法对语义信息进行精准建模,且优化起来较为繁琐;

  • 于语义匹配搭建问答系统,是越来越常见的做法,然而往往需要人工、半人工方式构造 FAQ 的“标准问”与“非标准问”,标注成本高,而且经常难以招架真实用户千变万化的表达方式,导致“人工智能”被用户吐槽成“人工智障”,可谓费力不讨好。

而百度研发了先进的端到端智能问答技术 RocketQA,不仅在学术竞赛榜单 MS MARCO 多次刷新记录,而且实现了精准、泛化能力强的语义召回,在实际应用中大大减少了传统离散检索引入的人工构建开销。


RocketQA 训练技术,可以借助 cross-encoder 精排模型的优势,有效地为语义召回模型挖掘困难样本,进而提升系统的语义召回能力;优化后的语义召回模型又进一步的提升了召回样本的质量,有助于后续打造效果更强的 cross-encoder 模型,提升模型的精排能力和最终的答案准确度。再结合人工标注的百万级问答数据集 DuReader,效果非常强悍!


总之,基于端到端智能问答技术 RocketQA 构建出的 FAQ 问答系统,不仅构建效率大大提升,且无需标注数据、比传统技术方案具备显著的效果优势。

更进一步的 ,还可以使用百度今年发布的集可信分析和增强于一体的可信 AI 工具集-TrustAI,问答效果会有进一步提升。对 NLP 领域数据标注的常见问题,如“训练数据中存在脏数据限制模型效果提升”,“数据标注成本太高但又不清楚该标注什么数据”,“数据分布有偏导致模型鲁棒性差”等,TrustAI 发布了多项功能帮助 NLP 开发者解决训练数据缺陷问题,用最小的标注成本获得最大幅度的效果提升。

以上技术均已开源。对智能问答技术赋能金融行业智能客服感兴趣的同学,可以关注9月27日的直播,扫码报名。


课程来源于百度飞桨&百度智能云举办的一个 AI+金融行业系列直播(文末附系列课整体海报),从中可以看到 AI 在金融行业的风控、运维、营销、客服等场景都有大量的介入空间。

然而,如果徒有先进的 AI 技术,却没有配套的高效落地工具,那传统行业的落地依然困难重重,工具的重要性不言而喻。

 工具 


“深度学习,NLP 啥的太难懂了,我们一时半会搞不定”
——来自行业人员吐槽

“需求场景太多了,人手不够,开发不过来”
——来自 AI 专业人员吐槽

这是 AI 在传统行业落地时经常在行业侧和互联网 AI 平台侧遭遇的灵魂抱怨。

究其原因,就在于大部分的 AI 落地工具是面向专业 AI 从业者开发的,对行业落地来说门槛过高或开发效率过低。而市面上的一些门槛低的 AI 平台又往往会牺牲灵活性,开发时会有较多的限制。

不过,百度飞桨 PaddleNLP 不久前发布了 NLP 流水线系统 Pipelines,其在易用性、灵活性和定制化方面做了一个很好的折中,是一个非常适合做行业落地的开源工具。

简单来说,PaddleNLP Pipelines 将各个 NLP 复杂系统的通用模块抽象封装为标准组件,支持开发者通过配置文件对标准组件进行组合,仅需几分钟即可定制化构建智能系统,让解决 NLP 任务像搭积木一样便捷、灵活、高效。同时,Pipelines 中预置了前沿的预训练模型和算法,在研发效率、模型效果和性能方面提供多重保障。

举个直观的例子。 

我们可以把语义检索系统抽象为文档解析、语义向量抽取、向量存储、召回、排序5个基础组件,在此基础上,只需串接1个答案定位模型组件即可构成阅读理解式问答系统。若更进一步,在问答流水线的起点和终点分别加入 ASR(语音转换文本)和 TTS(文本转换语音)2个模型组件甚至可以构成智能语音客服系统,如下图所示。


而 Pipelines 就实现了上图一样轻松灵活的开发模式,可将 AI 模型的上线周期缩短百倍以上。

需要注意的是,在 Pipelines 背后,不仅有 PaddleNLP 提供的强大模型生态(包括刷新中文小模型 SOTA 的文心 ERNIE 3.0轻量级模型),而且该框架兼容了飞桨生态下的任意模型、AI 开放平台算子、其它开源项目如 Elasticsearch 等,从而实现任意复杂系统的灵活定制开发。

可以说,Pipelines 在灵活易用的基础理念下,又给用户预留了足够的定制化空间,使得用户在面对奇奇怪怪的业务场景疑难问题时,不至于被平台功能给限制。

因此,在 Pipelines 的生产力赋能下,快速开发一个高精度的金融智能客服 FAQ 智能问答系统就非常容易了。


同样的方式,我们可以面向金融行业快速开发一个信息抽取模型,来快速落地文首提到的“上市公司公告风险事件提取”、“合同关键信息抽取”等金融业务场景。在信息抽取方面,Pipelines 则内置了百度的 UIE 通用信息抽取技术,其通过多任务统一建模大幅降低了模型开发成本和部署的机器成本,并具备突出的小样本学习能力。例如,在金融领域的事件抽取任务上,仅仅标注5条样本,F1 值就提升了25个点!


也就是说,基于 Pipelines 开发强大的业务模型并不需要用户有非常丰厚的 AI 优化经验,Pipelines 已经为各大技术场景预置了先进的模型和开发范式,做到了“上手即 SOTA”的开发体验,并提供强大的二次开发能力。

总之,PaddleNLP Pipelines 不仅大幅提升了行业 AI 模型的开发和上线效率,大大降低了 AI 的落地门槛,且内置了当下前沿的 NLP 技术和模型,兼具易用性、灵活性和专业性,无论是专业的 AI 从业人员还是行业开发人员,均能快速驾驭,可以称之为 NLP 技术落地传统行业的开发神器。

  • PaddleNLP 项目地址:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/pipelines/examples/FAQ
  • RocketQA 项目地址:
https://github.com/PaddlePaddle/rocketqa
  • TrustAI 项目地址:
https://github.com/PaddlePaddle/TrustAI

最后,百度飞桨&智能云发起的智慧金融直播正在进行中!感兴趣的小伙伴,不要错过哦。

⬇️ 传送门 ⬇️
如果已经在前面扫码,则报名成功,无需重复扫码

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存