查看原文
其他

金融行业智能对话机器人的质量内建之路

广发银行研发中心 软件质量报道 2022-11-09

—— 前言 ——



—— 前言 ——


人工智能技术在我行金融科技产品中的应用十分广泛,涵盖智能对话机器人、自然语言处理、语音识别、语音合成、声纹识别、人脸识别、文字识别等技术领域。与传统应用研发相比,基于机器学习模型的人工智能应用研发面临着复杂的模型侵蚀边界、高成本的数据依赖、苛刻的外部变化感知能力要求等困境,同时需管理代码、模型、数据三个维度的变量,使得人工智能应用的开发、部署、维护及运营更具挑战。


01

简介

我行智能对话机器人应用是机器学习工程化建设的典型案例,在信用卡、零售业务领域得到了广泛应用,为总行、分行业务开展提供了灵活、高效的拟人化人机对话服务,当前生产容量规模已经达到4735路并发,日话务量峰值达120万,平均语义理解准确率达93%。为快速支撑业务场景的扩张,机器人研发团队对人工智能应用研发提出了更高的期望:即快速且优雅地交付


02

什么是智能对话机器人?

智能对话机器人,顾名思义就是可通过语言交互提供服务的智能软件服务。其智慧来源于自然语言对话决策树

“hello world”是其中最简单的一棵,机器人根据决策树策略,针对客户不同的应答而提供不同的对话响应及后台操作。

Hello World

通常真实的业务流程存在成百上千个决策点。每个节点平均包含了100多个标准问及扩展问,以保障客户对于同一事物的不同指向都能够明确识别其意图。

Real World


03

我们需要突破什么?

01

机器人“智商发育”缓慢

复杂模型侵蚀边界之痛

机器人“智商”需要“发育”,机器人一旦“出生”,智商是不足的,需要经历“学习成长”周期,才能成熟发布,一般是以月为发布周期,发布速度缓慢。我们期望机器人快速发育,加速与业务的融合,提升金融科技引领能力。


02

机器人“实习期”漫长

高成本的数据依赖

这里的数据依赖不是指数据关系的依赖,而是特指机器学习不同数据输入的训练结果,将会得到带有不同“偏见”模型。在这样的情况下,机器学习模型在生产上需要一个较长的“结构稳定期”:真实的环境需要不断标注生产数据并反哺机器学习模型,因此每次交付生产的机器人需要漫长的“实习期”。


03

机器人需要“催熟”

需要高效的外部感知运营 

智能对话机器人直面市场和用户,需要快速捕捉和感知外部的变化并迅速做出调整,包括新的用户诉求、政策变化、公司策略变化等等。因此如何提高自动化运营效率,减少人工作业对系统鲁棒性的影响,同时提升对外部变化的响应速率,成为机器人快速成长、成熟的必经之路。



04

我们怎么做?

a.定义问题

质量内建的灵魂,就是把问题扼杀在摇篮里!

为解决智能对话机器人研发过程中由于模型边界侵蚀、数据依赖和外部环境的等因素干扰导致缺陷不断向后传递,同时降低缺陷控制成本,机器学习应用的质量内建迫在眉睫。

我们把质量内建聚焦在机器学习模型的自动化测试上,并且实现由UAT、SIT测试向开发、运营侧测试的延伸。

机器人模型开发工作流


第一步:决策树模型构建,数据经理完成决策树模型开发,实现基础应答逻辑。


第二步:扩展提问语料构建,业务专家根据专家经验构建模型语料库。


第三步:模型对话测试,联调、sit、uat阶段,测试人员仿真客户场景,执行机器人图灵挑战测试,包括定性、定量测试,也有测试人员感官测试,如机器人语音语调是否自然等。


第四步:模型缺陷修复,数据经理根据第三步测试结论完成缺陷修复,使机器人拟人化程度提升。


第五步:模型缺陷复测,重复第三步测试,注意,根据模型侵蚀边界问题,通常需要执行全量用例测试。


第六步:模型发布,测试环境模型与生产模型合并发布。


第七步:模型开业验证测试,合并模型发布后,由于生产模型数据与测试环境数据的差异,可能导致生产模型与测试环境模型存在数据依赖差异,因此模型合并后需要对其及测试,通常应全量覆盖所有关联的存量、增量分支。


第八步:模型效果度量及运营优化,标注生产客户数据,并将数据增补到对话模型中,每次的数据标注增补训练,都应全量覆盖关联分支测试。

开发阶段模型缺陷复测、开业验证测试、运营优化测试,都需要重复大量执行模型的基准验证测试,异常消耗时间和人力。而测试的不充分,大大降低了我们对机器学习模型评价的可靠性和准确性。


b.制定工具

我们搬砖自动化了,就问你怕不怕。

为解决复杂模型边界侵蚀及数据依赖导致的“所有变更都要全量测试”的困境,研发团队与效能教练针对此现状,共创了机器人自动化模型测试工具——“小图灵”,提供了测试数据集管道管理、单双模型语义及语音分析测试、可视化测试报表分析等功能的平台化服务。

小图灵机器人测试平台

“小图灵”形成了一个完整的、基于机器学习的自然语言应用测试体系,一方面解决测试集分散及版本散乱问题,另一方面在开发阶段模型缺陷复测、开业验证测试、运营优化测试中加速了质量反馈速度,整体上提高了交付速度及质量,同时保障了模型分支全覆盖回归测试,减少模型边界侵蚀及数据依赖的影响。

“小图灵”平台使用方法非常简便。


第一步:测试集输入,测试集来源于专家经验及日常客户标注语料,输入测试集可生成供自动化测试平台进行测试的任务清单。


第二步:持续测试,自动化测试平台24小时不间断执行测试任务。


第三步:测试报告,自动化测试平台输出可视化的差异化报告,可便捷帮助数据经理重点关注与预期结果不一致的问题流程。


第四步:模型调优复测,修正话术流程及数据,让自动化测试平台再次验证模型。

此外,工具还采用多模型挑战测试策略,在模型交付测试人员仿真测试前,比对测试双机器人模型的准确率,针对投票计算不一致的节点人工复核修复,进一步把模型测试缺陷控制在模型开发阶段为敏捷交付模型提供了可靠保障。


c.关注数据及迭代生长

敏锐感知客户变化,不断地小步快跑是机器人由“实习”到“转正”的重要能力。智能机器人团队自主研发完成智能外呼数字化运营服务平台,实现快速感知生产客户交互数据及服务策略的灵活调整,填补了机器人运营数据管控缺口,完成建立数据分析、智能服务、智能运营的机器人服务体系。高效的研发体系支撑,保障了快速迭代的可能,我们从月度版本交付演进为双周甚至每周交付,践行“大胆大步规划,小心敏捷交付”的理念。

智能对话机器人服务体系


05

我们的成效

在智能对话机器人领域吃“第一口螃蟹”,团队经历了从摸着石头过河的彷徨到耳清目明的思考,从每一个小的迭代创新,到逐步建立起大规模、高复杂度架构的成熟应用体系,从粗放的“投产即成功”,到“小图灵”自动化测试平台及智能外呼数字化运营平台的落地,成功建设基于机器学习技术的智能对话机器人服务体系。

 a. 加速模型迭代速度,缩短机器人“学习成长”周期:小图灵采用机器算力替代人工算力,高效的模型测试方式让原本需要花费数日甚至数周的测试周期缩短到小时以内,测试效率有了质变的飞跃。

 b. 提升测试覆盖率,提高模型交付质量:相比人工测试,自动化测试覆盖率达到了近100%,有效提高模型交付质量。

 c. 测试标准化:基于版本变化的测试案例库形成了标准化测试标准化,系统自动积累对话测试案例及数据,减少人为测试经验的误导影响。

 d. 极大降低测试成本:可预见每年至少节省人工工作量960人日*有效把质量控制在产品的全生命周期:自动化模型测试体系贯穿于整个SIT、UAT、生产开业及运营优化阶段,提高模型开业验证及运营效率。

*  “每年至少节省人工工作量960人日”:所述960人日工作量计算过程为在每月稳定产出8个中等复杂业务(100个业务节点)前提下,所述单个中等复杂业务SIT\UAT\开业\运营其测试消耗约10人天。


06

Ending

智能机器人研发团队通过有序开展质量内建,实现超64000个决策分支的大规模自然语言对话模型全量、快速训练调优,有效降低测试及运营成本,提升交付效率及质量,提供了更高阶技能的“智能数字员工”。

智能对话机器人的模型持续迭代,持续学习是机器人“成长智能”的关键。人工智能的持续交付能力决定了智能对话机器人的“智商”提升速度。质量内建是持续交付的原则,自动化是持续交付的基础。



其它参考:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存