观点分享 | 中国农业银行研发中心资深专员合松:中国农业银行人工智能工程化探索与实践
2021年8月27日,由中国人工智能产业发展联盟(以下简称“AIIA”或“联盟”)和中国信息通信研究院(以下简称“信通院”)联合举办的“人工智能研发运营一体化(MLOps)技术沙龙”以线上会议的形式召开,中国农业银行研发中心资深专员合松以“中国农业银行人工智能工程化探索与实践”为主题发表演讲,介绍了中国农业银行对MLOps体系的探索与思考,以及中国农业银行在MLOps方面的实践与效果。
权威咨询机构Gartner在2020年提出人工智能工程化的重要科技战略,人工智能工程化立足于“数据运维、模型运维和开发运维”三大核心,具有以下技术特点:构建基于流水线的协同;管理模型的全生命周期;建立规模化应用;实施模型治理。上述技术特点解决了模型对数据的依赖,缩短了模型构建的所需时间,减轻了模型配置的复杂度。
在人工智能的实际应用中,往往会遇到以下几个问题:第一,数据管控,例如当数据的来源复杂或数据涉及到安全管控时如何进行数据处理;第二,人员协同,如何使模型研发工程师、QA人员以及运维人员等角色形成高效协作;第三,敏捷交付,怎样将交付时间缩短至一星期以内;第四,AI产品测试,针对不同类型的模型,如何设计不同的测试指标验证模型有效性和覆盖率;第五,AI运营,怎样监控模型的效果并进行模型更新。
针对上述提到的应用难点,农业银行在DevOps持续集成、持续交付和持续部署思想的基础上,结合机器学习项目的研发运维流程,梳理出MLOps解决方案的特点:需要对数据、模型、流水线等进行版本管理,根据场景和数据的变化调整使用的模型,更加关注模型训练过程的维护,需要增加上线服务质量等监控指标。MLOps解决方案的实施可以增加工作流程和模型的复用性,提升机器学习生命周期的运转效率,降低运维难度,消除组织障碍,实现模型敏捷的开发、部署及运维。
结合上述理念及项目需求,农业银行制定出基于MLOps的人工智能平台建设目标:将机器学习项目的全链路管理集成到统一的平台,实现开发过程的工具化、流程的标准化以及协作的线上化。横向打通开发团队(业务人员、数据分析师、数据科学家、软件开发人员)、测试团队以及运维团队三种角色,纵向打通需求、开发、测试、部署以及运维五个环节,充分提升机器学习应用的交付质量和效率。
在此目标的指导下,农业银行建设了一体化的人工智能服务平台,用于支撑模型研发的全生命周期、实现与行内IT管理流程和系统的无缝对接,以及各职能人员的高效协作;同时,构建了可复用的批量流水线,包括研发流水线和联机流水线;此外,还设置了平台和流水线的管理制度和组织架构,推动AI开发应用的流程化、组织化、制度化。
关键技术方面,农业银行建设主要从以下几个方面推进MLOps实践落地。一是实现基于云架构的AI模型一键发布,系统根据模型类型自动选择构建、封装方式,一键完成模型发布、集中构建、统一封装;二是实现Severless的高可用基础服务,具有高并发低损耗、轻量级服务编排以及实时动态伸缩的优点,为平台提供稳定性支撑;三是构建多层次AI产品安全体系,从数据分级、安全审计、审批管理、服务可靠等多方面着手,保障数据安全、服务可靠。
基于以上多种技术路径,农业银行构建起较为完善的一体化MLOps解决方案,并取得了良好的实施效果,模型研发周期从之前的平均3个月最短压缩到两周,模型部署的周期缩短至1天以内;常规模型后评价和模型更新最快2天即可完成,自学习模型可根据实际效果实时更新。