实战 | AutoML技术应用初探与MT时代的展望
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 浙商银行金融科技部总经理 杨国正
浙商银行区块链技术应用研究院院长助理 臧铖
浙商银行金融科技部 陈嘉俊 吴美学
在数据价值日益受到重视的当下,数据建模和应用能力已成为银行数字化能力水平的一个重要指标。各行数据模型建设和应用能力,受到最大的约束是建模专家的能力和数量,特别对于中小型机构而言,中短期都难以通过补充此类资源来追上行业应用水平。近期出现的AutoML(自动机器学习)技术,通过将机器学习的人工环节以神经网络算法智能化实现,替代传统机器学习中建模专家进行特征工程、算法选择、参数调优的工作,能够实现大部分建模场景的自动建模,压缩建模周期、消除建模专家专业门槛甚至能取得比专家建模更好的效果。我们认为,这可能成为大数据应用领域的颠覆性技术,彻底转变数据向模型实现价值转换的游戏规则,在行业从IT时代走向DT时代后,将进一步推动行业向MT(Model Technology)时代前进。
机器学习大数据建模技术
现状机器学习包含数据处理、特征工程、模型选择、参数调优、模型压缩输出等步骤。在传统机器学习建模过程中,每一个步骤都需要依赖专家经验与人工参与,这带来两大问题:一是严重依赖专家资源,专家的数量直接决定了模型建设数量,专家的能力水平也约束了模型的最终效果。二是建模周期较长,成本较高,对于市场、业务的响应存在一定的延时。
目前市场上建模专家资源比较稀缺,尤其是金融行业对于建模专家的需求量较大。如何补充建模专家,拓展数据模型应用覆盖面,实现覆盖全条线、全板块基本的模型应用能力,也成为金融行业各机构对数据价值发掘和使用的主要瓶颈。
自动机器学习的概述
自动机器学习技术包含超参数调优、特征工程、神经网络搜索、模型压缩等自动化技术,能够将这些环节的专家人工操作用人工智能方式进行替代,并用更短的时间求得模型。
1.超参数调优
机器学习中用来控制学习过程的参数可以称为超参数。超参数调优是一种研究如何选择最优超参数组合的问题。自动机器学习中的超参数调优模块往往可以自动地对机器学习模型的超参数进行调整优化以获得最佳的模型效果,常见方法有遍历搜索、随机搜索、退火等算法,也可以采用基于序列模型优化算法的自适应方法。
2.自动特征工程
特征工程在机器学习的过程中至关重要。然而特征工程非常耗时耗力,技术人员不仅需要有算法背景,而且往往还需要对数据有深入的理解,特别是在金融领域,更需要对业务知识有一定的积累。自动特征工程则可以根据特定的应用场景自动地完成特征增强、特征生成、自动特征选择等机器学习算法的前置步骤。
3.神经网络搜索
神经网络搜索(Neural Architecture Search,NAS)不同于传统网络的超参搜索,主要区别是NAS的重点在于如何拼接不同的结构模块和操作,以及如何降低模型评估的计算消耗。神经网络搜索能够以自动化的方式使用现有计算资源搜索设计最佳的网络结构。一般需要先定义搜索空间,然后执行搜索策略采样网络,最后对采样的网络进行性能评估,最终得到最优的神经网络结构。
4.模型压缩
随着深度学习的发展,神经网络的模型也越来越大,虽然模型效果有了非常大的提升,但模型尺寸太大不仅影响推理速度,而且也很难部署到一般计算资源的设备上。自动机器学习的模型压缩功能可以通过剪枝、量化等算法对深度神经网络进行压缩,得到的神经网络具有更小的模型尺寸,从而具有更快的推理速度,同时也可以保持能够接受的性能损耗。
在某个典型场景使用传统机器学习和自动机器学习建模的步骤对比如图所示。
图 传统机器学习和自动机器学习步骤对比
在这一过程中,传统机器学习模式下,人工需要参与几乎各环节的工作,总耗时约8.5天,而自动机器学习,将绝大部分环节自动化,令人惊叹地以0.5天时间完成了同样的工作。
自动机器学习在金融场景的实践
为了验证这一全新模式在金融场景的实际效果,我们选取了几个已经在线运行的模型进行了验证,均实现了90%以上的建模周期压缩,并且获得了平均8%以上的模型效果提升。
1.小贷风险客户识别
场景:在信贷风险识别领域,以机器学习模型为基础构建了小贷风险客户识别模型,这一领域大数据特征多且复杂,以往建模人员花费大量的时间在数据处理以及特征工程环节,并且需要有相当专业的力量进行参数调优等工作,一般需要8~10天完成一个场景的建模工作。
验证成效:通过利用自动机器学习技术,只需要几行代码,AutoML平台可自动完成数据的基础处理、特征生成、特征选择、多模型训练、参数调优,并在半小时左右快速输出最佳模型,其AUC、KS等指标较传统机器学习建模方式均有不同程度的提升,如表1所示,其中AUC提升7.5%,KS提升29.5%。
表1 小贷风险客户识别评估指标结果
2.车位分期反欺诈模型
场景:在车位分期反欺诈领域,数据中坏客户比例较低,只有0.36%。在传统模式下,对于此类场景建模,需要高度依赖专家经验,以及花费较长时间的在特征工程、参数调优等工作中。
验证成效:通过AutoML针对不平衡样本相关的超参数进行自定义调参范围设定,AutoML平台能够更快得到相比于传统机器学习更加稳定、有效的模型。与传统模式相比,最佳模型AUC提升5.1%,KS提升37.5%。
表2 车位分期反欺诈模型评估指标结果
总结与展望
通过对自动机器学习的实践表明,这一技术尽管出现不久,但已经充分表现出对金融行业大数据应用的颠覆性价值,对于建模人员紧缺的机构而言,采用这一技术将有可能快速实现数据能力在各板块的普适性应用。
我们相信,在自动机器学习技术铺开应用之后,将实现一键式建模、批量化建模能力,进而实现模型的随时迭代,确保线上模型“新鲜”。同时我们可以想象,未来金融机构日终除了数据批量,将极有可能呈现出数据、模型双批量的格局,这也将成为MT时代的标志与特征,需尽快做好企业级架构准备。
新技术层出不穷的时代,浙商银行将继续紧跟前沿,充分抓住金融科技技术这一数字化改革的重要抓手,不断提升金融服务能力,全力服务于实体经济,为共同富裕示范区建设贡献力量。
(栏目编辑:韩维蜜)
往期精选:
(点击查看精彩内容)
新媒体中心:主任 / 邝源 编辑 / 傅甜甜 张珺 邰思琪