查看原文
其他

观点 | ​​从科技角度看模型风险管理

金融电子化 金融电子化 2022-10-19

欢迎金融科技工作者积极投稿!

投稿邮箱:newmedia@fcmag.com.cn

                                           ——金融电子化

文 / 中国光大银行信息科技部 李成

近年来,随着机器学习、人工智能大行其道,越来越多的业务系统中嵌入数据智能型算法,被称为机器学习模型、人工智能模型等,相较于传统的专家模型,其特点在于模型都使用了大规模的数据通过训练得到。这些模型被广泛应用在反欺诈、反洗钱、营销、运营、外卖路线规划、个性化推荐、人脸识别等各个领域,并嵌入业务系统中,提升业务效率效能。本文将从模型的定义、模型风险管理、模型管理技术抓手、IT管理对模型风险管理的启示等方面进行阐述,主要讨论机器学习、运筹优化、人工智能等基于大量数据而优化得到的数据智能模型如何从科技角度进行风险管理。


模型、策略的定义

在美联储2011年11月印发的《模型风险管理指南》&附件中,定义了模型——“一种定量方法,应用统计、经济、财务、数学理论、技术、假设,将输入数据处理为定量估计”。在中国银保监会2020年10月发布的《商业银行互联网贷款管理办法》中,并未对模型进行技术性定义,只进行了描述性定义——《本办法》所称风险模型,是指应用于互联网贷款业务全流程的各类模型,包括但不限于身份认证模型、反欺诈模型、反洗钱模型、合规模型、风险评价模型、风险定价模型、授信审批模型、风险预警模型等”。


其共同点,皆是将面向产品的一整套策略和数据运算统称为模型,涵盖了较强解释性(如客群细分、按业务划分、按数据划分),较低复杂性,有明确操作结果的策略,以及机器学习、运筹优化、深度学习等数据智能算法产生的模型。这些新型的机器学习模型、统计模型和专家模型一起,组成了现在的模型总集。


我们在此将模型分为两种,一种是基于专家经验的规则,如传统评分卡等专家系统;一种是基于样本,通过统计学习、机器学习、深度学习、运筹优化等优化方案得到的数据智能类模型。其区别在于专家规则占主导地位,还是样本数据在建模过程中占主导地位。本文主要讨论后者。


这些数据智能模型,曾经以科学家人工操作的方式进行,现在往往以非人工介入的方式在生产系统中运行。由于在运行中基本没有人工参与,对于模型使用中问题的发现也会更晚,因此数据智能模型往往会带来更大的风险。从计算机科学的角度来说,模型是算法的新型特殊表现形式,在可见的未来也一定越来越多,逐渐成为金融科技系统的重要组成部分。


模型风险管理综述

传统的算法在IT系统中的应用是基于规则的,复杂度低,运行中从输入到输出是可解释的——一旦运行结果不符合预期,马上可以定位哪里出了问题。但数据智能算法,是靠数据“喂”出来的,是通过优化算法逼近得到,其对数据输入的假设、算法的假设,以及产出模型的黑盒性质,都充满不确定性。同时,随着数据智能模型的“端到端”上线,模型不再被翻译为评分卡、if-else型的可知形态,就进一步加深了模型的不确定性。


在美联储2011年11月印发的《模型风险管理指南》&附件(简称SR11-7)中,指出了模型风险的两大来源:一是存在根本错误;二是使用不当。建立了模型风险管理的组织:模型开发和使用者、独立验证者、内审。定义了6个环节:模型清单(资产管理)、模型开发测试、模型实施和使用、模型验证、模型监控、文档要求。


在中国银保监会2020年10月发布的《商业银行互联网贷款管理办法》中,chapter3风险数据和风险模型管理规定了开发、测试、评审、检测、退出的相关规定。如分工明确、保密、禁止外包;保证模型有效稳定;建立模型评审机制并独立开展;建立日常监控体系;建立退出机制;建立文档管理。


对比中国监管与美国监管要求,在纵向上是相同的,即对于单个产品所用到的所有模型和策略进行管理;在横向上是不同的,中国监管当前只对于特定的产品(自动审批型网贷)提出了监管要求,但是美国原则上是对于全部模型进行管理。


从数据智能或机器学习模型本身来说,其作为统计学的延伸,大量使用优化类或统计类算法得到,本身受到优化算法的限制,具备大量的假设与限制条件。因此,独立验证与评审,以及持续监控是必要的。此外,在模型风险管理中,将数据智能模型作为程序算法本身,我行从多年经验出发,整理一横一纵两条主线。


模型清单管理:模型作为数据资产的一部分,是典型的加工型资产,我行通过数据资产管理平台对所有数据智能模型进行统一登记。包括模型开发者、开发日期、工程开发项目组、投产日期、有效期与重检日期;以及模型对应业务产品、使用场景、预期效果、限制条件;输入、输出,以及依赖的其他模型或组件;建模所使用的样本数据。以上皆需要以文档或文件形式进行有效管理。


生命周期管理:将模型清单管理所需内容,以模型从建立到退出进行流程管理,需按要求进行评审并提交文档才可继续进行。具体包括:提交建模项目,例如对应业务产品、使用场景、预期效果等;提交模型结果以及相应的样本数据、算法说明、限制条件、模型基本假设;有效验证评审,由第三方进行独立验证,并审批通过,验证评审报告中应明确模型的限制条件、有效输入输出范围、选取何种监控与后评价指标;用于工程开发以及模型上线后监控、模型工程开发、模型投产前验证、模型投产评审,确认工程化后的模型仍符合预期;模型投产,将评审通过的模型评价指标,以及输入输出稳定度监控同时上线;模型持续监控;模型重检或模型退出。    


模型运行平台是模型风险管理的基础与抓手

没有模型运行的统一,就无法做到模型管理的真正落实。模型运行对于模型管理的抓手效应体现在以下几点。同时,这也应作为模型运行平台的功能,将模型管理的制度要求进行落实。


模型上线流程审批:落实相关审计制度。包括模型相关文档、评审报告、审批流等等。


模型生命周期:除了审批流程之外,需要系统落实模型的后评价初始生效日期、定期review日期、模型退出记录等机制,并通过邮件触发审批流。同时对于模型参数,如阈值调整,也需要触发审批与评审流程。


模型监控:这是最重要的模型风险管理手段,必须在系统中明确模型的必须监控条件,作为必选项进行控制。


用数据保证算法安全:模型的适用场景取决于建模所用的样本,超出样本范围的数据,一旦被上送模型,将会得到预期外的结果。因此需要上传机器学习、人工智能模型的建模样本和算法说明,如果是调用三方库,需要明确版本和使用的超参数。一是保证模型可以有效复现,二是可以根据建模样本确定数据范围,在模型运行的工程环节进行输入范围监控,超过范围可以进行拒绝服务。模型运行平台应保证可以根据建模样本的x和y计算psi,保证模型工程化上线后仍然能在统计学意义上保证与期望的输入输出分布一致。


模型上线时必须将模型评审中制定的模型监控与后评价指标上线。例如PSI稳定性监控指标。在模型后评价生效日期开始,应具备后评价指标,如对于回归模型的MSE、RMSE后评价指标;对于分类模型的ROC、PR指标;对于模型区分度的KS、GINI等,应根据模型管理制度进行选取。


模型清单与报告定期生成。


综上,拥有统一的模型运行平台,可以行之有效地将管理规定以技术方式落地,使用科技抓手有效发现问题,识别风险,防止出现先射击后画靶子的机器学习“神枪手”。


IT管理对模型风险管理的启发

数据智能模型是IT系统中的一类新形式算法。上文已经说过对于这一新型算法,我们需要增补的管理措施。由于数据智能模型最终会在IT系统中运行,我行金融IT领域中一些管理办法,如系统灾备级别等级保护制度、ITIL运维管理制度、CMMI研发体系等,都对模型的管理有着很强的借鉴意义。


模型分级分类:对于不同场景和用途的模型,根据其影响对模型进行分级分类管理,对于不同级别的模型,采用不同的管理制度,对流程和监控进行相应裁剪。


模型独立测试:由独立且有权威的团队进行独立验证测试,包括但不限于白盒的模型复现、黑盒的独立数据集验证,以及使用行内的标准特征集进行有效挑战。


模型质量独立审计:由独立的部门进行全面质量管理,包括流程合规性、文档合规性等。


模型独立运维管理:最终的模型上线由运维进行最后一道把关。


结    论

从简单的规则判断,到复杂的专家规则评分卡,再到统计学习评分卡;从基于信息论的TF-IDF,到基于深度神经网络的文本分析;大量的基于专家的算法变成了统计学模型,又变成了数据智能模型。通过引入复杂的优化算法和更多的输入,带来了预测、判断的效果提升,也带来了模型的不可解释性。


随着模型的演进,以及模型在IT系统中的应用,模型风险管理也应与时俱进。采用科技方法,将模型算法运行本身,当做“系统”来进行管理,将模型作为算法的特殊表现形式,从科技角度,以技术手段对其进行管理,配以数据智能本身的独有特点,从模型算法原理、严格的评审制度、有效的监控等多个方面入手,可以在最大程度上,将模型风险降至最低。


(栏目编辑:张丽霞)




往期精选:

(点击查看精彩内容)


● 观点 | 数据,颠覆与创新

● 观点 | 区块链+隐私计算:科技驱动数据安全体系建设

● 观点 | 基层商业银行防控电信网络诈骗风险分析与对策研究

● 观点 | 金融机构防范银行卡盗刷外部欺诈的思考

● 观点 | 全员参与,精密防控,筑牢反诈第一道防线









《金融电子化》新媒体部:主任 / 邝源  编辑 / 傅甜甜 潘婧

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存