查看原文
其他

前百度金融CRO王劲:十七年运通岁月沉淀,我的消费信贷风控观

王劲 AI金融评论 2022-05-11


风险管理就像一场狂风暴浪中的航行,但并非所有人都会失去生机。


金融人手握大量数据、规则和算法,却没有读懂真正的风险管理:

  • 数据量越多、维度越全,就是更好的数据吗?就能实现最好的风控效果吗?

  • 风险管理是一门寻求平衡点的科学,那么我们应该在什么问题上寻求平衡?只是风控尺度和业务增长之间的问题吗?

  • 一个卓越的风控模型,除了考虑算法、考虑数据,它到底还有多少细节是你错失的?

  • ……

王劲曾是百度金融的CRO,也在有着“风控黄埔军校”之称的美国运通工作了十七年。

次贷危机之后,美联储加强了对所有银行机构的风险模型管理,而他在美国运通的最后五年,创建了运通的模型监管和验证中心,对全公司上千个模型进行全面的管理——亲身经历过次贷危机的他,对风险管理有着独到的洞察。

近日,雷锋网《银行业AI生态云峰会》就邀请到融慧金科CEO王劲,作为「数字化风控」赛道的科技专家,为大家带来他在银行智能信贷风控的管理理念和应用实践。

以下为王劲的演讲内容,雷锋网AI金融评论作了不改变原意的编辑:

大家好,非常高兴今天有机会跟大家在线上分享我在20多年管理风险中所沉淀的一些知识和经验,希望对大家有所帮助。

金融机构做好风险管理平衡的核心要素

近年来,随着中国互联网金融的飞速发展,同时面临着很多的难题和挑战。

首先,如何定义风险的使命。风险管理人员的定位一定要准确。
对于风险的使命,我实际上是借用美国运通当时的CRO在20多年前的一个定义——推动有利润的业务增长,同时提供卓越的客户体验,避免意外风险——整个描述并没有表示要降低风险或者把风险降到零。
有利润,意味着风险一定要在可控的范围之内。
增长,风险不是限制业务的发展,而是要帮助业务做有利润的增长。
卓越的客户体验,很多时候我们不是太关注客户体验,但是风险管理的每一个决策,每一个动作实际上是会影响到客户体验的。
避免意外风险,因为金融本身就是在运营风险,没有风险是不可能的。我们并不惧怕可预知的风险。
比如我们判断一个客户的坏账率是2%~3%,这个并不是风险——但如果最后的实际结果是5%~10%,这个情况就是意外风险。
所以,我们做风险管理一定要每时每刻预判未来可能发生的事情并及早应对。例如压力测试就是一个避免意外风险的风险管理的动作。

风险管理最重要的就是对数据的把控,思考数据的生命周期。首先要从对业务产品和客户的选择当中,决定需要什么样的数据。

基于业务方向,我们要对内外部的数据进行各种盘点,比如从客户那里收集什么样的数据?在人行要拿什么样的征信数据?以及需要用什么样的第三方数据进行补充?为了服务客户和达到业务目标,必须要有足够好的数据帮助我们进行风险管理。

此外,立下数据选择的原则和条件,因为在众多的数据中,有合规的和不合规的,并且存在着强弱之分,如果没有制定相应的原则和条件,在未来就会有很大的麻烦。

数据的分析和引入,我们要分析、评判市场上的各种数据源,再做引入。之后要对对数据进行实时监控,以保证其质量和持续的效果。这就是数据战略的一个闭环。

接下来跟大家分享一下,选择数据的条件

1、数据必须合规,必须要满足国家和政府的要求且一定要有授权。

2、数据的全国人口覆盖率要高,这是一个非常重要的要求。如果数据的覆盖率不高,就会影响模型的识别度、稳定度等等。

3、数据的新鲜度和时效性要高。要达到日更新至少是t+3。即今天的决策一定要达到3天之内的时效性,如果现在的决策数据是5天前的,那么现在这个模型决策的质量就会相应地打折扣。

4、数据的历史长,可以回溯至12个月以上,因为很多的衍生变量会回溯历史,如果没有可回溯的历史,那么也不会形成这些非常重要的变量。

同时,可回溯也让我们能够验证一些历史数据的效果,这个条件是非常重要的。

5、数据的稳定性好,我们会跨时间窗观察数据的波动。如果数据波动性太大,那么,它的稳定性肯定是不好的。

数据战略是一个相对长期的落地过程,在这个过程中,要达到什么样的目标呢?

1、覆盖低到覆盖高。

2、信息薄到信息厚,有些客户可能有20个变量可以描述,那么可不可以将其演变成平均有30~40个变量在描述客户,这就是二者之间的关系。

3、质量低到质量高,不能用到一些垃圾数据。

4、弱相关到强相关,在刚开始的20个变量当中,可能有80%的弱变量,如果剩下的20%的强相关演变成30%的强相关变量,模型的决策就会更好。

5、高成本到低成本。

6、源集中到源分散,大家通常把自己的一些策略和模型特别地依赖于某一两个数据源,实际上存在着非常大的操作风险。

我们一定要在数据战略中将其来源尽量地分散开来,当然不是无限制的分散,而是要找到其中的平衡点。

那么,在引入数据之后,它的价值转化分为哪些部分呢?

首先,是基础的数据层,数据源包含了客户提供的数据、征信数据、第三方数据等等。

数据层之上,是工序#1的加工层,将对各种数据源进行衍生,否则原始数据就不会得到很好地利用。

在衍生变量这一层,要着眼于这些变量的使用场景,有些衍生变量与欺诈相关,有的与信用相关,有些则是与精准获客相关。

工序#2是集成层,因为衍生变量可能是基于某个数据源而成,那么,模型和规则就会帮助我们把各个数据源的衍生变量进行再集成,使其成为一个子模型或者是一套规则。

工序#3是解决方案层,反欺诈的解决方案可能会有上百个规则,这上百个规则可能用到十个模型,相当于将各种各样的材料修建成一所房子,最后输出给持牌的金融机构。

从最底层的征信数据层到各种加工层,金融行业里的参与者承担着不同的角色。当每个银行和消金要进行自身转换时,他们也需要承担加工的角色,集成的角色和解决方案的角色。

如何做好风险管理中的平衡

很多人并不是特别理解,风险管理永远是一个寻找平衡点的科学。除了要用到人工智能、非常多的数据、算法之外,实际上,很大一部分风险管理是在寻求平衡。

平衡点之一:风控和业务增长之间的平衡

比如在产品人群额度的选择上,我们可以操作高利率、低质人群、低额度。

虽然风险高,但是获客成本低,业务量也会加大,这些大量有贷款需求的人,他们的风险是比较高的。

与此同时,也可以操作低利率、优质人群、高额度,这部分人群可能风险比较低,但是获客成本高。

优质人群对信贷的需求相对较低,所以业务量也较少,大银行吸引的是大批的优质人群,其他的小银行和金融机构,可能在这方面的挑战就相对大一些。

所以,在运营当中,要在高利率和低利率,优质人群和和低质人群,高额度还是低额度之间寻找平衡点。

平衡点之二:在风险管理的数据、模型以及策略中,如何平衡简单和复杂

这也是非常考验人的——简单意味着准确度低,合规操作风险低,相应的成本也低。

而复杂,模型用到了非常多的变量,非常复杂的算法,那么准确度可能会相应提高,但是合规操作的风险也变高了,成本也会增加。

所以,如何在业务的初期、业务的增长期以及成熟期找到其中的平衡点,是一个具有挑战性的课题。

平衡点之三科学和艺术之间的平衡

比如在风险管理当中,我们会用到大量的数据,用科学的方法对数据进行回归和分析,它的好处就是客观的,而不是主观的。

因为要基于数据过去的表现做策略和模型,其不利的地方就在于局限于数据的好坏,在一个混乱的P2P和Payday Loan的时代收集到的数据,我们要对其科学性进行质疑。

过去的数据并不能够代表未来,过去的利率可能做到50%,甚至100%。但是监管加强之后,利率就得下调,这是对科学的一些挑战。

艺术则依赖于实践的经验,宏观的发展方向,包括监管、竞争环境以及社会行为。人们为什么要借贷?为什么还不上贷款?这些都是基于经验所沉淀下来的一些东西。

其坏处在于局限于个人的经历,如果 CRO或者总经理在风险管理方面的经验不够,那么在决策上就会遇到一些问题。

所以,风险管理既不能够完全的依靠数据科学,也不能够完全依靠主观经验,关键在于找到其中的平衡点。

卓越风控模型建设的必备能力

在模型风险管理当中,现今的大数据以及互联网金融时代是离不开模型的,在互联网金融管理的原则方面,就是要充分的利用概率,而这个概率是通过模型实现的。

一个卓越的模型需要有哪些要求呢?

1、数据选择,一定要考虑数据的覆盖率、缺失率、新鲜度和稳定性。

2、衍生创新,一个模型的好坏与否,前两点是非常重要的,如果衍生变量做得不是特别好,那么数据本身跟所要预测的东西的相关性就会比较弱。所以在衍生的过程当中,要增强其稳定性。

3、架构选择,有了原料和衍生品之后,应该怎样架构模型?用不用子模型,要不要做人群分割?这些因素将会影响最后模型的中长期的表现,以及维护的成本。

4、算法选择,要用传统的逻辑回归,还是有一些简单的决策树,或者用机器学习神经网络,需要对这些技术加以选择。

5、监控迭代,每一个模型都有其对应的生命周期,所以我们一定要知道每一个模型什么时候失效,什么时候应该迭代,我们一定要打造一个能够实时跟踪的平台,在衰退后又能够快速的迭代。

6、y的定义和样本的筛选。

虽然拥有了优质的原材料、数据、衍生变量,但是如果y的定义出现问题,是要将逾期30天定义成坏样本,还是将60天的逾期定义为坏样本?是否在其中增加额度的一些条件,而不是坏账的金额条件,这些都是非常重要的。

样本的选择也是如此,历史上的样本可能是有波动的,如何选择能够带来对未来预测的样本,也是一个非常重要的因素。

评判的标准,除了辨别力之外,精准度要高、稳定性和复杂性要强以及可解释性。

所以模型的建设不仅仅只是算法,也并非是对数据的选择,而是一个非常复杂的提炼的过程。

举例说明模型该如何架构?

第一个架构方式,比如有三个数据源,先将其集成到内部的数据库里,再利用这些几百至上千的数据,做出一个模型A。

第二个架构方式,基于每一个数据源建立一个子模型,然后将这些子模型再集成为另外一个模型A。

二者都有自己的优势和劣势。

第一种,识别率和精准度相对较高。因为它是基于相对底层的数据集成起来的,每一个子数据都有相应的权重,其精准度会相对高一些。

劣势是稳定性弱,操作风险高,如果把这三个数据源的数据混杂在一起,那么一个数据源出了问题,就会影响模型A的迭代速度和效果。

第二个的优势在于稳定性强,通过集成数据源一和数据源二,就会削弱一些波动,稳定性得到增强的同时,操作风险也比较低。

如果数据源三出了问题,将子模型一和二并列,虽然还是同一个模型,但是识别率和精准度会受到损伤。两个不同的模型架构,将影响到未来的表现结果。

很多信贷公司都会遇到的课题就是在不同的流量入口的条件下,每一个渠道的人群和风险特征是不相同的。

那么,是将每一个渠道做一个模型?还是将流量渠道1和2合并形成模型A,之后通过再流量渠道3形成模型C。

什么情况下可以合并呢?当某一个渠道的样本很少,并且一和二的风险特征相近,同时某一个渠道的样本也不充足时,合并会产生更好的效果。

那么,该怎样有效的使用模型?模型只是一个工具而已,定义模型就像一个温度计,高烧定义在什么位置?低烧定义在哪个温度点?在使用时一定要明确模型的优点和局限性,否则就会出问题。

优点是客观的,能够进行比较精准的排序,高效率地处理客户,同时依靠统计技术调整业务、变动阈值,以影响通过率和坏账结果。

局限性在于开发时间较长,过去的表现不能完全预测未来,所以一定要有艺术判断的部分。模型也是对现实的简化。

比如用户不能还款的原因,有可能是失业、生病或者离婚,面对这些复杂的因素,模型是无法判断每一个逾期的原因。

当模型用到了非常多的变量之后,透明度、稳定性、可解释性都会受到挑战。在强监管的金融环境里,都需要将这些因素考虑进去。

金融动态风险管理的核心关注点

风险管理是一个动态的管理,受到宏观政策、国际环境、经济周期、监管和竞争环境的影响等等。所以要增强动态管理的理念

具体分为以下三个方面:

第一,实时了解客户。其中包括时效性很高的征信信息、客户信息、公开信息,以及第三方的信息,一定不能是非常陈旧的信息,那样无法做到动态的风险管理。

第二个,寻找风险和回报的平衡点。风险管理就是要不断地寻找平衡点,风险管理和业务的博弈,简单和复杂的博弈,都需要不断地进行调整。

最好基于利润的角度平衡风险和回报。例如投入和回报的比例,利率应该定在哪个点,才能得到恰当的回报。

风险管理一定不能只看到当今的风险,只参考当今的数据。

我们一定要从计量和定性的角度判断在压力状况下评估的这部分优势人群和组合。如何判断他们在压力情况下的坏账情况,是否会让我们从赚钱到亏本,这些都是风险管理中非常重要的理念。

第三,经验判断。我们一定要利用经验来补充科学,其中包含市场、竞对、员工、监管学习新的思想和方法,例如在次贷危机当中,很多的机构关张或者受到重创,但是也有非常多的机构变得非常成功。

例如当时的摩根,就是在次贷危机里相对成功的案例,但是美雷曼还有AIG保险公司都受到了重创,主要原因在于缺乏经验的判断和果断的决策。

需要利用经验来判断现今的时事,哪些需要相信模型,哪些要绕过模型做决策,都是动态风险管理的理由。

最近两三年,国家把金融环境梳理得非常干净、健康,有利于国家经济的正常发展。银行、销金、持牌机构都要面临合规治理。

怎样利用技术手段在达到国家要求的同时,提升金融合规的自动化、专业性、时效性、包容性、协调性?需要做到以下四大方面:

第一,身份识别和控制,如何做好KYC(Know Your Customer),明确用户的资产能力和还款能力。国家一直在强调要合理不能过度借贷给客户,这些都是KYC的一部分。

第二,数据安全管理,数据安全包括隐私、来源、使用、保管、质量的保障。

第三,风险模型管理,在次贷危机之后,美联储加强了对所有银行机构的风险模型的管理。我在美国运通的最后5年创建了运通的模型监管和验证中心,对全公司的1000个模型进行全面的管理。

第四,自动化监控体系,如何实时监控业务、风险指标、数据、模型、稳定性、衰退情况,及时地预警和快速的应对,以对操作风险进行有效把控。

一家金融机构如果能在以上四个方面做到高效并加以完善,就是非常不错的一种状况。

立即预约丨银行系统云化升级

实战体验营

本次体验营最后一场演讲,明晚8点准时直播。

关注公众号《AI金融评论》,在公众号对话框发送关键词“参会”,即可进入专家微信群,观看直播。

推荐阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存