查看原文
其他

大数据与人工智能助力互联网信贷业务稳健发展(下)​

2017-04-20 宁兆鑫 智能风控联盟

上文中已讲了很多行业内存在的一些风险案例,应对方法及建议;对信贷行业的风险进行了初步的分享,本文中将针对信贷行业的风控解决方式方法进行详细阐述及浅谈下风控模型相关的个人看法及建议。


如没有阅读过上半部文章的朋友,还是建议先回读文章上半部,有助于理解本篇文章部分内容及获得更多有价值的信息。


大数据与人工智能助力互联网信贷业务稳健发展(上)



那么第一个关卡剩下来的这些人群,我们只能说是这些人群所提交的每一条信息在历史上没有劣迹记录、在这次行为过程之中没有异常,但是我们并不能保证,他所有提交的数据之间是否具有关联性和一致性,换句话说,他说这些是他的信息,那是不是呢?所以我们就构建了第二个梯度,叫做信息验证。


对于客户所提交的身份信息,例如身份、手机、地址等多维的信息,还要将这些信息进行交叉的验证和比对,这里所用到的数据绝大部分都是从官方机构,比如说运营商、公安机关、教育机构(如学信网)获取的,然后进行交叉比对。同样的我们也可以根据自身已有的历史存量数据,根据当时业务的数据与历史沉淀的数据,进行二度交叉验证。经过了信息验证比对这个环节以后,我们就完成了对客群当中的坏人及假装好人的这类人群的剔除。


通过我们的第一个和第二阶段,已经将所有的疑似坏人剔除掉。但是在整个的实践过程中,因为一些客户隐私或者数据使用范围的界定,无法通过第三方进行统一的数据外购,那么只能通过客户强授权的方式,对客户的一些数据和信息进行补足。像是在一些互联网机构中会通过授权爬取的方式,再补充一些外部的数据资料,进而帮助风控人员对客户进行进一步的认识。


通过这样三个步骤,我们将好客户的全貌进行了比较全面的信息补充,然后进入到一个客户授信的环节,根据业务的不同、客群的不同、风险偏好的不同,各家信贷机构都会通过各种数理建模的方法,对客户的信用进行评估,通过信用评估的结果,然后结合我们的授信模型或者授信评分卡给这个客户进行一定额度的借贷数据,借款金额的发放或者授信额度。


在整个业务流程中,所有的数据流转和风控事件都是完全自动化进行的。举例来说,对于申请这块,比如客户的申请反欺诈,只有风险低到了一定程度,我们才会去自动化的调用第三方数据的验证;在整个第三方数据验证过程中,我们会逐条的进行外部数据的调用,只有当每一个需要被验证的信息返回都是一致的情况下,这些客户才能进入到我们的风控模型当中,对客户的信用进行评估,然后自动化地给他们额度分配。在这个过程中,首先所有数据的调用和完整性是一个梯度增长,而且在这样的一个过程中,所有的额外数据成本也是伴随着客户的价值出现了一种正向增长和正相关的关联关系。我们是为好客户付出更多的数据成本,对他进行风险的调研或授信盘点。



额外补充一点,关于历史风险名单的内容。在同盾提供服务的体系当中,通常我们会将所有的客户历史风险表现数据分成三个大类不同的数据。第一个大类就是图最上面提到的欺诈手机和欺诈设备类。这两种的历史风险数据,在各个风控场景下,都会有广泛的运用,所以说是一种通用型的风险结果表现数据。从注册、登录、修改密码、信贷等各个领域里都可以被用到,因为它们涉及到都是客户行为风险的这样一个表现。


后面一类是高危名单和风险名单。这两个在信贷业务当中会广泛的使用,然后对客户是否准入进行风险判定。


另外一个,就是中间这两种数据,也是这些年来我们在风险实践过程当中发现挺有意思的两种数据,一个种叫多头借贷数据维度;另外一种可能会涉及一些公安、法院、包括环保类的公众风险名单数据。为什么我们的一些数据会特别的将这两种数据割裂开来,因为对于这些数据的行为,表现和信贷逾期之间,只有涉及到某一类特定类型的风险事件或达到一定的量级了以后,甚至在不同的产品和客群之间细分,才可能对于最终的逾期表现来说有一定的预测性。所以说我在这里会将这两种数据作为一个单独的类型列举出来。



那么刚才我们讲到的风控分析,我们分析的主体是对于个人,或者是针对于每一笔独立的交易进行的分析。但是在信贷领域当中,确实有大量团伙化或者“黑中介”这样的事件,团伙分析就是我们使用“复杂网络”技术,利用同盾积累的庞大交易信息数据,构建的对客户团伙风险的分析和挖掘。利用已经表现为逾期的或已经表现为高危风险的客户群体,他们所填写的信息跟另外一些特定人群对比会存在数据的相同性,可能交易过程中的设备信息、IP地址这样的相同信息;也可能是客户填写的资料当中电子邮箱、家庭电话这一类相对较弱的信息项目当有数据的相同性,进而通过复杂网络技术“动态社团分割”算法,进行的深度数据分析,通过这样的一些分析方法,可以有效的发现一些隐藏的团伙或者中介分布,甚至是一些虽然还没有风险表现,但是需要我们进行高度风险监控的人群。



讲完贷前准入和名单后,我想就关于模型的问题简单的说几句。最近在跟很多用户交流的过程中可以感觉到,从去年上半年开始到现在,模型这个词被每个风控同志挂在嘴上,有些人甚至认为风险模型似乎可以战无不胜,有了模型可以什么都不用了。从个人角度来说,是认可模型在整个风险控制当中所能起到的作用,但是我今天之所以额外的提出来,是想说一下在整个模型的构建中,它是一个非常科学的、实证型的分析过程。个人觉得整个模型的构建对于数据本身是一个要求非常高的事件。数据来源的多样性、历史数据时间的跨度、数据标签的精确程度、甚至数据的多少,与最终模型的可用性都有非常强的关联性。



关于信贷模型的构建,从数据准备来说,以银行信用卡来讲,最常规的我们是需要准备12个月的观察期数据和12个月的表现期数据情况。我们先回到最原始的数据的准备中。首先你要有足够的数据的积累,因为只有多维度的数据表现,以及相对正确的关于好坏标签的认证,个人觉得才具备一个模型开发的前提条件。


还有作为一个模型来讲,其核心的还是要基于多维的数据,对于风险结果进行预判。所以在整个模型构建的过程中,数据的来源,比如说你的数据来源是不是相对单一、数据是否可以稳定提供,是我们在构建模型过程当中需要特别注意的。还有我们对于一个模型的构建,是必须要有一定的数据积累,而且要有比较准确的好坏样本标签,这样的话才能构建出一个比较精准的数据模型。


在整个的模型构建过程中,数据样本的量级也是非常重要的。数据样本的多少,对于最终的结果表现有可能会出现比较大的差异,可能在小样本数据的验证过程中会有比较好的拟合情况,但是真的到了实际的应用过程当中,整个的稳定性可能还是会存在一定的偏差。


有时候和一些机构在聊天时,表示业务才开展了两三个月,有些厂商就说可以帮客户做一个如何非常有效的模型,从个人角度来看,虽然这个模型可以构建,但是在整个模型的构成和调优都需要一段时间才能达到一定的稳定性。而且更有意思的是一些附加诱利,如国外回来的大牛、我们模型做的如何如何。如果是一个纯粹人力外包个人觉得这个倒也说的过去,但是如果还附带有一些数据输出的话,因为模型的构建和稳定性是需要时间和数据的验证的,如果自身没有一个比较长的历史数据和表现数据的验证,那个人觉得这个模型也仅仅是可以做出来,做出来和做的好,是有非常大的区别。而每个客户的产品定位、客群分布、风险偏好还是有一定的差异性,在模型的可用性和稳定性方面还是要有一定的调整,所以还是建议大家擦亮眼睛。



讲完贷前的风控,我也想特别的提一下关于贷后的风险控制。对于贷后的风险来说,其实大家历来都是重贷前,轻贷后。很多时候都会把重兵放在客户准入的这一过程之中,用各种各样的放大镜去看,而且也有一些言论表示,只要把好人放进来了,那后续的风险就相对较低了。我们确实发现贷前风险控制比较好的客户,在后续的经营过程中是在一定程度上降低后续风险,但是对于整个人群的变化和贷后的风险监控也是非常有必要的。在实践中我们发现了很多的案例,比如我们在为一家银行提供服务的时候,一些通常意义上风险较低的人群(比如公务员、教师职业的客户),最终逾期、甚至失联。我们在进行整个风险的梳理过程中,明显的可以发现在其放款后,3-6个月左右客户自身、客户的亲人出现了大量的新平台的借款行为,在别的平台出现逾期,从而导致的风险,其实如果在贷后监控这个环节能够增加对客户风险的监控,有很大的机会是可以在最早的时间发现客户出现的风险,从而及早的进行资金保全。


对于贷后的风险监控,我们并不完全看这个人有什么样的新增风险,什么意思呢?就是这客户在我们的风险监控变化里面并不是看他的风险变化的相对值,比如说他的风险从从一到二十,要去看风险变化相对值的二十,导致这个客户重新评估是否还是在风险可控的范围内,还是已经超出了风险可控的范围。在这个监控的过程当中,对于他的稳定性,像是地址的异常变动,对监控是一个非常有效的数据,同样有效的数据是,客户新增的其他平台的借款申请。为什么特别关注客户新增的申请?因为客户之前是有资金需求,已经发放了他们能够承担的风险额度,如果一个客户在借款以后还在持续性的对外借款,说明他本身的资金需求缺口还是非常巨大的,所以我们对他可承受的授信额度的评估就需要进行重新评估。当然针对已经出现的一些风险事件,像是失信、逾期事件等也是需要监控的。



关于贷前、贷后已经讲了很多,最后我个人的一个经验之谈:不管是利用大数据的方法,还是更现代的数理化的模型方法,风险控制永远都是一个可以无限接近,但是无法消除的事件。我们对于所有的风险的控制,无论是从技术入手也好还是从数据入手也好,提供更多维度,更精准的原始数据,丰富我们风险判定的手段以外,更重要的是找到我们风险控制的成本和客户感受之间的平衡,进而达到一个相对可控的风险承受水平。这个才是风控当中我们需要把控的一个度。也是一种艺术。


感谢一直等待课堂笔记的朋友们,本次分享内容较多,篇幅略长,希望大家可以耐心阅读。文内很多个人经验的分享,愿可以帮助到志同道合的朋友。欢迎有兴趣的朋友与我们互动,探讨。


大数据与人工智能助力互联网信贷业务稳健发展(上)

承上



点击“阅读原文”,直达同盾官网

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存