【案例】恒丰银行——对公客户贷后违约预测模型

Original 2017-05-19 恒丰银行 数据猿

数据猿导读

本文基于复杂网络技术深入挖掘担保圈风险，并运用分布式机器学习算法进行建模，预测企业贷后违约概率，模型成功对客户贷后违约风险进行自动化预警，提升了恒丰银行风险控制能力，减少了风险运营成本。

本篇案例为数据猿推出的大型“金融大数据主题策划”活动（查看详情）第一部分的系列案例/征文；感谢 恒丰银行 的投递

作为整体活动的第二部分，2017年6月29日，由数据猿主办，互联网普惠金融研究院合办，中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟协办的《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》还将在上海隆重举办【论坛详情】【上届回顾（点击阅读原文查看）】

在论坛现场，也将颁发“技术创新奖”、“应用创新奖”、“最佳实践奖”、“优秀案例奖”四大类案例奖

来源：数据猿丨投递：恒丰银行

本文长度为5600字，建议阅读11分钟

近年来，担保圈风险在一些行业和地区凸显。据《第一财经日报》获得的监管部门监测数据显示，佛山的银行不良贷款余额从2013年末的60.54亿元飙升至2014年7月末的192.14亿元，7个月增幅达217%；不良贷款率也从去年末的0.85%升至2.6%，究其原因，经济上升周期钢贸行业的“联保互保”贷款机制，成为了风险蔓延时的“连坐”机制。

“互保互联”将非系统性风险变得系统起来，加速风险扩散，增加贷款主体和银行的风险。因此梳理、分析、防范和化解担保圈风险，已成为稳定经济增长，维护金融稳定的重要方面。

担保链中主要隐藏以下几类风险：

(一)担保链中存在企业超出自身担保能力对外担保的现象。

(二)担保链中个别企业出现信贷风险，风险会通过担保链条迅速传导和放大。

(三)担保链信贷风险的集中爆发，易引发区域性和行业性风险，对区域性经济发展产生冲击。

恒丰银行正处于高速增长的新阶段，信贷业务与日俱增，客户贷后违约案例也随之上升，传统的人工盲扫式的风控手段跟不上业务的发展。本案例创新应用了大数据技术和机器学习方法，综合客户行内信息、外部数据以及客户担保网络图等信息，深度挖掘和揭示了恒丰银行担保圈风险，构建了贷后违约风险预警模型。此模型成功对客户贷后违约风险进行自动化预警，控制了信贷违约风险，减少了恒丰银行风险运营成本。

周期节奏

本案例具体实施时间从16年4月份到17年4月份，主要分为以下几个阶段

一，业务调研和需求梳理（2016.04—2016.05）

二，数据获取及预处理（2016.05—2016.07）

三，特征工程（2016.05—2016.09）

四，建模分析评估及优化（2016.06—2016.10）

五，模型部署上线（2016.10—2016.11）

六，后期改进及前端开发对接（2016.11—2017.04）

客户名称/所属分类

恒丰银行/贷后风控

任务/目标

如何利用大数据技术进行建模并及时识别、量化企业违约风险；
如何识别担保图中主要风险企业及其完整的担保路径；
如何对担保圈贷款进行高效清查，并分析担保风险的原因，及时采取防范措施；

本案例针对以上问题，基于复杂网络技术深入挖掘担保违约风险影响因子，并运用分布式机器学习算法进行建模，预测企业贷后违约概率。

构建动态的担保链网络监控平台，基于客户所在担保链的图特征以及客户行为特征进行建模，提供风险客户名单，基于担保链网络模型找出高风险的担保链和高风险企业客户，加强风控力度，重点监控。

挑战

传统的风险管理模型主要基于线性数学模型，没有考虑到担保圈的复杂图结构和关联关系对风险的影响，且主要基于行内数据。本文模型融合行内、行外、征信方面的数据提取企业基本属性，历史行为以及担保图和社区特征，精确预测贷后客户下一季度的逾期概率。

实施过程中遇到的一些挑战主要归纳为以下几个方面：

1）业务数据分析及模型解释

在数据挖掘过程中，与一些前沿的算法模型相比，对业务的理解同样重要。数据挖掘建模各个环节都有一定相似的思路和流程，但是每个领域和场景下的业务知识都不同，需要数据挖掘人员深入到客户现场，多和业务人员沟通交流，多看数据，才能有所把握。

对业务数据的理解，我们认为包括2个方面：

其一是对整体业务流程的理解，比如做贷后违约预测，需要先了解这个业务从开始到结束都有哪些流程，每个流程中都涉及到哪些主体，以及主体之间的关系是怎么样的。

其二，根据自己理解的业务流程框架，从银行数据仓库中找对应的数据，在找数据过程中，你可能会遇到一个字段出现在多张表中，那么你就需要和数仓人员确认这几张表主要的用途和意义以及所表达的数据粒度，然后一张张表去看数据分布，最终确认哪张表哪个字段是方案所需要的。

整个业务数据的理解、分析流程相当繁琐，这也是对数据挖掘人员的考验，需要耐心分析总结，最终才能达到事半功倍的效果。倘若业务理解分析不到位，就无法通过建模分析得出有指导意义的结果。

在项目中，模型最终得到一个不错的精度并不代表建模工作完成，接下来需要花费大量时间去解释你的模型，解释每一个变量是如何影响你的模型的，预测出的结果如何一步步追溯到指标。

比如模型预测出该企业下一季度违约的可能性比较大，那么就需要去定位违约的原因，是因为过去经常违约，还是因为他在在担保网络中受到与之关联企业风险的传导等等，这些都需要一步步去分析拿到证据。

2）多数据源融合及分布式建模

众所周知数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限，所以特征工程在整个数据挖掘过程中占据大部分精力和时间。模型融合行内外多维度数据，并基于这些数据提取企业静态和行为特征，并基于大规模分布式图计算引擎从担保网络中提取大量图特征和社区特征，给模型精度带来质的提升。

实施过程/解决方案

本文模型案例基于TDH平台Discover进行开发，恒丰银行在此引擎上通过综合使用多种机器学习算法，实现了对客户行为分析、客户标签画像、客户流失预警、风险分析、智能推荐等模型开发。本案例主要包括以下6大模块。

对公担保贷款主要业务

对公担保贷款业务主要涉及客户，担保，贷款以及借据相关信息。企业在向银行借款的时候，银行为了降低风险不直接放款，而是要求借款人找到第三方为其做信用担保，第三方担保可以是担保人也可以是担保公司。

首先银行需要和第三方签订担保合同，担保合同形成后，银行和借款人签订贷款合同，然后发放贷款，并产生借据信息。

根据业务流程定位模型数据

模型数据主要包括三大类，分别为行内数据、人行征信数据、外部数据。行内数据直接描述企业在整个业务流程中的行为以及担保关系的形成，根据以上的业务流程从CDM（对各个系统的数据按主题进行汇总整理的公共数据模型层，模型需要的数据主要从该层取）获取客户、担保、贷款以及借据相关的所有数据。

人行征信数据记录企业以及企业法人等相关的信用信息。外部数据作为补充。企业互联网上面的负面信息，以及企业所在行业的经济趋势对企业是否逾期都会产生一定的影响。数据取出来之后，根据主键进行关联汇总，并对数据进行去噪、去缺省值/异常值等处理，加工成模型标准特征输入表。

数据到特征

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好作用的过程。更好的特征意味着只需用简单模型（小数据量复杂模型容易过拟合）。

基于以上数据，如何做数据预处理，从哪些角度提取模型输入特征，如何选择特征，是整个建模过程中比较关键的一步。

1.数据预处理

首先，由于数据中存在大量的缺失值，需要对缺失值数据进行预处理。对于类别型的变量我们视缺失值为一种特征值进行处理,而对于连续性变量我们一般用均值,中位数替代或者运用K近邻方法根据它周围的点来预估。

其次，数据中违约客户远远少于未违约的客户，针对类别不平衡问题，我们进行了过采样处理。从业务意义和模型稳定性方面考虑，我们对部分连续变量进行了离散化，离散化主要有两种划分方式：一种是等值划分（按照值域均分），另一种是等量划分（按照样本数均分）。

我们对数值类型的特征采用了等量划分的离散化方式：先将每一维特征按照数值大小排序，然后均匀地划分为10 个区间，即离散化为1~10。前面已经对特征进行了离散化，如某个客户某个特征离散化后它的值是5,3,1,2,2,2,2,7,2，可以进一步统计离散特征中 1~10 出现的次数ni(i=1,2,…,10)，即可得到一个10维计数特征。

基于这10维特征训练了xgboost分类器，得到一定精度的提高，说明这10维特征具有不错的判别性。对于无序的变量，我们一般对它进行One—Hot 编码，解决了分类器不能处理类别特征的问题。为了防止异常值对模型的影响，我们对离群值进行了处理；为了统一量纲，对特征进行了归一化等操作。

2.特征提取

基于以上处理好的数据，我们从多个角度提取特征，其中主要包括以下几类特征。

1）基本信息特征定性地反映客户的资历，信用及还款能力，描述了授信企业基本情况。如经济性质，注册资本，信用评级状态，中小企业标志等。

2）行为特征根据客户的历史行为判断客户未来违约的可能，企业的历史行为反应了他的习性，而习性一般会延续。行为特征如历史逾期天数、历史逾期次数、历史逾期本金利息等。

3）图结构特征描述客户所在担保图的图结构特征，企业所在图中所处的位置对其它节点产生的影响。比如企业在图中的影响度值，中心程度等（如果图中的关键企业破产违约了，可能会对它相关的企业产生一定的影响）。

4）图行为特征描述客户所在担保图中客户的行为特征，企业是否会违约和给他担保的企业质量是密切相关的。比如子图违约率、子图违约天数、子图违约额度等。

5）社区行为特征描述客户所在社区中客户的行为特征，人以群分物以类聚，所以社区内的企业一般具有相似的性质。比如客户所在社区的违约率、逾期天数、罚息等。

3.特征降维与特征选择

特征选择是为了踢除原本特征里和结果预测关系不大的特征，而降维是做特征的计算组合构成新特征。前面我们基于原始数据生产了几百维特征，这么多维特征一方面可能会导致维度灾难，另一方面很容易导致过拟合，因此需要做降维处理，常见的降维方法有 PCA、ICA、LDA等。

除了采用降维算法之外，我们也做了特征选择来降低特征维度。特征选择的方法很多，其中包括最大信息系数（MIC）、皮尔森相关系数（衡量变量间的线性相关性）、正则化方法（L1， L2）、基于模型的特征排序方法。比较高效的是最后一种方法，即基于学习模型的特征排序方法，这种方法有一个好处：模型学习的过程和特征选择的过程是同时进行的，因此我们采用这种方法。

基于决策树的算法（如 random forest，boosted tree）在模型训练完成后可以输出特征的重要性，我们综合了多种方法进行特征选择和解释判断，其中包括统计指标方法ZScore，基于集成学习的特征重要性计算方法等，随后使用了shrinkage和subsampling等方法进行特征选择和比较。

特征分析

从以上数据中提取了上百个特征，那么这些特征对模型的影响有多大，是否对预测企业贷后违约有帮助？

依据行内近3年数据训练模型，观察基础信息，贷款行为，复杂网络相关特征的变化趋势。我们发现随着时间的变化，复杂网络图的特征越来越重要，进一步说明加入担保图进行担保贷后分析的必要性。以下分别举例介绍这3类特征的重要性。

静态特征：注册资本

上图每个季节中逾期客户和非逾期客户注册资本均值相差较大（已归一化处理），可以看出注册资本的多少对企业是否会逾期有一定的影响，注册资本较小的企业更容易逾期，这相对符合常理。

行为特征：历史逾期天数

从上图可以看出每个季节中逾期客户和非逾期客户历史逾期天数均值相差较大，说明过去逾期的天数越多，贷款逾期概率可能越大。

图特征：社区违约率

上图是一个担保链示意图，该担保链图包括2个社区（橙色为逾期客户，蓝色为非逾期客户），不同社区的违约率差距非常明显，这表明了社区特征的必要性。

构建模型

1）模型训练之前，我们先提取特征和标签，我们以每个季度为时间窗提取特征，这里时间窗设置为一个季度是因为我们统计发现近几年担保贷款逾期呈现出季节性周期规律，每个季度具有相似的走势和分布。

2）建模过程中，我们选取多种机器学习分类算法，并做相应的融合。其中用到基于树模型的集成学习方法，基本思想是把成百上千个分类准确率较低的树模型组合起来成为一个准确率较高的模型。

它的最大特点在于能够自动利用CPU的多线程进行并行计算，同时在算法上加以改进提高了精度。考虑到后期数据量不断增长，我们开发了该算法的分布式实现，部署于生产环境。

3）在部署生产环境之前，我们利用近3年的数据进行多次模型验证，优化和调参，以达到较高的精度和模型稳定性。

结果/效果总结

模型用数仓近3年的真实数据进行了验证，auc均在0.85以上（auc为度量分类模型好坏的一个标准，越接近1表明模型预测能力越强）。

上图为模型对所有违约客户，首次违约客户，非首次违约客户命中和未命中的分布图。首先提取客户2016年第三季度和第四季度行为特征和标签，并训练学习得到模型，然后模型预测2017年第一季度有活跃贷款的客户违约情况，模型预测最有可能违约的TOP N客户中，违约客户的命中覆盖率为64.24%，与传统方式相比提升了6倍左右。

其中首次逾期客户命中覆盖率为46.5%，非首次逾期客户命中覆盖率为66.9%。可以看出不管客户是首次还是非首次违约，模型都有较高的识别能力。即使客户没有历史逾期行为，根据担保图中企业风险的传导关联关系也可以较准确的识别未来可能产生违约行为的客户，这也论证了复杂图特征的重要性。

模型上线以来，对客户信贷中后期进行检测，提前发现大量违约风险，贷后违约坏账率逐渐下降，较之前的贷后违约数量平均减少30%，有效遏制了客户贷后违约风险，极大的减少了贷后违约损失并提升了风险运营效率。

从整个实施过程来看，深入挖掘分析复杂网络对识别企业风险信息至关重要，本案例主要基于担保网络挖掘风险信息，后期会不断探索交易图谱，供应链图谱，投资、高管任职图谱等对企业风险的影响，进一步提高模型识别违约客户的精度。

企业介绍：

恒丰银行股份有限公司，是12家全国性股份制商业银行之一。目前，在全国设有18家一级分行（省级分行），共306家分支机构；另外还发起设立了5家村镇银行。全国布局正在加速，大量分支行和子公司正在筹建开业，同时快速拓展海外业务和设立海外分支机构。截止2016年年底，恒丰银行总资产达1.2万亿，各方面实现了高速跨越式增长。

恒丰银行先后跻身“亚洲银行竞争力排名30强”、“中国企业500强”、“全球银行1000强”，在英国《银行家》杂志发布的“2016年全球银行1000强”排名中，位列第143位，正在向世界一流银行大步迈进。

恒丰银行较好地实现了盈利与稳健发展的平衡。盈利能力方面，恒丰银行在香港中文大学发布的《亚洲银行竞争力研究报告》中位列亚洲银行业第5位；稳健发展能力方面，恒丰银行在中国银行业协会发布的“商业银行稳健发展能力‘陀螺（GYROSCOPE）评价体系’”中，在综合能力排名中位列全国性商业银行第7位，全国性股份制商业银行前三。

数据猿超声波

「2017金融科技商业价值探索高峰论坛」

（点击图片，了解详情）

相关阅读：

天创信用CTO高少峰：现在的数据市场还处于混乱无监管的野蛮增长状态

银行大数据应用实地探访：满满的吐槽，满满的肺腑之言

银行大数据应用实地探访：面对新一轮科技洗礼，银行更崇本务实了

欢迎更多大数据企业、爱好者投稿数据猿，来稿请直接投递至：tougao@datayuan.cn

来源：数据猿

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建