信用评分卡模型开发及评估指标
信用评分卡主要分类
A卡(Application score card)申请评分卡
B卡(Behavior score card)行为评分卡
C卡(Collection score card)催收评分卡
1.申请评分卡:对新贷款申请进行筛选并判断其违约风险,俗称A卡。
申请评分卡被用来对新贷款申请进行一次性信用评分,其评分结果将决定以下几个方面:
估计信用状况,即正常还是违约、并据此决定批准还是拒绝该笔贷款申请
为获得审批通过需要提供的抵押物
贷款金额(信用额度)
贷款定价(利率水平)
2.行为评分卡:对审批通过的贷款客户进行覆盖整个贷款周期的管理
行为评分卡被用来对已经通过审批并进入执行阶段的账户,即已经进行了一定交易的账户,进行信用评分,评分过程将反复进行,以监测和管理业务账户,其评分结果将用于:
审查信用重建
审查信用额度
制定清收策略(如果违约或逾期付款)
审查贷款定价和贷款条件。
3.催收评分卡:对审批通过的贷款客户进行覆盖整个贷款周期的管理
催收评分卡是申请评分卡和行为评分模型的补充,用于预测和评估对某一笔坏账所采取的措施的有效性,诸如客户对警告信件反映的可能性,银行可以根据模型的预测,对不同状况的逾期贷款采取不同的有效措施进行处理。
催收行为本身是需要成本的,例如电话费用或者邮票费用。催收评分解决的问题就是预测催收成功的可能性,结合催收评分和催收成本,来决定哪些违约客户应该进行什么样的催收顺序。
国内银行的催收方式主要有电话催收、信函催收、上门催收、司法催收、委外催收,一般的顺序是先进行短信或者电话催收;如果催收不成功,则采用信函催收;如果还没有反馈,则上门催收;最终采用司法催收和委外催收。这种挨个尝试催收手段的全面梳理的方式粗放而不经济,催收本身是需要成本的,催收的目的是在于减少损失,而不是增加成本,所以实施催收前要考虑的第一个问题应该是催收的成本是不是小于催收减少的损失。
4.三种评分卡的区别:
使用的时间不同。分别侧重贷前、贷中、贷后;
数据要求不同。A卡一般可做贷款0-1年的信用分析,B卡则是在申请人有了一定行为后,有了较大数据进行的分析,一般为3-5年,C卡则对数据要求更大,需加入催收后客户反应等属性数据。
每种评分卡的模型会不一样。在A卡中常用的有逻辑回归,AHP[层次分析法(Analytic Hierarchy Process,简称AHP)]等,而在后面两种卡中,常使用多因素逻辑回归,精度等方面更好。
标准评分卡的格式
假设评分卡用到三个特征变量:
a:账户持有人的年龄
b:在当前住址的居住年限
c:就业状况
标准评分卡格式如下:
如果a=37,b=3.5,c=“全职”,则客户总得分为485+39+36+38=598。
除了为抽象的统计模型提供简明的表现形式外,标准评分卡还有其他重要优势,这些优势包括:
容易理解,因为采用了为人熟知的表格形式;
将评分卡中每个变量的贡献加总得到一个账户的总信用评分,这使得最终分支对普通大众来说更加透明。当信贷产品的监管法规要求客户有了解信用评分及评分理由的权利时,这将变得十分关键;
比率(odds),依据可计算得到的比率,信用状况时正常或违约的概率与总的评分直接相关;
决定变量(预测变量)采用表格形式,总信用评分的计算采用简单假发,这些使得评分卡容易在众多实施平台和编程语言环境下实施;
对于每个预测变量,根据不同类别或范围分别赋予一定分值,使得最终消费者清楚如何提高其信用评分。
典型标准评分卡开发流程
流程环节主要包括:
1.问题准备
在特定业务重点、财务结果和具体信贷产品历史表现的基础上,确定违约和正常的定义。一般设置逾期60天、90天或180天的口径。
确定评分卡的范围、开发和实施窗口。建模窗口的长度可以从几个月到几年,取决于客户群的特征和行为的变化率,在信用卡申请中,通常认为12个月的建模窗口比较合适。
识别数据的范围和来源,内部还是外部,并确保能够取得这些数据。设计主要项目管理计划,对时间、资源、人员等进行管理。
2.数据获取与整合
数据不限制内部,也可以来源于外部数据,需要整合成一个适合建模的数据。
3.探索性数据分析(EDA)与数据描述
候选预测变量单变量统计特征的平均,及其取值在变量范围内的分布;计算每个候选预测变量分类或分段条件下的违约率分布,也被称为要素分析;通过列联表、关联表和相关性指标确定不同变量之间的检验关系。
4.数据准备
数据准备是整个评分卡开发过程中最重要,也是最耗时的工作。约占整个项目时间的80%以上。
数据准备的目的就是创建所谓的数据挖掘或建模视图,即包含开发评分卡模型所需要的所有要素的唯一数据集。需要大量的数据清洗及转换工作。
5.变量选择
从成千上百个建模变量中选择预测能力较强的少数变量,一般不超过15个。
6.模型开发
标准评分卡基于logistic回归模型。
7.模型验证
通常所有的预测模型都需要满足四项基本要求:必须达到可接受的准确性水平;必须稳健,因此能够适用于更广范围的数据集;必须简单;必须有意义,即在业务变量及其预测值方面是可解释的。
8.评分卡创建和刻度
一个强力的logistic回归模型建立并通过检验后,将被转化成标准评分卡的形式。
9.评分卡实施
将评分卡转化成可实施代码,如sas,sql、python等;确定最终得分的临界值,以对应所需的业务行动,例如接受、拒绝或参考人工审核结果。
10.拒绝演绎
拒绝演绎并不是评分卡开发过程中的标准步骤;评分卡开发使用的是已经审批通过且经过一段时间运行的账户数据,已经表现出正常或违约的账户状态,因此,被拒绝申请的数据没有被纳入评分卡开发过程中;拒绝演绎是尝试去分析可能会违约并在评分卡开发前已经被拒绝的账户的一种方法。
11.检测和报告
和其他金融模型一样,评分卡的应用环境也是不断变化的,因而,一个评分卡实施之后,还需要编制一系列的报告以检测其在预期的实施窗口内的表现;判断评分卡的实际表现并与开发阶段的逾期表现相比较;计算某些特定的指数,这些指数可用来出发某些行动,如重建评分卡、重设临界值或者调整评分卡刻度;监测评分卡创建中使用的客户群的特征变化,以及这些变化对评分卡赋予的分支的冲击。
信用评分卡模型评估指标
一般信用评分卡模型评估指标大致可以分成两类:
预测能力指标,用于评估模型对违约事件的预测能力,比如:
WOE/IV;
ROC/AUC;
K-S指标;
GINI系数;
稳定性指标,用于评估模型在训练样本和测试样本中预测能力的一致性,如PSI指标。
下面我们来尝试对这些指标进行基础的了解
1.WOE&IV
WOE(Weight of Evidence)叫做证据权重,IV(Information Value)叫做信息价值,是一组评估变量的预测能力的指标。也就是说,当我们想要拿出证据证明“年龄”这个变量对于违约概率是否有影响的时候,可以使用这个指标评估年龄到底对违约概率的影响有多大。
下面表格展示的就是年龄、性别及婚姻状况三个变量相关的好坏样本数据以及计算出的对应的WOE及IV值。WOE的计算公式是:ln[(违约/总违约)/(正常/总正常)]。比如对于年龄18~25的组别,WOE=In[(131/总违约样本数)/(1016/总正常样本数)]。根据WOE值,可以进一步计算出IV值。
在此不对具体计算公式和逻辑进行解释,大家可以理解成,WOE和IV都是使用样本好坏比例的数据转换成的指标。
2.ROC/AUC
ROCreceiver operating characteristic curve),中文叫“接受者操作特性曲线”。
这里需要补充的基础知识是关于经典的混淆矩阵(confusion matrix)的内容。这个分析的经典之处在于,它超出了我们以往理解“正确率”的限制,使得我们有更多的维度去评价一个模型的预测能力(涉及到了机器学习的内容)。
以下的表格就是混淆矩阵的内容。怎么来理解呢?在使用一个模型去判断一个样本是“正样本”还是“负样本”的时候,模型会输出“正”或者“负”两种预测,叫做预测值;而实际上这个样本会有正样本或者负样本两种情况,称为实际值(类似我们利用模型预测“好人”及“坏人”)。预测值和实际值各有两种情况,这两种情况的交叉组合就形成了以下的混淆矩阵。
通过上面的矩阵,可以衍生出几个重要的评价指标:
准确率(Accuracy Rate):(TP+TN)/N。
召回率(TPR,True Positive Rate):TP/(TP+FN)。在所有实际是正样本中有多少被正确识别为正样本。
误报率(FPR,False Positive Rate):FP/(FP+TN)。在所有实际为负样本中有多少被错误识别为正样本。
查准率(Precision Rate):TP/(TP+FP)。被识别成正样本的样本中有多少是真的正样本。
回到ROC的话题上来。以混淆矩阵中的FPR为横坐标,以TPR为纵坐标,就可以画出风控界知名的ROC曲线,而曲线下方的面积就是AUC(Area Under Curve)。
ROC曲线是怎么画出来的,这里有一个非常棒的解释:ROC和AUC介绍以及如何计算AUC9(http://alexkong.net/2013/06/introduction-to-auc-and-roc/)。
但简单一点去理解的话,可以先尝试理解图像上的一点,比如图中的A点。A点对应的是,给定一个划分好人坏人的分数线(比如600分以上是好人),然后使用这个模型进行预测。预测的结果是,实际上为坏人且预测结果是坏人的概率是0.8,而实际是坏人却被预测为好人的概率是0.1。由于我们可以设定不同的分数线,因此通过这种方式可以产生不同的点,这些点也就连成了ROC曲线。
按照上面的理解,那我们肯定希望被准确预测为坏人的概率越高越好,而被误判为好人的概率越低越好,所以一个越好的分类模型,ROC曲线越接近左上方,AUC也越来越接近1;反之,如果这个分类模型得出的结果基本上相当于随机猜测,那么画出的图像就很接近于左下角和右上角的对角线(即图中标注的“random chance”),那么这个模型也就没什么意义了。
3. K-S
作为一个模型,我们当然希望这个模型能够帮我们挑选到最多的好客户,同时不要放进来那么多坏客户。K-S值就是一个这样思路的指标。比如,在完成一个模型后,将测试模型的样本平均分成10组,以好样本占比降序从左到右进行排列,其中第一组的好样本占比最大,坏样本占比最小。
这些组别的好坏样本占比进行累加后得到每一组对应的累计的占比。好坏样本的累计占比随着样本的累计而变化(图中Good/Bad两条曲线),而两者差异最大时就是我们要求的K-S值(图中比较长的直线箭头的那个位置)。
KS值的取值范围是[0,1]。通常来说,值越大,表明正负样本区分的程度越好。一般,KS值>0.2就可认为模型有比较好的预测准确性。
4.GINI系数
还记得经济学中那个著名的基尼系数吗?下图应该可以让你回忆起来。将一个国家所有的人口按最贫穷到最富有进行排列,随着人数的累计,这些人口所拥有的财富的比例也逐渐增加到100%,按这个方法得到图中的曲线,称为洛伦兹曲线。基尼系数就是图中A/B的比例。可以看到,假如这个国家最富有的那群人占据了越多的财富,贫富差距越大,那么洛伦茨曲线就会越弯曲,基尼系数就越大。
同样的,假设我们把100个人的信用评分按照从高到低进行排序,以横轴为累计人数比例,纵轴作为累计坏样本比例,随着累计人数比例的上升,累计坏样本的比例也在上升。如果这个评分的区分能力比较好,那么越大比例的坏样本会集中在越低的分数区间,整个图像形成一个凹下去的形状。所以洛伦兹曲线的弧度越大,基尼系数越大,这个模型区分好坏样本的能力就越强。
5. PSI
PSI(Population Stability Index)叫做群体稳定性指标,用于衡量两组样本的评分是否有显著差异。PSI = sum(实际占比-预期占比)*ln(实际占比/预期占比)。
举个栗子,假设在训练一个评分模型时,我们将样本评分按从小到大排序分成10组,那么每组会有不同的样本数量占比P1;评分模型制作出来之后,我们试用这个模型去预测新的一组数据样本,按上面的方法同样按评分分成10组,每组也会有一定的样本数量占比P2。PSI可以帮助我们量化P1和P2,即预期占比与实际占比的差距。这个指标同样也可以用于监测每月申请客户或成交客户的变化。
信用评分涉及到很多数学和统计学的概念,没有一定的知识背景的话理解起来会有一些难度。但话说回来,如果把这些问题都弄懂了,再去看回自己所负责工作当中涉及到的信用评分内容,那叫一个通透,非常有成就感。
来源|风控命门
更多精彩,戳这里:
---------------近期课程预告 --------------
12月21日(本周四),66号学苑携手ZRobot CEO乔杨开设信用评分模型系列课程,从概念应用、数据基础、数据挖掘技术、开发流程、实战案例等方面,手把手教你如何搭建企业级信用评分模型。
点击【阅读原文】即可报名哦~