查看原文
其他

司孟慧 郭威 陈传龙:基于人工智能的Lasso-GBDT信用卡风险评级方法

郭威等 农村金融研究 2023-10-24


基于人工智能的Lasso-GBDT信用卡风险评级方法

司孟慧 郭威 陈传龙

作者简介:司孟慧,中央党校(国家行政学院)博士研究生;郭威(通讯作者),中央党校(国家行政学院)经济学教研部教授;陈传龙,中央党校(国家行政学院)博士研究生。


引用格式:司孟慧,郭威,陈传龙. 基于人工智能的Lasso-GBDT信用卡风险评级方法[J].农村金融研究,2022(5):28-38.

「摘要」在信贷信息不对称现状下,构建可靠的个人信用评分模型等信用评级方法评估贷款人的信用违约风险水平具有重要的现实意义。论文将具有互补性的Lasso-GBDT模型组合引入个人信用评级,发现Lasso-GBDT组合模型能够准确地筛选出重要变量;通过对商业银行个人信用评级进行实证分析发现,相较于Lasso-RF模型,Lasso-GBDT模型更能在抓住信用风险关键因素的基础上准确预测信用卡违约状况。

「关键词」人工智能;信用评级;Lasso-GBDT组合模型


一、引言与文献综述

信贷市场上存在严重的信息不对称问题,由于借贷双方信息不流通,商业银行等借贷机构难以真正掌控申请用户的全部有用信息。为了有效降低信用卡风险,一方面需要完善用户的个人信息,另一方面需要建立一套完善的信用评级体系,以有效管理信息不对称引发的信用卡风险,克服对用户信用的主观臆断,提升信用卡事前风险识别和事中风险管理能力。许多国家在2008年国际金融危机后相继加强了对金融风险的管控,而信用风险是金融风险的主要部分,因此加强信用风险管理研究成为各国防范系统性金融风险的重要举措(李卫娥,2020)。

当前与信用卡违约风险有关的文献主要集中在两个方面:一是研究信用卡的影响因素。一些学者侧重分析持卡人的个人特征、家庭特征及信用卡消费状况等因素对信用卡违约的影响。如宋红敏、范杰(2015)使用Logistic回归模型分析了信用卡的申请使用是否受性别和年龄、受教育程度、收入、家庭负担和社会保障等因素影响。张晓红等(2017)利用非参数Kruskal Wallis检验方法研究了性别、年龄、受教育程度和收入等因素对信用卡使用情况的影响。吴锟、吴卫星(2018)基于Probit模型和IV Probit模型在控制户主年龄、学历、家庭净财富、收入、住房等变量后,分析了金融素养对使用信用卡的影响,得出金融素养水平同居民家庭使用信用卡成正相关的结论。惠锐、郭华世(2019)通过建立VAR模型,分析了主要宏观经济指标对我国商业银行信用风险的影响。

二是研究信用卡违约的影响因素以及对违约风险的评估或预测。在信用卡违约的影响因素方面,Li et al.(2019)使用COX比例风险模型,研究了中国信用卡用户的多样性、独立性和社会因素对信用卡违约的影响,发现信用卡违约与信用卡用户收入的多少无关,而与收入的稳定性显著相关。刘阳、张雨涵(2020)采用Probit模型在控制户主特征变量、家庭特征变量及宏观经济变量后,研究了居民金融素养水平对信用卡违约的影响。在对信用卡违约风险进行评估或预测方面,葛君(2010)利用因子分析方法选取了变量,使用Logistic回归方法对信用卡违约风险进行了预测。方匡南等(2010)采用基尼法判断重要变量,使用随机森林方法建立了信用卡违约风险预测模型,并与Logistic方法、支持向量机、分类回归树进行比较,结果发现随机森林方法的预测准确率较高。方匡南等(2014)引入了能够进行变量选择和参数估计的Lasso-logistic降维方法建立了信用卡违约风险预测模型,在比较其他logistic方法后发现Lasso-logistic方法预测精度较高。刘铭等(2017)在考虑变量实际意义和相关性分析的基础上选取指标,分别基于改进的神经网络、传统神经网络、支持向量机和分类决策树法建立了信用卡用户违约预测模型,比较后发现改进的神经网络法准确率较高。

综上所述,要对信用卡违约风险进行准确预测,重要的是选取具有高关联度的变量去构建科学准确的信用评级指标体系,并选择有效的方法建立预测模型。构建有效的信用评级指标体系,关键是要识别出核心变量。建立预测模型则要注重模型外推预测效果,选用模型时充分考虑到模型之间的互补性,尝试采用构建组合模型对信用卡违约风险进行预测。本文主要贡献在于:第一,构建基于互补性的Lasso-GBDT组合式信用评级模型,并测算出高准确率的客户违约结果;第二,引入具有惩罚项的Ridge Regression、Lasso Regression和Elastic Net Regression方法对变量进行筛选,既可以解决多重共线性的过度拟合问题,又可以减轻算法计算难度(上述方法具有筛选变量的功能)。


二、模型理论及构建

本文构建能够进行变量筛选和信用风险预测的组合模型,引入带有惩罚项的Ridge Regression、Lasso Regression和Elastic net Regression三个模型实现变量初步筛选,并在此基础上构建GBDT信用评级模型。

(一)构建筛选变量模型(详见原文)

(二)建立 GBDT 信用评级模型(详见原文)


三、特征描述及预处理

(一)变量描述

本文数据来源于2020年我国某大型商业银行的信用卡部,共有39923笔信用卡信贷数据,数据中的客户违约有7218笔,而非违约有1957笔。由于文章缺失数据比例较低,因而将缺失值与异常值所在行进行删除。教育程度和学位两个变量数据缺失严重,将以上两列数据予以删除。解释变量中包含性别二元离散数据变量及多个连续型数据变量,考虑到不同连续型数值变量单位各有不同,本文对所有数值变量进行均值中心化和方差规模化等标准化处理,使得模型参数估计系数具有可比性。具体特征如表1所示。

(二)指标体系初步确定

选择合适的信用评级指标体系是建模的基础。由于存在的冗余变量并不能帮助我们有效预测信用风险,反而测算结果可能由于变量间的自相关性等影响模型效果。选取合适的解释变量作为信用评级指标体系有助于银行体系信用卡发卡银行的审核和重点监控。为了识别对因变量有用的特征、提升模型预测准确率,本文首先对所选用的39个特征变量运用Frank(1993) 的Ridge Regression、Tibshirani(1996)的Lasso Regression和Hui&Hastie(2005)提出的Elastic Net Regression模型三种方法进行特征选择,即调用R软件分别对式子(4)、(5)和(6)进行参数估计。

变量筛选模型中,三个模型控制高相关性数据的惩罚参数α取值有所不同,Ridge Regression和Lasso Regression模型α值固定为0和1,而Elastic Net Regression模型α值介于0和1之间。因此,为更好地选取Elastic Net Regression模型,我们通过对比0.1~0.9这9个不同α值下的RMSE,RMSE值越小,则模型的预测能力越强。通过选取最小的RMSE值所对应的α值可以确定Elastic Net Regression模型,具体的测算结果如表2所示。

通过表2的结果可知,当α值为0.9时,Elastic Net Regression模型的RMSE值最小,为80.98122。我们选择的Elastic Net Regression模型惩罚参数α取值为0.9。本文将使用惩罚参数各为0、1和0.9的Ridge Regression、Lasso Regression和Elastic Net Regression三种模型对数据进行变量筛选,其系数路径和交叉验证结果分别如图1、图2所示。

图1-(a)、图1-(b)和图1-(c) 纵坐标是所选择变量的系数值,分别为Ridge Regression模型、Lasso Regression模型和Elastic Net Regression模型的选择路径图,随着横坐标λ值的不断增大,其对系数的压缩程度越大,模型筛选掉的变量就越多,因而图1中3个子图上侧的变量数目也越来越少。从三个模型的系数路径图可知,39个特征变量被选择留在模型中的数目越来越少,特征变量按照重要性程度依次被选择到模型中,最先进入模型中的变量具有较强的预测能力,表示其违约概率估计的影响越大。

本文采用交叉验证的方法选择最为适合的参数λ,以提高模型的稳健性。Ridge Regression、Lasso Regression和Elastic Net Regression模型的交叉验证结果如图2-(a)、图2-(b)和图2-(c)所示,与图1三个子图一一对应,图2三个子图中横坐标为λ取值,纵坐标为交叉验证的误差平方和。图2中三个子图都有两条垂直虚线,左侧虚线为lambda.min,是给出最小平均交叉验证误差的λ值,右侧虚线为是lambda.1se,该虚线与横坐标交叉的λ值给出了模型,使得误差在最小值的一个标准误差以内,同时也是一个方差范围内得到最简单模型的那一个λ值。Tibshirani(1996)认为,λ估计值在左右两侧虚线区间内模型预测偏差变动幅度相对较小,一般建议选取使模型相对简洁的λ值。我们利用广义交叉验证直接选择使模型误差较小且相对简洁的λ值,即lambda.lse所对应的λ值。根据R运行结果,Ridge Regression 模型、Lasso Regression模型和Elastic Net Regression模型选取的λ值 分 别 为0.0905、0.0045和0.0038, 图2三个子图中lambda.lse值从左至右依次为lnλ1=-2.4025、lnλ2=-5.4028 和lnλ3=-5.5766。此 时R语 言 运 行结果显示,Ridge Regression模型并未删除任何特征变量,选取的变量数目为39个,而Lasso Regression模型将16个冗余变量进行删除,筛选出的变量为23个,Elastic Net模型的变量筛选数目介于以上两模型中间,为27个变量。以上三种模型在实现变量筛选的同时,也对变量系数进行了测算,为了更便于三种模型之间的横向对比,现将三种模型的初步变量筛选结果进行系数估计,如表3所示。

由结果可知,信用卡信用违约概率中具有重要解释作用的特征变量均被列入模型中。变量 X28、X23、X29、X35 和 X18在Ridge Regression模型中是影响信用卡违约概率测算的重要变量,而在Lasso Regression模型中, 变 量X28、X18、X29、X30 和X21是影响信用卡信用风险的五个重要变量,X18、X21、X28、X29、X30 等5个变量对 Elastic Net Regression模型来说较为重要。可以看出变量X28对三个模型的影响最为重要。接下来,基于三个模型变量筛选的结果来测算三个模型的RMSE值,该值越小则说明模型的预测能力越强,对比结果如表4所示。

Lasso Regression模型的均方根误差最小,因此在接下来的建模过程中,我们将使用该模型筛选出的特征变量进行测算。


四、实证分析(详见原文)


五、结论与政策建议

(一)结论

当前市场存在信息不对称问题,因而抵押贷款可通过抵押品实现信息传递,但是在没有抵押的信用卡市场中,金融机构只能依靠充分利用用户历史信息、挖掘用户违约特征等人工智能方式提高信用风险管理水平,提升对违约用户的识别能力(王正位等,2020)。学者们希望研究的信用评估模型能够给贷款机构带来最大的期望利润,或者带来最小的错误分类成本。为提升信用卡用户违约准确率,基于分析单一模型的基础上,引入信用评级组合模型对样本数据进行测算。使用Lasso Regression模型对样本数据进行变量筛选,有效剔除与因变量Y不相关的自变量,有效避免建模过程中无关变量特征对模型效果的影响。

本文构建了基于互补性的Lasso-GBDT组合模型,实证研究表明该组合模型比Lasso-RF组合模型更具准确性。通过实证分析得出以下结论:一方面,相较于单个模型,组合模型数据测算中能够充分利用每个模型的优点,并且有效避免单个模型数据测算存在的弊端,提高数据测算的准确率。另一方面,通过Lasso-GBDT信用评级模型可知,持有信用卡天数、工资、信用卡消费金额的层级、性别和借记卡天数、历史贷款最长逾期天数是最具影响力的变量,而人们普遍关注的婚姻和年龄变量却很少带来信用卡的违约风险,与方匡南等(2010)、赖辉(2017)的结论不太一致,他们认为婚姻状况和年龄是影响用户信用卡违约的关键因素。

(二)政策建议

本文基于国际先进评级机构的成熟经验,从银行和政府两方面对如何完善我国信用评级体系提出政策建议。

1.完善信用评级系统。(1)完善基础数据库。基于实证结果可知,完善的用户数据积累是金融机构进行信用评级的重要基础。基础数据库包括事前数据和事后数据,事前数据是信用评级前收集整理的用户基础数据,用以防范信息不对称问题;而事后数据是对信用评级结果统计分析后的数据库。商业银行等金融机构应完善包括事前数据和事后数据在内的信用评级基础数据库。(2)建立信用评级跟踪监测体系。信用评级体系并非一蹴而就,而是一项需要持续更新并不断优化的长期工作,需要在评级的整个过程实行动态监控和静态监控相结合的全程监控模式,以保证信用评级体系有效运行。(3)建立专业队伍。建立一套科学系统的信用评级体系需要一支具备专业素质和具备一定分析与判断能力的人才队伍作为重要支撑。金融机构应加强对信用评级人员的培训。一方面,与穆迪等国外先进评级机构合作,定期派人员外出学习国外先进经验;另一方面,聘请国外专家对我国的信用评级进行指导,以保证人员知识体系持续更新。

2.人民银行、银保监会等金融监管机构应为信用卡的健康发展创造良好的市场环境。基于信用评级机构的社会性和国内信用评级业发展现状,我国有必要建立健全金融监管机构体系,以实现对该行业的管理。一方面,监管机构应该对银行等信用评级实行资格认定制度,增强信用风险监管力。另一方面,建立健全信用评级法律法规。2004年颁布的《新巴塞尔资本协议》明确了信用评级的重要性,我国应在该协议的基础上建立信用评级法律,加强对于银行信用评级本身业务经营的法律法规建设,为我国信用评级创造良好的市场环境。

原文载于《农村金融研究》2022年第5期


关于我们

《农村金融研究》创刊于1980年,是中国农业银行股份有限公司主管,中国农村金融学会主办,面向国内外公开发行的学术期刊。目前,已入选《中国人文社会科学核心期刊要览》(中国社会科学评价研究院)。

本刊侧重于农村金融、商业银行经营与管理、金融理论与实践等相关领域的研究和探讨。为了进一步提升本刊质量和学术影响力,欢迎社会各界学者、专家和广大金融实践者积极投稿。

投稿请登录http://ncjr.cbpt.cnki.net

欢迎扫码关注


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存