从芝麻信用分透露的详细数据设计,我们能从中得到什么启示?
The following article is from 与数据同行 Author 傅一平
正文开始
最近有点惊诧,因为朋友群突然有人晒出了芝麻信用分详细的数据要素,虽然早就知道芝麻信用分的计算项目包括身份特征、信用历史、履约能力、人脉关系以及行为偏好五个大类,而且信用历史、行为偏好和履约能力所占的比重最大,分别为35%、25%以及20%,但能看到如此详细的各个项目的数据要素就有点吃惊了,按惯例这应该属于行业的秘密,特此把学习心得分享于你。
任何有志于做信用评估和风控的企业或个人,都应该看一下,设计上的确有它的独到之处。
01 总体分类
芝麻信用分评分维度分为二级,共涉及70个元素,其实比我想象的要少:
除了字符型,对于每一个元素,芝麻信用分都做了分段,当然分段的数值是基于全量芝麻用户的数值分布确定的,这个大家基本一致,芝麻信用分规定了分段的最多个数是十五段,根据笔者的经验,应该足够了,自家的信用分分段就没有超过15段的。
02 身份特质
(1)身份特质之就业类信息
“所在公司”这个元素说明阿里充分利用了自己掌握的企业信息来间接判断个人的信用状况,非常好,“职业类型”就更不用说了,这让我联想到注册阿里钉钉的时候要求我选择详细的职业情况,感觉其每做一个产品在数据获取方面的考量是充分的,即使这个产品不赚钱,但其他产品也许会从中受益,这体现了其玩战略,生态的能力。
细心的读者还会看到阿里在每个元素后面有标注是外部数据还是模型预测,这个涉及到一个置信的问题,外部的来源数据一般准确率会比较高,毕竟大多是直接登记的,比如银行、电信等企业客户登记的数据可信度是非常高的,但基于模型预测的就存在准确性和覆盖率问题,会有一个概率的属性,这两种来源对于最后信用分的各个元素的权值的大小设置应该是有影响的,另一方面,很多概率的东西难以解释,从服务客户的角度讲,应该把这些信息透明化出来,客户有权知道哪些评估元素完全可信,哪些得冒一定的风险,这个风险的大小是多少。
(2)身份特质之稳定性指标
“消费稳定度”是个挖掘类指标,稳定度的计算一般需要根据方差来计算,这个指标设置给我们的额外启示是:数据分析不要仅局限于用拍照、状态等静态数据,更要利用好时间这个维度去更深刻的刻画一个用户,芝麻信用分用了1年的消费水平来判断,这体现了历史数据的价值。
注意,我们这个世界是三维的,时间,空间这些维度对于数据分析非常重要,但很多数据建模工作者就不愿意用挖掘类,趋势类变量,要么是认为准备工作太繁琐,或者觉得计算工作量太大,就想着用平均值,或者6个月的直接消费值来替代,但除了神经网络,现在大多机器学习还没到变量选择可以自动化的程度,其不可能自己摸索着给你生成一个方差变量作为稳定度的输入。
”最近一年使用手机号码数”,“手机号稳定天数”,”地址稳定天数”这些元素的选择对于数据建模者来说是对于业务理解能力的一个挑战,但光谈业务理解其实仅说对了一半,因为即使你有很好的业务能力,比如你在某个垂直行业从业很多年,但并不代表你就能选择到很好的变量,在业务理解之上,更重要的是通识能力,比如对于生活的敏感度,一个身份证(自然人)如果经常换手机,肯定风险是相对高的,但没有足够敏感度的人不一定能想到这个点。
万维刚在评论《意会》这本书的时候,给出了这么一个公式,现代高级知识=算法+自由技艺,你光有算法能力不行,你得会意会,比如笔者就觉得自己意会能力不够好,起码我并没有想到在信用分中要使用“地址稳定天数”这类变量。
但如果你是有足够生活敏感度的人,你就得想到,一个稳定的用户到底会呈现出哪些特质,这些特质可能跟哪些数据相关,如何用数据表征这些特质。
在大多数企业的建模团队中,缺的往往不是算法工程师,而是有现代高级知识的人。
(3)身份特质之行为偏好
“消费区域个数”、“最近一年支付活跃场景数”都是笔者想不到的要素,这到底意味着什么呢?芝麻信用这么选择,似乎在说明消费场景的多样性对于一个用户的信用判断很有用,现在很多人都说要提升芝麻信用分值,你可以试看在更多的场景下使用下支付宝,阿里在不停的接入各种生活应用跟这个也有一定的关系,但现在支付宝似乎有个问题,场景太多了,不够简洁,这是笔者在面试一个年轻人中得到的信息,信息太多跟使用体验的确是有矛盾的,但为了生态和数据,估计阿里也顾不得这些了。
行为偏好芝麻信用仅选择了母婴、游戏、家具、汽车、旅游这几个非常有限的要素,庞大的淘宝的商品栏目体系对于芝麻信用似乎用处不大,当然选择的几个的确是很有道理,母婴意味着有孩子,有汽车肯定能还贷吧,建材就意味着有房子,旅游,游戏就意味着有闲钱,买游戏点卡的一般不会是屌丝。
让笔者觉得奇怪的是为什么不多选一些?现在能理解芝麻信用为什么会说其中自己的数据只占15%。
03 履约能力
(1)履约能力之固定资产
“是否有车”、“是否有房”是比较关键的固定资产数据,一般数据的覆盖率很难有保证,是否有车模型预测相对是比较简单的,比如基于位置数据计算出行速度大致可以判断,阿里也可以通过是否有与车辆相关的商品辅助判断,是否有房类似,但所有这一切都依赖于企业的数据基本面。
(2)履约能力之流动资产
这是阿里的强项,但为什么同一个指标要分多周期设置多个变量呢?一方面是因为防止以偏概全,毕竟一个月流动资产变动对于一些用户可能是正常现象,而对于某些用户可能就是异动,另一方面可能是因为模型拟合的需要,大家可以按需设置。
特别提醒一下,这类变量需要数据仓库模型提前支撑,否则做应用时数据整合的代价较大,阿里在《大数据之路》这本书中提到他们搞了个数据挖掘中台模型,就是特意做了这一层。
(3)履约能力之流水数据
有点意外的是支付流水中特意提到了运营商手机充值支付,看来手机消费还是能一定程度反映支付意愿,另外要注意量纲,一般业务量和金额都需要考虑,一次高金额并不代表你的信用高,充值次数多是重要的一个考量。
如果你做过数据分析,就知道有时候行为数据比简单的额度数据要好用,因为额度数据容易造假,或者掺杂太多的非理性因素,但行为数据一般很诚实。
04 信用历史
(1)信用查询数据
这三个元素主要是判定一个用户是否涉及在多个平台多次借贷的意图,这类多次借贷用户风险是很高的。
(2)信用还款历史
再一次体现出花呗、借呗这些产品的附带数据价值,其采用的元素感觉也很合理,除了金额,“最近一年借贷类还款月份数”,“信贷类还款历史月份数”体现了还款的持续性,“信用账户历史时长天数”体现了忠诚度,就像运营商号码在网时长那么重要。
(3)逾期历史
没什么好说的,即使有钱,但如果总是忘了还钱,那信用就有问题,这里用三类维度来评估未还钱的严重程度,一是金额,二是笔数,三是逾期时长(从M1到M6),这个数据应该是阿里的最强项了,其设计方法非常值得学习。
05 人脉关系
从仅有的三个元素就知道这类数据是阿里的最大短板,所谓“物以类聚,人以群分”,你的信用可以通过社交的人群来更客观的判断,比如我们在自己的信用分设计中,交往圈非常重要。
芝麻信用的所谓人脉从这里看估计就是支付的对端账户,但这种支付关系能体现的社交关系太弱了,毕竟支付只是交易手段,但我的朋友大多不会跟我有钱上的联系,相关信用辅助判断就无从谈起了。
为什么阿里这么想通过支付宝搞社交网络?你从芝麻信用就能体会到其对社交数据的渴望,现在阿里钉钉起来了,这是一个不错的辅助数据。
06 元素分段
芝麻信用分不止透露了元素设计,甚至还透露了元素分段明细,再次让笔者“震惊”,分段能看出很多的门道,大家来一起学习下,这里仅就二个元素说说。
1、最近一个月主动查询金融机构数
它的分段是5段,可以看到,如果一个用户月查询金融机构3次以上,那风险就有点高了,这些阈值的确定应该是分析的结果,同理你可以推断,一个用户如果突然新装了三个金融APP,那信贷风险是否也是很高的?
(2)最近一个月支付总金额
假如将全国人民的消费层次划为15档,你要判断自己的消费档位,可以看下阿里的支付分档设置,就大概知道你到底是贫民还是富豪了,比如你每月通过支付宝消费了8800元,那你的消费能力也只能排在第七档。
当然信用分的设计除了元素选择,还有模型的构建等工作,从而能得到一个总分,笔者在《个人信用分是如何计算出来的》一文中介绍过一种方法,供您参考。
从芝麻信用分的数据元素设计可以看出,要相对客观的评估用户的信用,一是要有足够多种类的数据,现在能做信用评估的除了BAT,银行和运营商外,估计就没有更多选择了,即使是银行也没有芝麻信用的数据多,二是元素的选择设计非常重要,要善于从基础数据中衍生出新的数据元素,芝麻信用展示了很多技巧,值得学习,三是不要奢望信用造假,简单的提升某指标其实没啥用,这也是大数据的价值所在,而芝麻信用敢于透露它们的设计,也说明了一定的底气。