大数金融漆瑾声:风控江湖,既要模型宝刀,也要策略功夫 | 爱分析访谈
调研 | 凯文 张扬
撰写 | 吴云
大数金融专注于小微企业主贷款,风控是其核心优势。近日,漆瑾声履新大数金融CRO,继续提升公司风控水平。
漆瑾声有多年风险管理实践经验,曾任美国银行风险管理高级副总裁、花旗银行信贷风险副总裁,摩根大通银行市场部副总裁,后在FICO任职。
加入大数金融后,漆瑾声主导风控系统搭建,将进一步完善已有的模型和策略体系,目标是实现国际领先水平。
在风控的链条上,第一环是数据收集。在数据变量的划分中,还款信息、负债信息等征信报告数据是强相关变量,数据质量最高,而社交数据、水电煤等属于弱相关变量,只能作为征信报告数据的有效补充。
社交数据等弱相关变量只能协助判断信用风险,但对于反欺诈和营销而言是强相关变量。通过分析用户的社交关系网络和浏览网站类型等信息,可以估计欺诈概率。另外,分析反映用户偏好的数据可以帮助实现精准营销。
风控的第二环是数据处理,包括数据清洗和建模。国内很多数据公司并不缺乏建模的人才和能力,但却往往忽视了数据清洗,而数据清洗的质量直接决定了模型以及最终的风控效果。
在数据的收集、清洗、建模之上,是指导其运作的整套策略。相对而言,建模是标准化的工具,而策略是经验驱动,需要长时间的积累。
漆瑾声认为,“模型就像一把刀,功夫好的人不是靠一把好刀就行,还要看怎么用这把刀。怎么用就是策略,这很重要。但是策略不是一蹴而就的,需要不断打磨。”
大数作为国内领先的金融科技公司,在建立风控体系上有何经验?日前,爱分析对漆瑾声进行了访谈,现节选部分精彩内容与读者分享。
不是用到了数据,就是数据驱动的风控
爱分析:大数金融没使用过外部提供的模型?
漆瑾声:大数在考察一些外部模型,我们发现,不少外部模型表现差强人意。市场上的很多数据公司在开发模型时面临的难题是,只有X,拿不到Y,或者拿不到足够覆盖面(广度)和时间长度(跨度)的Y。因为它不是银行,拿不到客户的逾期信息,这些逾期信息就是所说的Y。
不是用到了数据的风控就是数据驱动风控。现在很多公司的风控都说是运用大数据,是数据驱动的风控模式,其实具体来看还是有差异的。真正的数据驱动需要有风险表现标签作为靶心,也就是通常说的Y,在此基础上做一个多维度X的非线性方程式的拟合。没有Y的模型或者策略,严格意义上都不能叫数据驱动。
爱分析:哪些变量是强相关的X变量?
漆瑾声:强相关变量绝大部分都来自于央行征信报告,比如还款信息、历史逾期次数、负债等,有很多个维度。然后再把这些强相关变量与时间、频率等结合分析,做成多个维度的评分。
爱分析:很多机构没有权利去查央行征信,是不是只能选择弱变量建模?
漆瑾声:在这种情况下,退而求其次,使用弱变量是自然而然的选择。具体效果有多好,取决于机构的水平。
利用第三方数据最大的难点不在于建模的方法论本身(当然建模也有很高的技术含量),而在于数据挖掘,就是怎样从海量数据中,大海捞针似的找出征信报告类似的数据。
IFC对数据质量做过分层,即使社交网络数据,也只是属于第三层或者第四层。美国通常把这些叫替代性数据(Alternative Data),而不是大数据(Big Data)。实际上从信用风险建模的角度,这些数据的效用不如征信报告里的变量。
征信报告中很容易找到对模型有帮助变量,但在无边无际的、门类繁杂的海量第三方数据中,可能只有千分之一甚至万分之一的数据对模型有帮助,这是难点,而且还要去辨别数据的质量,因为很多数据来源不明确。
爱分析:社交数据是否用于反欺诈更有效?
漆瑾声:相对信用风险防范而言,社交数据在反欺诈、营销等领域都会更有效得多。
反欺诈中,可以通过链接分析用户的社交关系,如果发现朋友圈里骗子特别多,那么用户高概率是骗子。如果联系人里面有很多贷款中介,或者用户经常登陆一些欺诈类网站,或者有多个亲朋好友是黑名单人员,都可以估计用户的欺诈概率。
反映用户偏好的第三方数据是营销强相关变量,对营销模型很有用,可以帮助实现精准营销。所谓精准营销就是知道用户想要什么,有多想要,比如一条短信过去就能够准确评估出用户购买的概率。
至于信用风险方面的用处,只能是征信数据的补充,协助判断。比如用户的手机号用了十年以上,那么他高概率是个诚信的人。比如经常坐飞机旅行,很可能是个还款能力很强的人。
模型方法论已成熟 数据清洗易忽视
爱分析:如何评价数据和模型各自的重要性?
漆瑾声:模型本身的方法论已经很成熟、很标准,技术上不存在障碍,关键在于数据源和数据清洗。美国三大征信局的成本很大部分其实是数据收集、整理、清洗和衍生,占到总运营成本的很大比例。
找一个统计学毕业的学生,单独培训几个月到一年,只要天赋不差,就能做出不错的模型。但是找一个有数十年经验的模型专家,如果数据是有问题的,他也做不好。
爱分析:数据源决定最终的风控效果?在信用风险领域,如何保证数据的质量?
漆瑾声:要实现好的风控,其中一个重要的前提是保证数据的质量。要保证数据的质量,不仅看数据源,数据清洗可能更为重要。数据清洗是脏活累活,有着很标准的流程,包括数据的质量判断、做衍生变量、加工、清理等几个环节,非常严谨。需要有经过专业训练的团队来做数据清洗,如果这块没做好,就是“garbage in, garbage out“。如果数据本身是错的,算法再厉害也没有意义。
爱分析:模型和风控策略是什么关系?
漆瑾声:模型好比是刀,策略是使刀的功夫。功夫好的人不是靠一把好刀就行,还要看怎么用这把刀。
模型学问很大,但模型远不是全部,真正体现业务水平的是以模型为工具的策略的运用。策略上线之后,很快就会有结果,做得好不好一目了然。比如有没有欺诈案件通过,信用风险有没有暴露等。
AI在金融领域的应用--适用的才是最好的
爱分析:现在大热的人工智能(AI),在金融领域有哪些应用?
漆瑾声:AI在国内是一个被误解的词,或者说被玩坏了。实际上,AI在金融领域已经应用多年,比如零售信贷审批系统里的决策引擎就是典型的AI,例如一个人输入身份证号,系统通过布置在里面的逻辑就能直接给出决策,比如能否给他批30万贷款。这个决策本身就属于AI的范畴,只不过它的模型算法跟AlphaGo不太一样。
现在业界通用的评分卡是逻辑回归算法,而大家熟知的AlphaGo的AI使用的是神经网络算法,是深度学习的一种。AlphaGo应用到的神经网络模型,在多年前已经被广泛应用于Visa、Master的信用卡交易反欺诈模型。但在信用风险审批领域并没有成功的案例,为什么?因为不适用。适用的才是最好的。没有哪个算法能够包打天下。算法也不是最前沿的就是最好的。虽然最前沿也最吸引眼球,但最前沿往往也意味着还不成熟。
大数金融的风控目标:小微贷款领域的国际标杆
爱分析:大数的坏账在什么水平?
漆瑾声:如果严格按照银行核销方法的统计口径,大数现在的不良率是0.6%。
爱分析:大数风控的下一步提升思路是什么?
漆瑾声:长期目标是从行业的标杆做成国际的标杆。我们会有崭新的模型体系,更完善的策略体系。比如评分卡细化,将来可能会有七八张不同类型的评分卡。
我们要实现对用户整个信贷生命周期的管理,用严密的策略和模型来做贷前、贷中、贷后管理。
我们会不断迭代我们的模型和策略,成为最新一代的小微贷信贷工厂的样板和标杆。
新龙榜
新金融
企业服务
其它
点融网 | 泛华金控 | Oscar Health
米么金服 | Capital One | LPL | 大道金服