查看原文
其他

微课实录 | 你的信用有多值钱?——看看互联网金融是如何通过征信创新的

2016-01-09 琥珀金融帮


帮主导读

大数据xxx,你肯定听多了,大数据怎么搞,你未必都懂!应用数据最频繁的金融业里,大数据结合征信折腾出了哪些新意思? 有求知欲的你还不学起来!

本期嘉宾:


陈曦 夸客金融 决策科学部 总监

2008-2014年间先后服务于美国咨询公司Opera Solutions、在线支付公司Paypal以及中国平安集团。主要历经行业包括管理咨询、信用卡、在线支付、综合金融服务等。善于将商业情境转化为数学模型,并用数据挖掘与计算机技术求解与优化。主要研究数据挖掘技术,包括决策树、回归、神经网络、随机森林、奇异值分解、协同过滤、因子分析等算法在信用风险控制、欺诈风险侦测、图像识别、精准营销、交叉销售、推荐引擎以及客户关系管理等方向的应用。

曾在美国运通银行担任管理咨询顾问,建立信审模型、交易授权模型、面向金卡客户的价值提升计划;在Paypal担任上海风控中心首席风险分析师兼风险建模团队经理,建立了高度自动化的建模流程及在线模型监控系统,优化了账户偷盗、信用卡/ACH交易授权模型;在中国平安期间担任集团CRM产品万里通的风控负责人,组建风控团队、建立万里通产品的风险管理体系,并为万里通推荐引擎设计核心算法。

课程实录

PART 1 大数据正在改变金融!


你知道吗。新兴金融服务提供商都在积极投资大数据技术。


通过搜索网络公开资料,2015年在国内融资的大数据创业公司达到51家(有两家公司一年融资两次)总融资金额超过50亿人民币。(资料来源:数据客)

针对大数据行业应用的创业公司占52%,其中提供营销和金融风控数据服务的创业公司最多。


那么问题来了!金融+大数据究竟改变了什么?


传统金融:追求绝对安全。银行申请贷款虽然有贷款成本低的优势,但是银行风险运营模式的缺点也很明显:客户需要提供很多纸质材料原件及复印件、审批时间长、甚至要接受信审员的多个电话照会及实地考察。这样的模式能做到对每个放贷个案风险评估的精益求精,但却不适用于小微金融、个人消费金融等新兴金融服务业。


新兴金融服务:客户体验至上。 要做到不让客户为了申请十万不到的小额贷款甚至一万不到的消费贷款提供太多证明材料和等待更长时间。同时,传统风控运营模式对信贷员的风险判断能力也有要求,如果用这种模式去应对大量的小额分散的个人金融服务申请进件,必然会导致风险运营团队规模过于庞大,运营成本无法被覆盖的问题。


风险审批的信息化、数据化、系统化和自动化成了新兴金融服务的必然发展趋势,新兴金融服务业的竞争也集中在为在产品能力、互联网技术、数据技术、客户体验等方面的竞争




大数据技术应用于金融服务可以使金融服务的核心——风险控制获得多方面的技术革新。


1数据驱动的机器学习方法相较于人为判断——具有迭代频率高、善于获取隐性信息以及无学习惰性和瓶颈等优势

2

在风控运营中引入数据模型作为判断依据—— 最大程度上避免因个人差异化导致的风险政策执行上的偏差,降低操作风险。

3互联网数据采集技术—--客户信息、行为数据不再通过纸质化申请材料提交机构在极短时间内自动实现信息对称,降低运营成本。

PART 2 大数据助力金融风控





上图是夸客金融已经在做或是规划中要引入的大数据类型


市场契机: 2015年 中国人民银行开放8家个人征信公司试运营,为正式下发个人征信牌照做准备工作。个人征信公司的起步,丰富了大数据的种类和来源。


市场现状:目前应用比较成熟多见的金融大数据包括“征信及验证数据”(政府,行业信息互通共享)


“传统金融数据”:银联卡线下消费行为,目前也涌现出了用手机号匹配个人金融行为全画像的产品)


“互联网大数据”:主要采用互联技术采集客户行为,在客户的现场多重授权下,获取手机通信记录、线上购物支付画像以及学历学位等信息)。


解决了这些痛点贷款联系人的真实性——现在可以通过手机通信记录中与联系人的通信频次、网上购物送货人记录、线上支付转账收款人记录等维度,进行很大比例上的自动判断,无需每个联系人都一一电话照会,通过交叉问题试探真实性。客户家庭住址、工作地址等信息的真实性,也可以此类数据作为辅助判断的依据,只有对用数据判断不准的部分客户,才酌情需要人工参与。


另外,线上消费、支付行为与线下银行卡消费信息相结合,才能越来越全面地衡量现代人的金融需求、还款能力以及还款意愿等,才能制定出更反应“互联网+”时代特征的个人金融风险政策。




非面签服务中身份验证——伪冒身份证对于不要求面签的新兴金融服务业而言,一直是反欺诈中的痛点。骗贷份子通过购买他人身份信息,配以自己的照片伪造假身份证,在不配备二代身份证刷卡器的场合进行欺诈。人脸识别技术可以自动抓取身份证照片中的人像,与公安部档案中的该身份证存档照片进行自动相似度比对,用不需要人工介入的方式把绝大部分真实和不真实的身份证鉴别出来


客户位置真实性风控——自填居住地址和工作地址对于贷款风控而言也是一大痛点。实地调查成本高企,且效率低下,一般只有大额贷款才会用到。对于小微金额,可以采用地址搜索技术获取客户自填居住或工作地址的大致经纬度。


地理信息技术引入与其在使用某些互联网产品时留下的常见位置经纬度相比较,可以得出客户自填居住或工作地址的置信度。


PART3 如何利用大数据建立金融风控模型

(进阶版本,偏难,但是看完一定有收获!)




简单地说,。如果数据是原材料的话,建模就相当于厨师做的工作。

之前介绍了很多大数据征信、互联网技术背景下,能提供到新兴金融服务业做风险识别的大数据。但是要真正用好这些多维度的大数据,还需要风险建模技术,或者更广义一些——机器学习技术。


机器学习技术是指,从历史数据的已知信用好坏客户分类人群中,学得好坏客户的特点和行为模式,并用数据模型表达出来,供实际生产中的新业务做贷前风险评估和预测。


机器学习建模基于两点假设:

1历史经验是值得学习的,即历史中发生过、存在过的因果关系,在未来还有相当的借鉴意义和参考价值;


2

历史经验中发生过、存在过的因果关系,是可以用数学模型被主要地描述出来的。




从这一点也可以看出,学习建模有点以史为鉴的意思。如果你不相信历史事件会重复,那就没有建模的必要。但如果你相信历史事件会百分之百的被复制,那么你的模型就一定是错的。



(上图是风险模型实际应用中的场景)


当一个风险模型被正确地做出来以后,就可以达到自动化筛选的效果。假设一批申请人中有好客户3650人,坏客户613人,则初始bad%为16.8%。用模型过滤后分为两组。第一组共1100人直接拒绝,其中好客户745人,坏客户355人,bad%为32.3%,比总体的16.8%几乎翻倍;第二组共3163人,其中好客户2905人,坏客户258人,bad%为8.9%,约为总体的一半。


于是人工风险运营的资源就可以优化配置了:对于接受的第二组,可以用反欺诈、风险运营等人工进一步筛选,需要人工处理的案子减少了1/4;对于拒绝的第一组,可以要求客户补件以重新证明其风险没有那么高,如果风险定价、运营成本上认为不具有经济性,则可以直接拒绝。衡量模型的好坏指标主要有Approval%, Catch%, Hit%以及FPR。


模型的选择会考虑共线性和解释度,确保每一个变量符合业务逻辑,防止出现过拟合现象。P2P的数据相对信用卡相比不足,通过技术手段去解决,但导致模型过拟合,所以会对业务场景、因果性等会进行严格分析论证。由此看来,模型一定会存在一定的误差,模型实际是与概率的博弈 。



讲师欢乐互动Q&A

Q1 怎么能判断有人重复借贷?同时找几个公司借贷?可以从大数据中解决么

A:这个问题提得很好(鼓掌)。现在我们基本上采用抱团取暖的方式,有些平台会提供系统对接,查多头申请和借贷。还有通过一些APP埋点技术,可以侦测该设备在最近有没有安装、打开过借款类APP,作为一个侧面侦测


Q2:美国的三大征信机构,Experian、Equifax,他们之间有定期的信用交换,所以能够形成一个比较一致的评分标准,国内前期获得准备做征信工作的8家公司的数据源,有的在社交领域比较强,有的在电商领域比较强,有的可能在支付领域比较强,您看来这些数据怎么进行开放和共享


A: 中国个人征信行业基本还处在一个乱战时代,只有少量的公司认识到了合作共赢。所以一般现在各家都只能反映风险的某些方面,就像盲人摸象。我们作为用户就是接入多家数据,力求摸得全。


Q3:请问夸客金融等平台及8家个人征信机构是否会向央行征信中心接受或报送相关数据?是以什么样的形式报送?报送和使用数据是否有收费机制呢?


A :八家个人征信目前是民间征信公司,央行只是监管它们。它们之间不存在任何数据交互。因为不目前如p2p,小贷等这些民间的金融行业对于欺诈名单,黑名单在矩阵材料齐备这方面做的还不够好,所以央行一般不接受非银行的黑名单或者预期名单。


Q4:您说到“人脸识别技术可以自动抓取身份证照片中的人像,与公安部档案中的该身份证存档照片进行自动相似度比对,用不需要人工介入的方式把绝大部分真实和不真实的身份证鉴别出来。”请问,公安部档案的信息该如何调用?

A :公安部的照片目前是开放的,只要有一定资产的公司都可以去查询,而且可以实现自动化的人脸识别


Q5:我们在建模的时候有几个困扰。一个是历史数据的数量不足,另外一个是历史数据中记录的没有那么详细,我们后来设想的纬度在之前的历史数据里都没有记录。您是怎么解决的?


A :P2P的数据量确实存在着与信用卡或者与在线支付相比远远不足的一个情况,在这个当中我们其实是在采用了一些技术手段去解决它,但是用这些技术手段确实会导致模型的一些过拟合的情况。所以我们在每一个模型或者每一个变量做的当中会严格地去探索每一个变量对于风险度以及对于业务场景的合理性,因果性的一个存在。

【版权说明】

一家之言,不代表本报立场。

本文为原创内容,如欲转载,请联系告知并注明出处!

联系我们:hupojrb@126.com


琥珀公开课

hupojrb

【琥珀公开课】是琥珀金融帮推出的互联网金融充电系列课程,每周定期推出一次。课程通过微信群,以“语音+文字”的形式进行线上分享。


琥珀公开课将围绕互联网金融从业者的知识需要,邀请从事公关、销售、数据、风控等工作的专业人士进行分享,速速关注“琥珀金融帮”,获取最新的课程通知!





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存