查看原文
其他

腾讯靠社交数据做征信,靠不靠谱?

2016-10-12 人人信用

人人信  rrx360.com

风控 | 大数据 | 征信 

   一个专注于大数据征信的微信号




巨大的信贷市场需求与稀疏分离的数据造成了金融机构征信与风控上的困局。随着互联网与数字技术的发展,有条件的企业开始了五花八门的征信服务,而民间企业推举最多的就是社交网络大数据征信评价。社交征信应运而生自有其作用,但这个作用有多大呢?似乎也没有达到大家所给予厚望的程度。

其作用大概只占5%-10%


业内人士分析称,目前来说,社交网络数据作为弱变量数据,其在大数据征信中的作用有限。“其实,社交数据征信在做360度的用户画像刻画中,其作用大概只占5%-10%。对于金融行业的评估来说,这些数据不能作为直接的评价参考。”


海量的大数据中和个人信用表现即所谓的Y变量能关联起来的实际数据是很薄弱的,这种关联数据不容易获得,建模的数据也是不够的,当然更不容易开发出成熟的评估模型。


再者,社交网络上的数据真实性有多高?我们作为社交网络的主力军用户,深深知道朋友圈、微博、空间的状态与评论互动大部分实质可归结为感性的“秀炫晒”,那么机器根据预先设置的特征参考提取出信贷机构希望获取的数据之后,由此而形成结果就是对象的真实用户画像了?


去年8月,国外社交巨头Facebook推出了涉足社交大数据征信的专利——当一个用户申请贷款的时候,贷款方会审查该用户社交网络好友的信用等级。只有这些好友的平均信用等级达到了最低的信用分要求,贷款方才会继续处理贷款申请。否则的话,该申请即被拒绝。而在此之前,阿里巴巴旗下蚂蚁金服推出的芝麻信用分也在使用人脉关系、消费行为作为评估信用水平的依据。


国内,腾讯征信总经理郑浩剑日前也阐述了腾讯对于互联网征信建设的探索,该公司主要依靠大数据与人工智能技术,基于旗下微信、QQ等近十亿用户的社交数据来进行征信工作,通过把结构化数据,文本分类,LBS数据,社交网络传播扩散等挖掘之后形成用户画像刻画。


然而国际上似乎还有社交征信成功的案例。上述的例子中,Facebook的做法因其片面性被《大西洋月刊》评论称“涉嫌贷款歧视”:有批评人士认为,这项专利重现了历史上著名的“贷款歧视”做法:“Facebook 想要以你的好友名单为理由拒绝贷款”。这在芝麻信用的人脉应用中也是一样的道理,但芝麻信用征集了消费行为数据作为补充,或者其实是后者为主导。


至于腾讯,腾讯合法获得的用户数据大多数都是QQ及微信用户的行为记录,但这些行为记录对于征信的利用价值却很低。那么,为了达到评价个人的目的,腾讯也许不得不利用用户的内容数据,而一旦涉及用户的交流内容记录,那就有可能像Facebook那样被认为触及到用户隐私保护的法律问题。


归其原因:社交数据是弱变量弱相关


“实际上,对于根据社交数据分析出的结果,我们只能将其作为整个信用报告的补充,因为消费者在社交网络上的关系只是松耦合,而不像是在企业机构中形成的紧耦合关系,”丁卓解释道,在企业中每个人的薪酬、流水等都是确信的,但在社交网络上,内容都是随性的。“所以,社交网络分析只能作为征信对象在基础数据、深度数据以外的余信数据补充。”


在数据类型中,数据可以被分为强变量数据,即信贷、信用卡、社保、工商等来源于传统金融机构和政府机构的信息;和商品生产、流通、消费等环节产生的中变量交易数据,以及社交、游戏等弱变量数据。


“在14000个数据源、70万个来自于不同维度的数据变量中,我们结合金融机构的业务逻辑,分析变量的相关性系数,统计出其中从强到弱递减的变量关系,而社交网络数据明显属于弱相关变量。”星桥数据的核心团队当中,有12名计算机科学与金融学领域的博士,27名硕士,其首席数据科学家、肯塔基大学计算机博士林振民与团队一起,对数据变量的系数进行了数年的研究。


最重要的是,NLP(自然语言处理)仍然是个世界级难题,Google、微软也没有很好的解决方案。所以,目前的机器学习对于社交数据的处理准确度并没有很高。如果有好的解决方案,意味着整个迁移学习、机器学习领域都会有一些质的进展,同样,目前利用机器学习、人工智能进行的大数据征信和风控也会随之获得进步。

大数据征信还需在强、中变量着手


如今360度刻画中,FICO模型的作用仍占到50%左右,而剩下约45%的部分,则有赖于征信对象的交易行为数据来完成。传统金融机构对客户的信用评级一般依靠FICO模型,但这套模型在信贷、信用卡、外汇、民间借贷等强变量金融交易数据的基础上才适用,“在下沉到年轻用户和小微企业等客户的过程中,FICO就有很多需要改善的地方。”


这也是征信公司付出极大的代价去对接京东、阿里巴巴、百度等互联网平台数据,打破数据隔离和信息孤岛的原因。在谈判的过程中,能够通过第三方中立机构间接实现与其他大公司的数据资源共享,是他们彼此合作的支撑。“大数据的意义在于,能够通过机器学习、语义分析等技术,把海量数据的相关性计算出来,连接起来进行动态分析。”


“目前来说,银行的信贷客户以大型企业为主,但事实上他们也有获取新客户方面的担忧。因为从长远可持续发展来看,他们也要获取更多小微型企业(供应链金融)以及年轻用户群体(消费金融)等的客户。很多银行也想开展普惠金融业务。但由于对这部分客户掌握的信息较少,他们不知道怎么做。他们不了解普惠金融的客户群的特征,也不知道应该如何判断这部分客户的信用评级,因而不敢贸然开展。”


所以,在科技推动金融的发展背景下,适用于大型企业的FICO也需要有一个标准再适应市场的过程。“面向年轻用户和小微企业等建立更符合他们特征的模型,这是未来五年内,银行与征信机构必须要做的事情。”


行业文章:

1.深度分析|互联网征信的核心:生活化的应用场景

2.借呗、微粒贷、京东白条上借钱,影响个人征信吗?

3.个人征信,阿里与腾讯斗法的新战场

4.被列入征信黑名单,就永无出头之日?

5.“大数据征信”之“芝麻信用分”的前世今生


人人信用管理有限公司


简称人人信,创立于2015年,是一家独立的第三方信用评估及信用管理机构。团队成员来自阿里巴巴、百度、华为、FICO、IBM、阳光保险等国内外知名企业,拥有丰富的大数据和数据分析从业经验。利用大数据平台和机器学习技术,在亿级实名用户和数万维度数据基础上建立起各类风控模型,已成功应用于互联网金融领域。人人信将始终致力于通过大数据技术和互联网金融创新,打造风险识别能力,帮助小微金融企业防范欺诈风险和信用风险!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存