查看原文
其他

天创信用CTO高少峰:现在的数据市场还处于混乱无监管的野蛮增长状态

2017-05-17 高少峰 数据猿
数据猿导读
 

当前阶段,数据处于一个混乱无监管,但快速野蛮增长的阶段,各类形形色色的数据充斥着数据市场。第一类是用户授权爬取的数据;第二类是实时接入的接口数据;第三类是信贷机构本身产生的数据。


本文为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列征文/案例;感谢 天创信用CTO高少峰 先生的投稿。


作为整体活动的第二部分,2017年6月29日,由数据猿主办,互联网普惠金融研究院合办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟协办的《「数据猿·超声波」之金融科技 · 商业价值探索高峰论坛》还将在上海隆重举办【论坛详情】【上届回顾(点击阅读原文查看)】



作者 | 高少峰


本文长度为2400字,建议阅读5分钟


随着互联网金融的发展和线上信贷业务的普及,如何能够快速适应场景,提升用户的体验,加快信贷审批速度,对数据风控提出了很高的要求。


以小额现金贷为例,小额、快速、分散成为了线上业务与传统信贷业务的主要区别。而现阶段数据市场的混乱,各小贷、p2p和互金公司之间信息孤岛现象严重,导致大数据风控的难度提升,多头借贷现象严重,贷款利率居高不下。


当前阶段,数据处于一个混乱无监管,但快速野蛮增长的阶段,各类形形色色的数据充斥着数据市场。


第一类数据就是用户授权爬取的数据,这类数据在小额现金贷业务中普遍使用。由于运营商的数据开放速度远远落后于现金贷业务的发展,所以这种授权获取数据的方式会在较长的一段时间内存在。这也催生了一批以爬取服务盈利的公司,像聚信立、魔蝎数据等。但这类公司随着爬取竞争的深入,会慢慢失去主要盈利的来源。


小贷公司和消金公司在不断地构建自己的技术团队,组建自己的爬取力量。像天创信用作为一家征信公司则直接将爬取能力输出给这些信贷机构,让他们自己具备这样的能力。在爬虫这个领域,技术能力和爬取的手段将越来越开放,机器学习、浏览器模拟以及代理IP的能力将成为一种基本的能力应用到爬取手段中。



第二类数据则是实时接入的接口数据,代表性的有三大运营商的数据(少量字段的开放)、银联数据、法院数据、公安认证和在逃等数据。这类数据变化快、厂商多、价格浮动大、稳定性和完整性都各不相同。


如何能够快速高效地接入接出数据,如何能很好地监控数据的稳定性和调用情况,以及如何能对数据多厂商之间做好路由,成为了这些金融机构迫切需要解决的问题。


一个统一的数据接入借出和管理的平台是一个必然的选择。通过统一的三方数据管理平台,可以将数据的接入和路由策略独立于业务系统之外,与业务系统充分解耦。平台负责数据的统一接入,配置路由策略,构建数据解析规则,为业务系统提供稳定的统一的数据支撑服务。



第三类数据就是信贷机构本身产生的数据,这也是最有价值的数据。信贷表现数据在金融放款中最直接,最能对模型产生大的影响。这类数据需要有很好的手段进行处理,结合上面两类数据进行整合,对风控提供基础的数据支撑。这需要金融机构建立统一的数据存储平台,对数据进行统一的存储和整理,整理之后的数据通过灵活统一可配置的风控平台对风控和模型提供基础支撑。


现阶段,大部分的消费金融公司或小贷公司的风控系统还处于传统银行信贷的阶段,对现有的业务已经很难很好地支撑。这个时期,他们迫切地需要一套风控系统,能够专注于风控规则与风控方案的数据定义、规则配置与规则快速发布,并提供大数据分析板块。对业务应用、风控规则的运营效果进行监控,为业务应用优化及风控模型优化提供参考依据;同时,提供案件分析板块,对用户信贷数据、风控规则执行效果及用户风险点分析进行展示。



上图是一个独立于业务审批系统之外的一套风控系统的业务逻辑图。从图中我们可以看出底层有各类数据的支撑,系统中提供了数据调用规则的配置,可以为模型运算提供统一的规则支撑,中间提供一整套的各类风控决策规则的发布和部署,到最后将模型风控规则进行拼装,形成业务策略规则。


所有的规则都可以以统一的接口服务的形式给业务系统使用。这很好的将模型运算策略跟业务系统进行了隔离,既保护了模型的安全,又使得模型策略可以灵活快速地上线部署测试,同时不影响业务系统的运行。这就是一种很好的互联网式的系统设计方式,对互联网金融可以提供很好的支撑和服务。


各个金融机构将自己的数据很好地保护起来,形成了信息孤岛,导致多头借贷问题频发,无法很好地解决。


美国经过一百多年的发展,征信数据已经非常全面透明,任何一家金融机构或对征信数据有需求的企业,都可以在用户授权的前提下拿到个人的信贷表现数据,而国内的数据整合才刚刚起步。


所以为了互联网金融健康有序的发展,数据共享和数据开放成为了一定时间内必须解决的问题,只有普惠数据,才能真正做好普惠金融。信息孤岛的存在,主要的原因是企业担心自身经营情况的泄露,所以如何能够兼顾数据的保护和信息的共享,是一个艰难的课题。



上图是传统数据共享平台的方式。各金融机构将数据上报到一个统一的信用数据交易平台,将数据共享出去。央行征信就是一个典型的数据上报方式。


这个方式必须要有很强的背书才可以,因为数据集中到一个地方,中心数据的安全性和中心机构的信任度是这个体系中最重要的一环。区块链的出现,为改变这种状况提供可选的方案。区块链有一种很好的联盟链的模式,使用在金融场景中,既可以共享数据,又可以很好地保护核心企业的信息泄露。


联盟链具有以下特点:


  • 去中心化、去信任


不需要中心机构集聚数据,参与方的权利和义务都是均等的,系统中的数据块由整个系统中具有维护功能的节点来共同维护。


  • 不可篡改、可追溯


数据交换交易数据不可篡改,单个节点上对数据的修改是无效的、每笔交易数据可在区块链上追溯。


  • 交易透明、双方匿名


参与各方均使用加密地址进行数据交换,无需公开真实身份,交易数据脱敏处理保证参与机构自身的经营数据不泄露。


  • 开放、安全


建立联盟链,任何有资质企业都可通过授权加入该联盟,同时也可以通过权限管理限制成员享受的服务。



上图是联盟链分层机构。数据层,分布式账本存储数据交易信息、智能合约、用户账户余额等信息;网络层,采用P2P组网,对等协议(Peer­to­Peer)实现基础组网和通信,数据需求节点将请求传播至邻近节点;共识层,采用预选节点进行交易合法性校验及将区块打包到区块链。


整个联盟链的流程图如下图所示,从联盟成员的加入,到数据共享的机制,数据查询的方式等,都有明确的约定和定义。



随着互联网金融的发展,数据越来越开放,越来越全面是发展的必然。如何能快速高效地把数据收集到,如何能快速地运算出风险结果,是每个金融机构需要提升和发展的基础能力。金融机构在做好自己本身数据的积累的同时,也要积极地将数据开放出来,共同维护互联网金融健康有序地发展,普惠数据,普惠金融。


作者简介:


高少峰,天创信用CTO。北京化工大学计算机硕士。10余年互联网开发经验,先后供职人人网、闹米科技,并担任闹米科技首席架构师。



数据猿超声波

「2017金融科技商业价值探索高峰论坛」

(点击图片,了解详情)


相关阅读:


银行大数据应用实地探访:满满的吐槽,满满的肺腑之言

银行大数据应用实地探访:面对新一轮科技洗礼,银行更崇本务实了

【独家深度】一家传统银行迈入大数据时代的“艰难心(辛)路历程”


来源:数据猿


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存