玻森数据:以NLP技术将数据结构化可实现企业风险管理 | 爱分析访谈
调研 | 刘馥亮 唐靖茹
撰写 | 吴云
如何在海量数据中提取、分析有价值的信息是一大难题,成立于2012年的玻森数据将NLP技术引入这一领域。彼时玻森数据的业务主要是根据咨询机构等客户的需求,用NLP技术帮助搭建模型,对新闻、评论等语料数据进行分析。在这一业务过程中遇到的问题是客户定制化要求高,变现速度慢。
随着后来互联网金融的兴起,对风控的大量需求吸引了很多入局者。玻森数据趁势开始踏入这一领域,选择的切入点是企业风险管理。基于对静态企业征信报告市场规模较小的判断,玻森选择了动态数据监控。
经过2015年的技术研发,于2016年成立全资子公司“风报”,专门提供企业风险预警和监控服务。此后,风报成为玻森数据的业务重点。
风报获取的数据主要是工商、法院、媒体等企业公开数据。风报利用NLP等技术进行处理、分析后输出给客户,提高了搜集、分析、录入海量公开数据的效率,满足企业风险预警和监控需求。此外,风报还提供分类、追溯关联等工具性服务。
目前,风报完全采用SaaS交付方式,产品化率很高。给客户提供的产品有两类:查询和监控与此相对应的收费方式也有两种:查询按次数收费,单次查询从几元到几十元不等;咨询按年收费,监控一个企业一年的收费是几百元。
风报的客户有三类:银行、融资租赁公司等金融机构;大型企业;政府部门。当前,包括银行、信托、融资租赁公司在内的金融机构客户的数量和贡献收入占比约60%。
玻森数据CEO李臻表示,“我们的BD团队有15人,2017年的新客获取量比2016年翻了一番,2018年的目标是客户数量和收入再翻一番。目前已经服务了约400家客户,续费率80%。在2017年已基本实现盈亏平衡,预期2018年实现盈利。”
近期,爱分析对李臻进行了专访,就玻森数据的战略和业务进展进行了交流,现摘取部分内容分享如下。
李臻曾任上海八方视界副总裁,负责公司销售管理及政府公共关系。曾在上海市外经委任职。
数据全部来自公开渠道
爱分析:对各个政府部门数据开放的趋势有什么判断?
李臻:我认为政府会逐渐以统一的方式,统一的数据接口去公开数据,而不是像现在这样,有去扒,有去接,有去偷等等。但是数据获取的壁垒会更高,政府会去筛选服务能力强、有明确用途的平台。
爱分析:银行IT系统服务商是否会切入这一领域?
李臻:他们更多的是专注于系统研发,有些也能根据业务流程做更贴合的服务,但目前做得好的还很少。很多平台是因为原来的信息系统开发业务已经很成熟了,也不想深度切入到业务流程中去,毕竟比较费力。
爱分析:风报的数据源有哪些?
李臻:我们获取的是企业的公开数据,包括工商、司法、行政公告、知识产权等25类数据,用来还原企业的经营等状况。
爱分析:风报提供的数据更多是为反欺诈还是授信服务?
李臻:以银行等金融机构为例,风报满足的需求还是在贷前风险预警,就是要不要放款给它。但这不只是黑名单类的反欺诈,还要考虑很多风险因素。至于授信,还是需要很多强相关的经营数据。
风险预警包括两种,一种是用数据去做命中型的检验,就是通常所说的反欺诈。如果黑名单库里有这个企业,说明它以前干过坏事,那现在就判断它是坏企业。第二种是它没有进黑名单,可能也没有欺诈目的,但综合风险评估显示不应该给它贷款,这就是贷前的风险预警。
爱分析:输出给金融机构的结果是什么形式?
李臻:风报对海量的公开数据进行搜集、分析,然后把处理后的结构化数据输出给企业,由企业自己去判断风险和决策。我们不会根据企业的风险打分,也不会直接输出是否应该提供贷款的决策建议,而是告知风险源。
比如在反欺诈过程中,有些企业属于高风险,但不同金融机构对风险的接受程度不同,最后的决策还是应该它们自己去做,并不是我们来判断。
爱分析:海外有什么对标公司?
李臻:其实我们做的是Bloomberg、LexisNexis的一部分业务。海外公开信息没那么多,国内在这方面要开放的多。我们把海量的、多维度的公开数据收集起来,再以结构化的形式输出给客户,提升它们搜集、处理海量公开数据的效率。
NLP技术用于数据结构化
爱分析:获取数据后如何处理?
李臻:获取的数据大多数都是文本性数据,如果我把数据直接卖给客户的话,客户还是很难去做清洗。比如裁判文书就包括事件的涉及原告被告第三方,涉案的金额,事件的性质,裁判结果等。我们把这些数据结构化,提取核心信息。客户能很方便地获取想要的信息,节省时间,提高效率。
在这些结构化数据之上,银行等客户可以搭建很多模型,实现风险预警和监控,辅助信贷等业务的决策。但是如果是原始文本,就没有办法做结构化数据库类型的模型。在结构化的过程中,NLP技术发挥了重要作用,也是我们的核心技术。
爱分析:能否跟智能投研一样采用开放式询问?
李臻:我认为NLP还没有达到这样一个技术水平。在智能投研领域,影响一个投资决策的因素有很多,其实也不是每个因素都可以接受开放式询问,只是针对一些特定的问题。因为涉及到的因子很多,即使能穷尽当前时点的影响因子,也不能够保证未来有没有动态因子加入。
爱分析:哪些开放式问题适合NLP解决?
李臻:比较基础的问答是可以的,但还不能支撑复杂的投资决策。针对一些固定因子是可以结构化的,比如新闻舆情中出现了什么样的负面,可以把它定义成一个负面因子去做问答。
完全采用SaaS模式交付
爱分析:企业风险管理的产品类型有哪些?
李臻:主要有四种,第一种是卖数据的原材料,以数据库或者数据接口的形式提供。第二种是对获取的数据进行分析、处理,再做数据输出。第三种是提供关联追溯等工具。第四种是把数据和模型嵌入客户的具体业务流程。
我们目前做的主要是第二种和第三种。用NLP的技术处理数据再输出,并提供查询、监控的工具。第四种也正处于探索中。
爱分析:第四种产品的定制化程度会更高?
李臻:对。数据、工具性产品是可复制的,标准化程度很高。但如果要嵌入到客户的具体业务流程,做针对性的系统开发和数据对接,定制化要求很高,客单价也更高,客户黏度较高。现在对这种定制化产品的需求也是很大的,也是我们未来探索的方向。
爱分析:风报的产品交付方式是什么?
李臻:现在是完全的SaaS方式交付,提供的服务包括企业信息的查询和监控。
现在很多金融机构都有自己的一套业务流程,内部也有贷前审核、授信、贷后监控等业务流程的ERP系统。但对于外部的公开数据,很多都是需要人工搜索、分析、录入,效率很低。在我们的SaaS平台上,他们可以直接获得结果,并实现动态监控,提高效率和准确性。
金融机构客户占比60%
爱分析:目标客户有哪些?
李臻:现在主要是三类,银行、信托、融资租赁公司等金融机构、大型企业、政府部门。从客户数量和贡献收入看,金融机构约占60%,企业和政府各占20%。
爱分析:客户的预算走哪一个部门?
李臻:有的是自己的风控部门,还有一些是单独申请,作为单独项目采购。
爱分析:三类客户的需求差异有多大?
李臻:其实差异并不大,具体的用途会有差异。金融机构更多的是用于贷款时的风险评估和贷后的监控,大型企业客户主要用于在筛选供应商、经销商时的审核以及后续风险监控,政府有的是用于招商引资,有的是对辖区内企业的风险监控。
爱分析:客户如何量化使用风报产品的效果?
李臻:在客户本身的业务流程中,原来用的是很传统的方式去搜集、分析数据,我们提供的服务是扩大数据范围,提高搜集、分析数据的效率。所以衡量标准就是帮助节省了多少人工,多少的时间,完成了多少原来不可以做的事情。
爱分析:如何收费?
李臻:我们是按查询和监控两种服务分别收费,查询是几块钱到几十块钱一次,根据查询的内容多少定价,监控服务是按年收费,监控一家企业一年的费用是几百块钱。
就客单价而言,金融机构在几十万左右,企业和政府是十几万左右。
爱分析:以金融机构为例,什么情况下可以按贷款规模收费?
李臻:按贷款规模收费的本质就是参与分成,对金融机构而言,就不再是普通的成本层问题。所以这就需要提供数据足够全面,并且与贷款决策强相关的数据,包括经营数据、税收数据等。利用这些数据和模型,金融机构能直接做出是否放款、以什么价格放款的决策。
爱分析:未来会拓展到营销场景?
李臻:营销主要解决两大问题,一是目标客户是谁,二是怎么去触达目标客户。如果要提供目标客户推荐,可能要去对接非公开数据,比如联系方式等。
我们主要还是看需求和数据,在风控方面做的比较深入的情况下,也会去考虑营销这一端,但考虑到隐私问题,所以还是会比较谨慎的去做。
爱分析:2018年有什么预期目标?
李臻:我们目前已经累计服务了400家客户,续约率达到了80%。就收入和客户数量来说,2017年比2016年翻了一番。我们2018年的规划是继续增加获客,把业务量做大,实现客户数量和收入再翻一番的目标。
另外,我们还将继续拓展数据源,在结构化过程中做更深入的挖掘和分析,针对客户的风险模型做更多延伸。
新龙榜
新金融
企业服务
其它
钜派 | 百融金服 张韶峰访谈
Oscar Health | 投哪网 | 马上金融
Capital One | 大道金服 | 卡卡贷
TD Ameritrade | 今日投资 | 元素征信