【模式分析】Random Forest Capital:利用机器学习对每笔贷款进行再定价
硅谷是全球最发达的互联网金融中心,也是最新商业模式的聚集地。今年夏天,未央团队于硅谷实地调研十余家2015及2016年刚刚成立的金融科技初创企业,并带回专题报道,为你解析大洋彼岸Fintech行业的最新发展动态。
Random Forest Capital在2016成立,是一家位于旧金山的跨平台机器学习和数据工程投资管理公司。Random Forest Capital于2017年1月的首轮融资中,从天使投资者中获得了完成了175万美金的资金。
成立背景
近年来,随着网贷市场的蓬勃发展,众多机构投资者开始寻求其中的投资机会,高收益债券投资的需求越来越大。投资的核心竞争力就体现在承销和风险定价方面。而就传统的风险评估方式来看,FICO等传统个人信用评估方式已经被许多借款机构认为不再可靠,一是90%的信息都处在更新之中,近两年随着互联网和智能手机的发展涌现出了大量的信息,都可以通过技术手段获取。二是FICO的变量存在局限性,没考虑到一些宏观因素,例如有的人虽然信用分数高但是信用历史短,也就2-5年,所以没有足够的时间去违约。而一些人的信用历史也没有足够的连贯性,这就导致有人的信用分高但是可能违约。
这就是Random Forest Capital公司想解决的根本问题。Random Forest称,目前现存的承销方法昂贵、低效、不准确,无法准确地评估这些债务的风险。Random Forest使用跨平台的机器学习算法来定价债券,在大大提高准确性和效率的同时,也解决了投资者和借款方的利益冲突。随着保险业与其他投资者对高收益非股票类投资的需求越来越高,一个公正、准确的债务风险定价体系将有很大的发展机会。
商业模式
相比于股票型量化基金,Random Forest所投资的产品不同。该公司主要集中于三种在线借贷(P2P)产品:无抵押消费者债务、担保住房债务、以及担保商业债务。该基金将投资金利用机器学习以及其他算法投资到不同平台上的在线借贷产品中。Random Forest目前只接受机构投资。
据平台统计,平台筛选后的贷款能够的违约率能够降低50%,而比市场上的平均回报高出4%-6%。同时,打包后的贷款产品的波动率低,且与市场指数呈低相关性。平台的alpha并非来自于风险高的贷款产品,而是来自于Lending Club和Prosper风险评级的C类产品。
创新性特点
数据来源创新:Random Forest的数据来源包括平台提供的,购买的以及公开获取的,其特点之一是利用了很多非结构化的公开数据,这些都是可以从公共数据平台获取,例如健康状况,房价,平均收入水平等。
数据特征创新:平台使用的数据包括三类,一类是常规数据,一类是社区数据,包括健康数据,犯罪数据,每个社区的数据都不一样。通过分析围绕用户的不同标签来分析其违约率。由于美国各城市街道阶级分布鲜明,因此基于地理位置收集的用户平均画像具有较好的预测效果。例如平台发现住在某社区的居民的有着低犯罪率和低癌症诊断率,平均违约率比周边低40%。而在某家公司工作的员工的非房屋装修贷款的违约率比平均低50%。
Q&A
风险评估中的社区数据变量是什么?
包括社区贫困率,收入水平,健康数据,种族数据,性别比例等……我们能够知道这个社区的分布是怎样的,然后考虑到宏观经济对其的影响,比如如果油价降低,那么就会对从事部分工作的人群有影响等。
这些数据是哪里来的?
公共平台,我们是数据科学家,我们通过爬虫等获取数据,买数据这种获取数据的方式当然是重要的但是不能成为核心竞争力。
健康数据不是隐私吗?
个人层面上是隐私,但是美国由很多公共平台提供一些统计数据,你可以聚焦到社区上,例如HIV rate,通过zip code来定位。还有一点的是我们的角色不一样,我们是投资者,而不是贷款人,他们要发放贷款,有时候不能合理定价,贷款人需要遵循公平借贷法(fair lending) 条约,而我们是根据贷款的水平进行重新定价。
个人层面上的数据你们获取哪些?
我们主要是获得消费数据:例如你经常去哪个健身馆,你使用的车牌子等。利用zipcode ,商业,行业和教育等信息,分析个人的事实和关于社区的特征。
你们建模的时候不需要考虑第二类错误,只用考虑第一类(注:即只用考虑不要把坏用户错判为好用户,而不用担心把好用户错判为坏用户,实际上是降低了建模的难度)
没错
你们是一笔一笔买,不是打包购买?
对,我们要在不同的平台选择。这是一个很大的市场,未来所有的投资都是数据驱动和自动化的。例如我们分析的结果是,Lending Club平台上所有的贷款0.5%值得买,可以获取10%-12%的回报。如果有些平台没有API,利用爬虫,我们模拟注册登陆后再后抓取数据。
现在平台和多少个机构合作?
6个线上平台4个线下平台,线下有房贷等,过去半年LLP增长了10倍,现在和很多顶级的机构接触,未来可能再涨10倍。
你们认为FICO这种信用评估方式未来会改变吗,因为人们开始产生更多的数据?
会的,因为使用数据的方法多了,其实很多平台已经使用自己的数据了和算法了,就像Zillow,FICO已经开始使用其他类型的数据了。传统的评分方法的逻辑也存在问题,例如只有信用历史而不是你的账户和资产,比如很多人都会选择留车而不是留住房子,而车子是这个人能够再去工作的工具,所以即使这些人的信用是500分,但是他们的表现也可能比高分的好,FICO不注重申请的目的和你持有的资产。
作者:东十条
来源:未央网
行业时事
案例分析
监管动态
公募基金流动性新规“10大要点”:余额宝补缴近60亿风险准备金
深度观察
巴曙松:长期来看,余额宝和银行储蓄业务的变化有着怎样的关联?
活动&荐书
清华大学五道口金融学院互联网实验室成立于2012年4月,是中国第一家专注于互联网金融领域研究的科研机构。
专业研究 | 商业模式 • 政策研究 • 行业分析
内容平台 | 未央网 • "互联网金融"微信公众号iefinance
创业教育 | 清华大学中国创业者训练营 • 全球创业领袖项目(报名中!点击查看详情)
网站:未央网 http://www.weiyangx.com
免责声明:转载内容仅供读者参考。如您认为本公众号的内容对您的知识产权造成了侵权,请立即告知,我们将在第一时间核实并处理。
WeMedia(自媒体联盟)成员,其联盟关注人群超千万