面壁者联盟第一期:机器学习在互联网金融中的应用(上)
在中国科幻作家刘慈欣的小说《三体》中,人类对抗地外文明的唯一优势是思维的对外不透明。因此,在人类发现自己有可能受到地外文明的侵略时,联合国启动了面壁计划——指定四位面壁人——他们不用向外界解释自己的计划,可以调动大量资源实现自己的计划,并且不需要解释原因,以此来作为寄托人类胜利的最后希望。
现实中的地球科技的发展到今天,已经呈现出太多的可能性。当然,我们也有可能如“射手与农场主”中的二维生物科学家或者火鸡科学家一样,只是在钻研我们自以为的宇宙铁律,而其实这“铁律”仅仅是随机的存在。但是那又有什么关系呢?我们必须在已知的条件下做到最好,剩下的交给自然。
面壁者联盟是由线性资本和蓝湖资本联合发起的科技行业高端聚会,通过每期定向邀请15位业内顶尖大牛,进行对某个行业或话题的深入探讨和交流,从而促进相关领域的前瞻性思考及启发。本活动以完全闭门的形式,保证嘉宾和讨论的质量。
《三体》中的面壁者计划最终由罗辑大神利用极其诡异奇葩的威慑方式,完成了历史使命。可现实是未知的,我们需要更多的罗辑们走到一起。除了思维的不透明,个体之间的通力合作、群策群力同样是人类独有的优势。面壁者联盟,就是发挥这个优势的最好平台。第一期面壁者联盟的讨论主题是:机器学习在互联网金融中的应用。
在宇宙中,人类仍然有可能是虫子。然而虫子从未被击败。
面壁者们,open your mouth and save the world.
小线说智能投顾在中国尚有乱象,落地需时日
孙骋,钛媒体记者
我的学历背景是复旦大学中文系,我是学中文的。关注互联网金融Fintech有两年多的时间,我觉得因为这是《商业价值》主编刘湘明给我布置的题目,希望我写一篇关于Fintech的封面文章。然后,当时我们觉得Fintech是一个很大的范围,包括现在P2P、众筹等其他很多(方面),它在很多分支都有一些发展,我觉得要挑一些从现在投资的角度或大家关注的角度来看,非常有代表性还有一些投资机会,包括这个技术真的很有意义。
它在未来三年、五年、八年会有更多发展,就是这样一些Fintech分支的东西。我就根据自己的观察,也和一些朋友聊,我觉得智能投顾/机器人投资顾问,Fintech大数据应用和区块链是目前大家关注比较多,讨论比较多,而且比较有一些创新和意义价值在里面,也有很多创业公司希望去了解这些内容。所以,这是我提炼出来的三块。
其实,文章很长,有7000多字,我就快速梳理一下。从三个角度,一是从智能投顾,它在国际上目前比较好的一些公司的规模和阶段,因为针对读者的话,还是要把文章写得好读,就是简单易懂,可能在座各位是专家,看这个文章还挺简单的。然后就是智能投顾在中国的发展。在这块,我采访了几家我接触到做这个技术还可以的公司。因为智能投顾,我们也知道有一些骗子公司,其实放的产品并不是机器人做的,放一些用其他很简单的手法做的。所以,我觉得那些就没有什么价值,这是在中国的发展。
大数据商业化比较有代表性的公司还是几家估值比较好,比较成熟,在这块做了很多研究的大公司,比如蚂蚁金服、众安保险或者是京东金融,因为这些体量很大,他们的数据也很多。在过去做电商,他们的数据有很高的利用价值。所以,就列举了几家公司,也向他们做了一些了解。在区块链方面,我觉得目前国内区块链最关键的是这个技术能不能落地应用。我从2014年就开始接触一些区块链,那时候很多人是从比特币转过来说做的是区块链,但做了两年,他当时说的项目到现在还是没有做出来,就是他会吹自己怎么厉害,会去拉天使的钱或者融资,这块真正能落地的好公司是占1,那些在吹嘘这些的公司占9,其实好公司很少。所以,我和一些朋友交流,挖到一些他们能把这个技术落地在哪些方面,但还是一些非常早期。大概是这样的文章梳理过程。
写完之后,我个人认为这篇文章写得比较偏介绍性,没有很多批评的东西在里面,就是把一些问题指出来或者国内很多乱象现象。文章发了之后,有一些朋友跟我交流,一个朋友说,智能投顾在中国有很多乱象,很多平台上的产品有这样那样的问题,我觉得这样的问题需要在某种程度上需要监管上淘汰,这不是技术的范畴。我觉得我们还是更关注在技术方面有更好的发展。
P2P行业并没有死,消费金融会是大趋势
蒋韬,同盾科技创始人
同盾现在确实服务了很多的P2P,现在我们服务的P2P已经有五百多家,将近六百家P2P企业,基本上国内大的P2P公司都在和我们合作。从目前数据,就是从P2P数据来看,总体趋势属于平稳状态。因为目前看到前五十名的P2P都还在做业务,不是说没有突然就没有了。我们看到很多P2P都有一个趋势,因为现在互联网金融监管非常严格,只要是做理财的,大家都不敢说自己是做P2P理财,放贷还可以继续放贷,但理财这块资金怎么解决,大家越来越想把这个事情(风险)最小化。
我认为消费金融未来肯定是大趋势,因为现在整个中国的经济形势,我们自己判断五到十年之内,整个中国的小微企业一直往下走,中国给小微企业放贷越来越困难了,以前银行都是靠给企业放贷生存,银行对于做个人放贷业务的积极性不高,但现在越来越倾向于做个人业务。因为个人业务,第一风险小,相对来说风险比较分散,风险比较小;第二,在中国,老百姓花钱意愿还是高的,但小微企业真的就不行了。第三,我们看到在消费金融趋势每天的量非常大,包括申请量和做评估的量非常大,以前很多银行对小微企业,只要一天放几笔贷款,只要通过paper work就可以搞定的事情,走个流程就可以搞定的事情,但现在每天的量都是几千笔、上万笔,就越来越需要自动化决策机制,包括打促率,决策机制越来越广泛。随着这个趋势,我们觉得,未来费率、征信、自动化决策,包括人工智能肯定是大方向,是一个可以去做的事情。以上就是我们的基本判断。
总体来说,市场比较平稳。小的不好的还是永远都不好,好的还是很好。我们认为大的(平台)都还在做,没有往下走。因为我们监控的基本上都是放贷的量,就算它不是从老百姓那里募钱,它可以从别的渠道募钱,它可以变成银行或者B端的渠道,或者说它也可以做资产证券化,有很多方式做资产证券化,去规避风险。
另外我简单介绍一下同盾科技为代表的反欺诈公司。我们对国内外通过反欺诈的公司都有比较清晰的研究和认识,其实这里面这几家公司,我们调研过有几家公司,像Biocatch的技术,它是一家以色列的公司,它做了一件很简单的事情,就是说一个人到这个网站上,输入用户名和用户密码,然后用鼠标的所有轨迹行为都会通过一些SDK抓取下来,抓取下来之后分析这个人这次用鼠标的轨迹和上一次用的轨迹是不是一样,通过移动分析,可以分析这个人是左撇子还是右撇子,或者说这个人是习惯从上往下滑还是从下往上滑,用这个来分辨这个帐户或者这个机器是不是被别人控制了,就是说被恶意软件控制,或者帐户本身被别人盗用了。同时它也会敲击用户名和密码key down和key up的一些时间,比如说敲击的频率或者敲击那些东西来分析这个人,因为通常我这个人,比如说我的帐号是xyz,我打的时候速度就很快,中间的间隔也非常快,不会有任何的回退,很少出现回退的情况。但如果是别人盗了我的帐号,敲了我的用户名和密码,那输入的速度就会敲得很慢,就是通过这种行为。国内软件也有这样的技术,现在也几个银行,包括几个支付中心也有这样的行为,我们在帮他们建立这样的技术来做这个事。做这个事有一个好处,我们通过这些东西,确实收集到大量的网上的设备和帐户的行为数据,这些数据是我们在全网做分析的时候,去做关联分析和做异常行为分析都很有用。
将来数据真的做大到一定程度的时候,甚至可以做一些模式上的匹配。比如说我们发现某几家银行或者某几家消费金融公司有一些行为轨迹,这些行为轨迹看上去都一样,在同一个时间内可能有十个行为轨迹都一样,但这十个行为轨迹可能是同一个人做的,虽然他们的身份证可能不一样,银行卡不一样。这样的技术将来用于反恐是很有用的。类似于这样的东西,我认为还是非常有意思的事情。然后像脸部识别,它不是一个风控系统,其实是一个身份识别系统,这就跟Face++、云知声等,那种做身份识别的人工智能技术类似。
我觉得现在很多金融机构的方法,包括我们,因为同盾现在也做反欺诈,也做信用评估,我们也做了信用分,也拿我们的信用分在一些真的场景,包括汽车金融的场景。而且因为我们用的方法论都比较传统,和征信相关的方法都是根据申请、拒贷、放贷和预期,就是根据这些评判这个人的信用。其实用到的外部表现数据有一些,就是第三方的数据,比如说一些机构的消费行为数据,一些法院数据,可能会用到一些。我们看到很多金融机构用得很多方法论,相对还是比较传统,但确实非常有效。至少我觉得很多新的方法论虽然都特别牛,但还是没有被证明,没有大范围去铺,这是第一。
第二,我觉得和客户沟通,客户并不在乎机器学习还是没有用机器学习,你帮我解决问题,你帮我把精准度和覆盖度,包括误判率降到最低,就是最好的方式。最好能够告诉我,用了这个决策引擎,客户为什么喜欢。昨天正好有个汽车金融公司跟我们讨论,他们也去看过我们的产品。他们觉得我们最大的优势在于:第一,我们的工具可解释性;第二,我们的工具可以让客户自己去配,也就是说,今天在同盾的4000多家客户,刚开始大家的模型都差不多,都类似,但做了一个月或者三个月之后,每家的模型都不一样,因为每个金融机构的风险偏好都不一样,它所有的变量和权重都可以自己去配,千人千面。而且它要配什么东西,比如说它要配什么指标,它要配什么样的时间片,就能产生什么样的结果,比如现金贷的业务,他们的风险问题一开始都是类似,50个变量权重都是类似,但过了半年之后发现每家都不一样,因为每家的风险偏好都不一样。只要工具可解释,然后他们觉得这个东西确实有效,其实这些金融客户最关注的就是精准度。所谓的精准度,就是不要误判哪怕漏掉也无所谓,但不要误判,因为一旦误判就不敢用这个东西做自动决策了。只要保证判定的东西是100%准确或者99%准确,损失一点无所谓,就敢用做自动配置,其实这就是他们的要求。
智能投顾靠不靠谱,还是个问号
王淮,线性资本合伙人
我们先看看智能投顾是什么东西。“智能投顾,英文名是Robo-advisor,又被称为“机器人理财”、“智能理财”,是把最基础的Markowitz资产组合理论和其衍生模型们应用到产品中,在云端低成本、快速、批量化地解决各种数据运算,再结合投资者风险偏好、财务状况与理财目标,通过后台算法为用户提供资产配置建议。”所以,它一方面结合了理论,而一方面是产品,另一头结合了用户个性化的偏好,中间做一个资产配置的一套东西。
文章提到了一些国外比较出名的公司,全球智能理财领域最大的公司是Betterment,还有一家是智能投顾平台Wealthfront,我对这两家都比较熟悉,因为从Betterment刚开始创业的时候,就开始用它的东西。一直用到放弃美国身份,它只服务于美国的Residence,它不做海外用户的生意。wealthfront出身比它们(Betterment)更漂亮,有诺贝尔奖(获得者)是它的顾问,斯坦福一帮人做的。一上来走的路线是通过facebook message或者打电话,把硅谷那帮新兴公司的一些员工找到了。
文章中提到:“智能投顾改变了传统客户和经理面对面的服务模式,在美国,智能投顾更多用来进行客户开发的工作,以比较低的服务费用吸引到投资者。智能投顾的优势在于成本低,容易操作,可以避免投资人情绪化的影响,分散投资风险,信息相对透明。”这段吸引的是哪帮人呢?其实,吸引的是不大相信人能够带来α,这个词也是我看黄徽的书学到的,虽然这个定义很简单。黄徽的书花了好几页解释α和β之间的差别。
以前我不相信α,其实facebook大部分员工都不相信α,那些financial advisor,私人银行等过来Facebook卖产品的时候,很难卖得掉。因为同事们都不相信,觉得这有点不是科学的方法,这帮人又不如工程师们聪明,也不是太了解自己提供什么产品。因为它是后面整套系统为他提供整套的传统的私人银行业务的一套研究得出的结论、对未来的看法,以此为基础来给你提供产品。历史上出现过很多产品卖给你的时候的各种问题,其实这里面都在尝试卖α。最终造成这帮工程师只相信β,就是我们不强调beat这个市场。所以,wealthfront当年找了一批facebook的员工,Betterment是另外一批,它的原则很简单,我是什么样子的risk preference,上去只要做了个测试,有什么样的目标。比如说举个例子:我要50岁之前存一个200万美金的退休金,这两个东西给它,剩下的全部是自动,不用管了,每个月自动从你的帐户里扣钱,基本上它是能保证:只要每个月这部分钱确实能到账,到达50岁的时候,确实能获得 200万美金。所以,采取这样的方式,吸引了大一堆不相信α、对于可以beat the market不相信的人。
但问题来了,还是有很多人相信能够比市场做得更好一些,要多于市场的收入,还有一个相信的是干嘛要用机器来做,买一个指数就OK了。所以,智能投顾这个事情在这个方向,更多提供的是因为机器能够看到很多数据带来额外的价值,还只是一个工具,只是自动化,带来一个便利性,让我不用去操作这类工具。所以,在即使是Betterment的客户中也存在这样的分歧。我是纯粹把它当做一个工具来对待,但这时候,它又没有办法获得更高的收入。因为给我提供的价值很低,所以对于智能投顾这个事情,究竟靠不靠谱,我相信有很强的问号。
另一个方向是Content/InformationExtraction,属于信息的抓取、特征的提取相关,其中它提到一家公司是Dataminr,是从推特上获得actionable signals,然后提供给这些financial sector,让他们获得一些信号。其实,就是国内经常说的用于金融上的语境分析,中国应该有一些公司在这个事情,但我一直比较怀疑它的有效性。
我说一下我们对大数据个人理财的看法。首先从highlevel来看的话,可能把它分成几个相对虚一点的几块:一是属于信息的输入问题;二是建模问题;三是属于和demand相关的,一个是demand prediction,一个是demand fulfillment,这几块对机器学习都有所帮助,谈不谈机器学习是其次,更关键的是,是不是说在基于数据、能够用算法更好的ultimate decision,或者是提升决定的质量,其实我们看很多问题从这个角度。我们想说数据智能是关键的,是基于data,有一些intelligence的一些action,就是一些聪明的动作。这个可以用很多种不同的办法,谷歌那个东西早期更多的是从产品的角度,它知道你的日历能够看得到,要在哪里开会,在恰当的时间点给你提供navigation,这是从产品的角度,这些都是预设,它有预设的产品逻辑在里面。从用户的角度来看,它不关心,只要你在predict 并且fulfill我的demand,你就是smart的。
但是,逐渐谷歌可以做后面的东西了,你经常往商场跑,经常和这个人开会,它可以理解这个事情,它知道为这个东西也许会提前做一些准备了。那时候基于data的Machine Learning,Deep Learning通常都是基于图象、voice这类居多,传统那类的基于统计的学习方法,还有Classifier识别分类器,这些东西都可以拿来用,目的就是让大家的demand 的prediction 和fulfillment可以做得更好一些。但是,从刚才说的产品的角度和数据角度,到后来的机器学习,因为机器学习更是系统性利用这些数据,用最新的办法。这几个角度糅在一起,对用户来说应该是无感,才是对的,用户感觉不出来,他只会感觉用得越来越爽。我觉得只要能够做到这一点,从产品的角度就ok了。
但是,回答您的问题,从我们的角度,这个东西对它的体验后面究竟会不会有实质性的提高呢?我相信一定会有的。原因很简单,一开始的时候,根据经验拍脑袋,其实产品都是拍脑袋,也是基于数据,无非这些数据是经验,内化到人的经验、产品经理的经验当中。只不过到了后来,这种内化变成机器的、变成自动化的,而人到机器,都是基于数据,体现在产品当中。如果能够形成一定的系统,这条路走通了的话,基本上没有人什么事,历史上发生都是这样的经历。只要你看到现在生活当中方方面面,只要机器取代人来起作用的,比如说飞机飞上天空之后的自动航行空中建模,最早的时候都是人来做,逐渐被认为机器能够做得更好,就会转换学习,而且这种转换都是不可逆的,基本上不可逆。所以,我们是很相信。只不过到今天为止,还没到这种程度。因为人还足够的用它产生这类数据,我相信将来wealthfront一定会往那个方向。但今天没到这个点之前,它必须要taxharvesting,普通人能够听得懂。像我们看他们的工具,讲那么多故事,有些动作自动化,我觉得省心tax harvesting,其实我们都明白这些算法,无非是把这些分类,可以替换,又不会hit美国的tax wash这条规则,只要不要hit这个东西,恰当的时间点,每个月做一次,大部分能够实现这类效果。但是机器就自动帮你monitor,它做的是convenient的事情,但是它背后都是基于这套固定的data模型得出的固定规则,将来data是变动的,规则是变动的,dynamic我认为这个东西就是机器学习在里面逐渐发挥作用。到再将来,像feature,现在是固定的feature下面的这些数据在变动,甚至将来像feature这个level都有可能是变动的,可能会自动形成,但这个需要时间。我不觉得今天已经到那个阶段了,但今天是到那块,但是是个时间问题。
有些公司,好听点叫data vendor,就是数据供应商,难听点就是数据原料的manufacturer,就是(数据)制造商。没有很高的附加价值,自己可能会做一些初步加工,但数据到商业价值,像这个层面普遍缺失,就是你说的做不大。整个是两条性质,本身的规模问题和能够提供的价值点,这两点对他好像都有很大的限制。但像你说的,没有又不行,garbage in garbage out。
数据本身的应用是垂直场景化的
杨滔,桃树科技创始人
我说一下我的观点。我觉得,大数据能够把它做成一个通用的平台,无论是淘宝内部还是创业过程中,发现这个难度比较大。我的一个观点就是大数据从哪里来,用在哪样的场景中,还是一个更加直接的方式。比如说在淘宝里尝试过淘宝的数据能不能在淘宝以外产生很大的应用,我们发现价值比较小。当然淘宝以内的数据,包括支付宝的数据,在外部有很多应用。实际去核算它的性价比并不太高,因为数据都有成本。如果用这些数据没有成本的角度去看,数据可以用在很多地方。但反过来看,包括芝麻信用,它真的能够反应一个人的整体信用吗?我觉得是不能的。因为芝麻信用本身的数据源也是有限,没有一家公司可以说自己的数据最全、最丰富,能够做成通用的大数据产品。所以,我的观点是数据本身的应用是场景化的。
如果数据的应用是场景化的,对于企业来讲,甚至(对)个人来讲,他非常需要这样一种工具,就是能够帮助他,把他自己的数据或者在自己领域相关的数据,最终能够产生价值。我觉得,这也是现在很多创业公司可以做得事情,虽然我们没有数据,虽然没有最全的数据,但我们有让数据结合到垂直业务产生价值的工具,能够帮助企业把数据或者自己相关领域的数据集合起来,最终去产生应用。所以,如果从大数据产生商业价值,我觉得最好的方式或者最好的方式之一就一定是垂直化的,一定是场景化的。而且我觉得大数据产生商业价值不一定依赖自己一定有大量的私有数据,因为只要你有大量的私有数据,其实都有巨大的成本。如果我们把大数据的成本和最后带来的价值做一个ROI的核算的话,能够帮助企业从多个数据源中,垂直化的产生价值,我觉得不失为一个好的方式。
另外,我觉得像现在给传统的信用卡中心服务的时候,它对于外部的数据补全、借贷者普适性行为的数据介入,现在他们的可信度有限。我提一个点,我觉得有一种从机器学习的角度来看,不一定是金融数据才能产生金融的风控应用,举个例子,比如说有大量游戏的应用场景,有大量游戏应用的行为数据,如果发现一个用户是深度的游戏粉丝,即使没有他任何的金融属性的工具,把钱贷给他和金融相关的应用,仍然判断他是还款意愿很强的客户,那这类可能是非金融数据转化到金融应用上有比较直接的价值,包括教育。如果你是教育类,已经报名了,已经上十分之一的课,接下来可能还会上这个课,在它分期付款的时候,对它有非常强的风控信息。但这样的公司永远很难超越传统的风控央行征信去拿到全面的征信数据,我认为那个也比较难,也比较次要。就是一个观点,非金融数据可能会产生一些金融的应用。
我稍微补充一下,我们看机器学习,很难是一个孤立的技术,它可以是一种服务。我们在应用这种服务的时候,基本上分成三类:
一类是比较传统的建模方法,传统的建模方法尤其在银行里,蒋韬提到的情况,我们也遇到了,它甚至不太喜欢Deep learning,因为这样的模型不太可解释。我们考虑machine learning,服务的时候,事实上,我们服务的这些企业客户能够满意,让它能够用出去,而不是准确率一味的高。在这种情况下,即使Deep learning的效果更好,但对于它来讲,它的接受度非常难,它的理解成本也非常高。所以,我们只能在它的思维惯性之下,为它提供更好的工具。其实,我们发现Machine learning和BI的结合更有帮助,就是传统的建模和可视化结合在一起,是帮助企业级客户,帮助数据团队能够更好理解数据,而不一定是端到端的博弈的效果。
第二类在C端,包括个人金融,我们觉得有一类算法比较有用,就是达人驱动的算法。我们在淘宝做过一些尝试,就是我们通过分析你的行为数据,找到在不同应用场景中,和行为最像的达人,比如说这和个人消费者的习惯比较相关,买一个股票,买一个理财产品,最信任谁,它历史的行为是不是一致,是不是能得到我的信任,包括我们在淘宝里找到很多达人买家,我们发现这些买家收藏和经常回访的店铺并不是搜索驱动,而是自己找到了一些特别小而美的C店,这样资深的淘宝达人所挖掘的一些新品,有非常强的机器学习找不到的特点,我们把它归结为达人用户,这类算法特别适用于高频、to C端的机器学习应用。因为机器学习应用,当它的使用者是B端,是比较少,比较分散的话,他更喜欢理解你的算法。但当你的使用者非常多,频率非常高,量非常大的时候,他更希望找到和自己像的达人。
最后一类是Deep learning,我觉得Deep learning比较适合大公司,搜索广告的在线的学习,我觉得可能会有一些比较大的突破。但对于一些小公司,对于个人用户来讲,是不是能产生价值,我觉得不一定,它只是可选项之一,不能作为必选项。
我们将在近期推出面壁者联盟第一期报告的下半部分,敬请期待!