查看原文
其他

面壁者联盟第一期:机器学习在互联网金融中的应用(下)

2016-08-05 面壁者联盟 线性资本
小线说

在中国科幻作家刘慈欣的小说《三体》中,人类对抗地外文明的唯一优势是思维的对外不透明。因此,在人类发现自己有可能受到地外文明的侵略时,联合国启动了面壁计划——指定四位面壁人——他们不用向外界解释自己的计划,可以调动大量资源实现自己的计划,并且不需要解释原因,以此来作为寄托人类胜利的最后希望。


现实中的地球科技的发展到今天,已经呈现出太多的可能性。当然,我们也有可能如“射手与农场主”中的二维生物科学家或者火鸡科学家一样,只是在钻研我们自以为的宇宙铁律,而其实这“铁律”仅仅是随机的存在。但是那又有什么关系呢?我们必须在已知的条件下做到最好,剩下的交给自然。


面壁者联盟是由线性资本和蓝湖资本联合发起的科技行业高端聚会,通过每期定向邀请15位业内顶尖大牛,进行对某个行业或话题的深入探讨和交流,从而促进相关领域的前瞻性思考及启发。本活动以完全闭门的形式,保证嘉宾和讨论的质量。


《三体》中的面壁者计划最终由罗辑大神利用极其诡异奇葩的威慑方式,完成了历史使命。可现实是未知的,我们需要更多的罗辑们走到一起。除了思维的不透明,个体之间的通力合作、群策群力同样是人类独有的优势。面壁者联盟,就是发挥这个优势的最好平台。第一期面壁者联盟的讨论主题是:机器学习在互联网金融中的应用。


在宇宙中,人类仍然有可能是虫子。然而虫子从未被击败。


面壁者,open your mouth and save the world.

小线说


报告的上半部分请关注线性资本公众号,回复“面壁者1A”获取链接

回复“面壁者1”获取面壁者联盟第一期阅读材料



曾经很热的“互联网金融”一词,正在被 Fintech(金融科技,Finance和Technology的合成词)代替,这意味着技术正在夺回这一领域的驱动地位。事实上,根据cbinsights的细分行业统计,Fintech是2015年最吸引风投资金的领域,VC融资总额过85亿美元,远超其他行业。


而今年的又一个热门词汇是“机器学习”。针对机器学习在互联网金融中的应用这一主题,面壁者们进行了以下讨论。其中有几位面壁者的发言因为过于劲爆,不便在此公开。当然,如果你持续关注线性资本的文章,还是有可能找到一些蛛丝马迹滴~


人工智能在能改善个人理财体验


殷明,蓝湖资本合伙人


我们投了一家公司,是现在国内做pay day loan最大的一家公司,叫手机贷。其实,在这之前,当时我们也research了美国这个市场,美国的这个市场是存量了每年600亿到800亿美金的一个市场,出了一些类似像这样的公司,它也是IPO的一个公司。中国所谓叫“non-banked”,不是说他连信用卡都没有,可能是这个人甚至在中央征信记录里是的彻彻底底的白户人群,比美国要更大一些,就是在我们测算人群的时候(发现)。这个人群用相对80%到100%的利率,比美国这个市场已经低多了。我们知道像美国和欧洲对标公司利率可能是200%到400%的利率,今天去服务它,会发现这个人群里还是有很多用户,这些人群可能是集约性的用户,他买手机分期或者说他就是蓝领工人,到了春节的时候,家人来团聚的时候,他需要短贷借一些钱。这些人和美国非裔或者是老墨移民的工人,需要短期cash out支票的工资的需求很像。


当你把这个人群做出来,比如说手机贷,比我们投资的时候规模翻了50倍,现在每个月平台上借款的人数已经达到了三四十万人,三四十万人是什么概念呢?就是到今天,一年累计下来的借款人数已经相当于拍拍贷的人数,就是在平台上借过钱的人。把这些人框住以后,发现这些人有个非常强的特性,就是他的黏性非常强。一年里,他在这里借贷的频率是六到七次,非常忠诚。而且这个人群黏住他以后,给他更低利率,更个性化的金融产品,类似于蓝领的信用卡产品,现金的分期,其实转化率也是很高的。所以,长期来讲,手机贷服务的位率一定是持续在最高利率的那个产品。当他把这帮人框住以后,有这些人的历史数据以后,慢慢可以把产品利率设计得更加个性化,包括产品的存续期也更加个性化,慢慢变成低收入人群的信用卡中心的机构,所以这会是这部分人群长期演化的未来。Sync finance也好,包括欧洲的Wonga都是一样,大家都后来都是给这些人提供line of credit,就是给你提供了类似于信用卡额度,让你可以在我这里持续借贷。我看好不是说今天它单纯做高利率的产品,大家确实看到面临一些政策监管的风险,或者长期P2P的法律结构是不是能够合规化,但是从实际的数据支持来讲,这个资产类别的持续性还是不错的。所以,能看到如果未来它变成一个三四百万人的信用卡中心的模式,它的商业价值还是在那里,而且是一个不小的单位。当然,这只是我一些粗浅的理解。


第三篇文章很简单,其实它是一个案例学习,提到了一个美国的公司,叫做Wallet.AI,基本上它的产品思路就是说利用消费者日常在记帐功能里产生的很多帐单、消费记录,包括地址信息,大量的身份相关的行为信息,去产生一些自动化分析,从而给他一些理财建议,就是类似于最近的现金流的规划是否合理,最近是不是过度消费,或者说针对未来的某一个大的客单价的购买计划,当下可能应该怎么规划现金流。这个产品在硅谷不是一个很新的产品,如果我没记错,Wallet.AI应该是2011年、2012年公司,后来也出了一批类似这样的公司,也没有做得特别大。国内像这种记帐软件,有像随手记这样的产品。最近一两年,有一个很有意思的趋势是有很多这种lending类的机构,刚才前面提到的有一家公司叫Affirm, 他们在对这种公司的大规模收购。这种记帐类或者个人理财,就是说有一些AI元素的产品,对借贷类公司的意义在于:第一,他们在前端增加了公司和消费者接触的频度,因为借贷的时候频度很低,但记帐的频度很高,所以其实能够touch变得更亲密一点;第二,他们还是认为在传统理解以外的,比如说信用卡,消费记录以外的消费者行为的信息,对于征信有巨大的意义。所以,这是我们看到过去一两年在这个领域发生一些大规模并购的原因。


这里面衍生出来的问题很有意思的两方面,值得大家去探讨:一是消费者的这种普适性的行为信息,包括一些反欺诈的行为意思,到底从数据补全或者征信的角度,多大程度上能够帮助传统的金融机构,这是第一个很有意思的问题,这个桃树比较发言权,因为你们和信用卡中心合作过;二是这种自动化利用AI的方式跟踪这个人的行为,给一些理财建议,多大程度上能够取代传统人工的finance服务,因为我们知道今天最大的瓶颈在于自然语言处理都做不到很好的效果,因为毕竟要和AI沟通,能够清楚的表达出在理财或者未来现金流规划上的清晰目标,今天连这个都还是瓶颈。像Wallet.AI他们使用的方法还是给一些模块化的交互方式,只能是用我认为机器可以理解的语言方式进行沟通。所以,在座很多都是机器学习的专家,真正引入机器学习的方法之后,多大程度上能够改善现有财务管理的体验,比如说随手记或者像支付宝也有这种类似的功能,多大程度上有革命性的体验往前进,能够帮助消费者管理个人财务状况,这也是一个问题。但至少今天我们看到就是说从Wallet.AI这种类型的公司,过去四五年,并没有出现突破性的进展,包括随手记这种公司,可能DAU非常高,但今天变现的时候都面临很大的难题。


其实类似个人财务管理的自动化软件,让我想到一个产品,就是最早的Google Now,当然可能我不是特别了解,严格意义上来说,没有用太多机器学习的方法,比如今天开个会议,它看到你的schedule里面后面有个怎么样的会议,帮你规划,比如说你将要去下一个会议的地点路况怎么样,自动帮你规划需要提前多少时间出发,自动帮你叫一辆uber。这个东西是很像的,就是Google Now和Wallet.AI想达到的境界。我不知道真正深度学习的算法引进去以后,对这种东西的体验会有多大程度的改善,这是从个人财务管理的角度的问题。今天看wealthfront,实质意义上来说背后没有太多AI的东西,它在做的事,一个是portfolio仓位的自动balance, 这是一个动作。第二个在美国是叫Tax Harvesting,做税务优化,通过同类资产的买入卖出,帮你确认损失以后,帮你节税,其实并没有用太多实质意义上机器学习的概念。

 

 Fintech+AI的核心是提高回报和最小化风险


朱辰,蓝湖资本泛智能领域负责人


这篇文章核心提到Accurate Decision Making,这个概念有两个层次了自动化决策替代人是一个层面,这个核心是在“effective”层面(结果有效性)至少和人一样或者比人更好·这个不容易;另一个短期能发挥作用就是第三页的第三句话quicker and more efficient,提供情报和工具让决策更快更高效,这在长尾上意义尤其重大,把原来大客户的私人银行服务,通过机器+人普惠了;中小企业贷款,人效低利润薄的,不值得很多银行做;发现股票市场的insight、pattern和策略很花人力,因此都是二八原则花在头部股票的上;这些领域,AI都能大大提高效率,让同样的人力覆盖更多业务。

 

关于智能化的个人金融服务(不仅仅是“智能投顾”,这个概念已经被滥用),我觉得这里面的“智能”是2个层面:一个是根据资产表现的adaptive资产配置,资产多样差异性越强越能体现优势;另一个是根据用户个性化需求的定制,用户需求可刻画的差异性越大越有价值。刚刚王淮和黄徽提到的智能投顾的一些问题,我很认同。除了资产端今天的限制外,用户个性化定制的前提是基于“我了解你”,这个做的还很不好。最初级的做法是通过“我问你”,就像现在去恩卷,银行或者券商给你填的,但用户常常有“我也不知道我风险偏好应该的打几分”的困惑。最近谷歌now一个新的功能,比如说可以设立一个目标,假设最近我想健身瘦10斤,它会根据你的日历和地图信息,直接在日历里面说建议什么时间去哪里训练,这些功能之所以好用,是google通过感知设备和大量工具收集了关于“你是谁”的信息。因此要做智能推荐,首先要有好的data input帮助刻画用户,这个数据的好坏则是是根据它和你所有做的事情的相关性决定。比如wallet.ai这样的消费记账工具能刻画你的消费行为,但如果要知道你的投资偏好,历史投资交易的数据则是最好的data input。可能没有一家公司有关于“你”的所有数据,但很显然这些都要比简单问卷更相关。


最后一篇文章,讲的是AI在量化交易领域的中的各种应用。因为这篇文章比较长,我结合自己一些思考和大家刚才分享里提到的内容,总结一下

 

应用AI的大逻辑是,有不同的信息input,进入模型,output一个目标,这个目标可以是预测一个值、可以是基于预测值做决策以优化另一个值。信息的不同输入可以有很多,微观到各种类型的历史交易所有细节,每个公司的工商税务数据;宏观到天气变化,各类新闻,。Output的优化目标都是提高return,降低risk。用到的技术有很多,从NLP和机器视觉以感知采集数据,到数据挖掘、知识图谱、专家系统以发现并构建关系,到加强学习以优化结果。实际应用中的落地形式,可以分为直接做投资决策和辅助投资决策,后者包括各种形态,比如情报(直接给数据,或者进一步的insight)或者工具(搜索引擎、封装的更好的统计回测工具)。

 

第一个思路是用NLP去分析新闻和一些UGC的舆情投资决策判断,这个事情有两点难点:

第一,舆情内容滞后性。大家的想法是针对市场上,比如说雪球上,大家根据这个舆情,希望知道市场风向,然后来引导决策。这里面的难点主要是在数据上,要对大众市场,对某止损的反应做迅速判断,核心是要赶在大多数人之前去做action,从数据上,要有民众对于一段时间窗口内都某个资产组合表达一定的观点,分析情感的正面和负面做决策。但这个窗口时间不能太长,因为如果时间太长,人家都action完了以后,再去做投资,其实就已经晚了。这个考虑时间序列做训练的话,数据比较稀疏,噪音很大,因为input的数据这端是非常开放的数据,当一段时间内只有一个用户发表一个观点的时候,这个用户的情绪对这个结果就有很大的影响这是针对UGC,包括整个Twitter数据、Ffacebook数据或者百度数据,可能都存在这样的问题。第二,宏观新闻和事件对交易的影响的信息过于开发复杂,要么容易overfitting要么很难显著。哪里地震了或者哪里刮台风了,对市场带来怎样的影响,这是宏观分析师的饭碗,做得好都不容易,只有一部分很小的专家能看懂,那么如果用supervised learning的正确答案标注就很困难。他可以构建一个知识图谱找到事件的相关性,但是如果做一个直接输出到买入卖出信号的模型,不容易。而且新闻不能复制,就是说从NLP层面,对作为input的feature也还要做很多工作来量化他们的相似性,训练也不容易、但是,泼了那么多冷水,也来点热水,机器在有限时间内人能处理更多的信息,并且记忆力更好。因此,原来分析师和基金经理的很多脏活累活都应该被我所提到的“工具和情报”替代掉很多,短期内把最终临门一脚的交易决策留给人。

 

第二个思路降到交易策略里面的专家系统。 这是一种技术门槛很低,几十年前就比较成熟的技术,把一群专家关于如何交易、如何形成策略的“模板”让大家去用,技术上这是一个体力活。这在金融领域应用的问题是,过去的专家经验对未来市场未必有用,他的可调整性就比较差。此外,刚刚黄徽也提到,如果少部分人通过算法和数据发现了α,基本上这部分人会拿着这个“result”自己做交易赚钱,而不会告诉别人,而帮助人们更高效的发现α的工具,是一个思路。比如,今天国内券商或者买方,它的基础设施确实比较差,它原本形成策略的过程会比较麻烦,要自己收集数据,清理数据,然后再去用传统软件去试不同的信号指标组合并回测等等,有些每次还有写点代码,我们看到有公司提供这样的工具:把整个发现策略的workflow理顺,把基础信号指标和一些公开成形的策略都封装好,并且有很好的可视化,类似一个library,可以直接调用。 让人做策略发现的过程可视化傻瓜化,人的智力聚焦在最难的事情上-策略组合本身。当然从生意模式上来讲,静态的library技术壁垒并不高,长期需要构建起SaaS业务的其他生意模式上的壁垒。

 

最后引出一个问题,关于传统机器学习和深度神经网络(DNN)的比较,传统机器学习在金融应用有很多优点。1)效果够用:传统的机器学习方法、决策树和专家系统这样的“泛人工智能”已经存在很多年了。比如美国对冲基金觉得数据挖掘工具能够帮助金融工程师找到一些pattern,比如说发现原来市场上持有大宗商品的周期可能是18个月,在过去半年中降低到了有3-6个月,可能给你一个insight说市场发生了变化。这个用传统机器学习方法,已经能做得很好,DNN知识可以提高一些层面的效率。 2)可解释性强。DNN的问题在于不知道特征尤其是当我们做征信的时候,我们需要知道为什么你被拒了解释给客户听,同时可能会改变整个风控部门的大策略,比如某一类客户的流量我就不应该去获取。


DNN还是在语音和机器视觉领域的提升效果最为显著,原因是因为底层是自然信号(音频信号和像素点),而NLP以及在各个行业业务数据挖掘的应用领域时,就涉及到很多“理解层”的底层特征-比如文字和语言是人类发明的,疾病部分描述是基于语言的,人的智慧在发现规律中就依然很重要。应试教育和医疗是比较典型的,考试教纲和医学指南基本是人类经验整理成的“规则”指导了人类教师和医生如何工作,它是有强大先验知识,当然如果要发现新的规则-真正如何decode疾病的一些通路,确实需要大量新的数据挖掘,且底层的特征(input)的量化标准化也是基础。

 

数据的互联是科学,更是艺术


段勇,Robin8 CTO


在这一点上,我也是有点分享。我觉得未来也是有这样的趋势,如果也许是自然语言处理或者语音,可能限制了我们的输入,但是过去七八年、十年,现在已经有新的方向,已经慢慢有一些冰山之角露出来了,而且有很好的应用,就是所谓的IOT物联网,就是万物即互联。万物互联不是单纯说通过手机或者怎么样才能访问信息介入,不一定是经过交流才知道我是谁,看外面的信息应该有个趋势,在2016年、2017年,手机在中国的出厂和售卖大概是5亿,这种设备是增长趋势,我们看报道,大概在2020年左右,智能设备的出厂率会超过手机。这是什么概念,就是人与人的交互,信息存储不仅仅是手机。未来很可能也许像谷歌在今年年初投了一个公司,叫出门问问,4000万美金,就是李志飞,我们以前也比较熟,是做机器翻译的。还有像腾讯在2015年就提出一个概念,叫TOS+,就是所谓通过安卓加一些东西,把它的能力向手机之外的设备输送。


所以,我想表达的观点是今后数据也许通过一定要人与人交互、一定要搜索什么、说什么才会互动,不一定了,未来可能很多其他的终端设备,也许是智能家居,也许是其他的一些东西,把个人消费水平、生活习惯,不仅是我个人,还有亲戚朋友,还有小孩,其实我的朋友圈就决定我的消费习惯,我的小孩子、我的父母在享受什么,也决定我的经济水平。我觉得这种大数据合在一起会对金融行业会产生很大的变化。


我个人判断,先别看中国,像google,google今年提出的谷歌助手,是为google home布局,也希望在美国布局智能+、智能设备,不仅是手机。像我们聊的IBM Waston,Waston真的不是简单的智能助手,它也是通过语音布局智能设备,还有其他都有。现在中国的话,前段时间Yun OS也对外发布了,我们的智能设备对外输送。我个人觉得这种智能设备物联网对信息的各种输入,我个人判断真的不会很远,就是三到五年之内会有很大的发展。原因是什么呢?是因为硬件本身的发展,就是智能设备本身的发展。硬件多方面的,一是也许很多创业者做机器人,无论是家庭的还是商城内的;还有的话,还有一个很火热的话题就是VR和AR,虚拟现实和真正的现实,这有点像我们会提到的多元。但是,我个人会觉得基于手机方面戴个智能盒子的虚拟直播,前段时间360号称把柳岩喊过来做虚拟直播,对它的PR流量确实有很大的增长。所以,我会觉得三到五年确实会有大的变化,这个变化是说其他非手机的终端设备,会给我们的生活带来很大的变化,会真的把数据能够链接起来,不是单纯的通过语音或文本,因为无论是语音还是文本,还会有很大的挑战。我稍微就加这么一点。


另外,我很赞同的观点是数据是鲜活的,而且要聚在一起的。比如说我曾经看到一家创业公司,在天津的(公司),它专门做什么呢?就是在电商领域的数据,当然要非常鲜活,而且规模化,它就是偏灰色。在港口的地方,有一些私人关系或者怎么样,政府的部分拿不到,但没问题,他和所有仓库的保管员有一点点灰色交易,他干嘛?每次出单的时候,什么公司出什么货什么价格马上拍照,拍完照之后,他甚至是人工输入到系统里,就形成了规模效应,就知道这个产品在中国大体出货多少,只是大体,价格大体是多少,去年与今年怎么样,他就形成一个很好的数据库,卖给谁?就卖给一般做进出口贸易的公司和生产厂家。但那个人很关键的一点是偏灰色,做不大,因为他是派人的关系,每个港口,去做的事情。但又很重要,因为国家公布得不一定是最鲜活的。甚至刚才谈的拍照众包模式,在中国也慢慢有人在做一些电子,不一定是众包,众包很多人在用了。


再举一个例子,像一般在一级批发市场里,如果从基地农田把白菜运到这里来,早上卖的价格一定是两块,过了两小时以后,一定变成一块五,再过半天以后,可能就变成八毛,但是一定有个价格差。因为我过来批发的价格,真不知道今天卖了多少钱,毕竟中国的农产品还是有很多聚集地,深圳和南昌,天津有一个(市场)。到底往哪里走,价格怎么办,不能给我打电话,都是从网上盘数据,很慢,真的还是通过拍个照,直接传过去,我拿到一手数据再给你,但你为什么会拿我的数据?因为我相对比较权威,我做品牌。我觉得今后也是一样。


数据制造商能做大的原因,说实话,现在的社会一定是走向共享社会,如果比如在电商,金融好,为什么存在价格差?就是因为效率还不够高,还有很多灰色地带,如果真的有可能所谓任何一个商品溯源,从最开始的原产品到基地,到一级市场、二级市场有很好的平台,把它的数据存积下来,而且分享。而且不仅是我个人做分享,是每个阶段的人愿意把数据进来,当然会产生经济效益。这样的话,会形成规模效应,而且很正规化。其实,已经有人在做了,只是还需要一些时间。


我做了十几年数据挖掘,从02年开始做数据挖掘,见证了很多算法演变的过程。我现在的观点是用什么样的方法,和要解决的问题有很大的关系。我会习惯把数据挖掘的问题分成两大类:

  

第一类是相对来说规律比较客观存在,它带有一定科学性,例如人脸识别、语音识别或者图像识别,信号这样的事情有很强的科学性、客观性,在里面蕴藏了很多科学的东西,例如声音如何转变为文字,科学性比较强。这样科学性比较强的一些问题,深度学习的方法的确有这样的优势,由于特征的提取和多层神经网络的运算,在科学性比较强的问题上有优势。

   

第二类是和业务非常紧密结合的风险问题,一个人的风险不能完全是科学的东西,比如说风险高和低,有很多角色,今天不谈风险高,如果挣了一笔钱,风险就不高了,不能说我这个人天生是高风险或者低风险。还有精准营销,不能说这个人天生就是这个手机的目标客户,可能今天我是这个手机的目标客户,可能明天就不是了,它随时在异变。它的这种异变随着我本身在不断发生,而我自身的一些偏好在变化。这类的问题充满了艺术性,充满了非常多的艺术性,我认为这种问题的建模成功率80%是依赖于对业务问题的理解,因为我们做了风控模型。我相信最大的成功要素是以后圈定好哪一些因子可能是潜在影响风险的因子,这个过程不是说深度学习帮你回答,而是建模工程师脑子里有这样的概念,然后再用深度学习或者是其他数据挖掘的算法论证。


我觉得,80%这样的问题完全取决于建模式的经验和思维方式,20%是选择用一个工具验证你的情况,训练出一个model。这20%在选择算法的时候,我认为深度学习也好或者传统的SVM决策树,其实差别没有那么大。这也是为什么在风控模型方面,没有一味追求非常复杂的深度学习的方法,而是用逻辑回归,可能很多时候就有非常多的gradient,因为我的好几篇文章是逻辑回归,它已经把模型做得非常好,这是我认为的两大类问题。很科学的问题,人脸识别、图象处理的确在用深度学习,把算法的准确度提高到很高,可能这是传统的逻辑回归搞不定的,完全逻辑回归做人脸识别,我相信怎么做都做不过深度学习。但是,如果逻辑回归用在征信的判断,我觉得它不是自身的点,80%是业务上的理解,这是我个人对深度学习怎么用的理解。


NLP里面有很多深度学习的算法,因为我觉得NLP里面有很多是科学的东西,相对科学性比较强,我就习惯于把这个问题进行判断,它是一个很科学的问题还是一个很艺术的问题。因为我经常做精准营销,我觉得营销这些问题非常艺术,不能说这个人的特征就注定了它就是你的营销目标,随时在改变。而且针对艺术性很强,举个例子,做感冒药的营销,是不是要推给正在感冒的人,精准营销是一种精准度的理解,因为每个人理解的精准不一样,你说我要卖感冒药的广告,今天坐在电脑面前的人,到底应该是一群什么样的人,是正在感冒吗?很显然不一定是正在感冒,可能这里面蕴含着很多精准的问题。其实,每个人都可能会感冒,订阅的人无论感冒还是没感冒,都应该有可能以后感冒的时候会想到这群人,而不应该是当前感冒的人是感冒药的精准目标客户,这就是艺术的问题,不是科学的问题。


其实,推荐是个很艺术的工作,它的艺术性和科学性,因为推荐本身里面有很多对人性的理解,有些东西并不是说要推的就是真的,因为一个人并没有存在真正想要看的东西。其实,我并没有想到这本书,Harry说我写了一本书,叫《打败facebook》,我肯定就想看了。因为推荐本身就是一个信赖的过程,并不存在我心目中已经有一个想看打造facebook,正好放在我面前,有可能有这种情况,因为我脑子里正好想到,突然一看今日头条给我推荐了,这时候我会surprise“哇,怎么猜到了”。你要看80%的情况下是你给我推什么,我就看,看完之后,我就满意。所以,这里面就不会存在,它有很多艺术,这个艺术有很多的逻辑。例如你的兴趣,多样性的话,不能一味只给你看这个,肯定要多元化发展,我看腻了,肯定需要一些别的东西。那么,这里面艺术性很多了。所以,构建一个推荐系统是非常复杂的东西。当然从算法角度来说,可以很简单。因为它是完全科学化,协同过滤,用户协同和商品协同,我一天就可以把框架搭好,但是你认为这样的推荐系统真的能够用吗?它肯定只能解决很小的一部分问题,这个很困难。我们自己做了很多年各种推荐系统,都会发现最终用户是一个个人,那个读者,那个人,心理的揣摩,这个人到底想干嘛,或者我给他什么会让他惊喜,是对这个东西的揣摩。如果把这个揣摩的点抓住了,这时候再用算法实现功能,怎么用算法支撑,这时候就有效了。所以很多时候算法还是受到大脑的支配,完成是大脑对它的支配,而不是算法支配我们。现在很多人做模型是用算法支配自己,学会了这种算法,挖空心思的想这几个算法能不能给我找到几个用户,这个思路有点反了。应该是大脑在想,我要做些什么,在寻找什么算法为我所用。

 

 深度学习不是唯一途径


赵云峰,机器之心创始人


其实,我们做过一些文章,也采访过一些人。简单来说,并不是说深度学习就一定是好,从现在来看,绝大多数情况都是传统的方法会更好一些,包括一些可解释性或者一些效果。我看到这篇文章有金融投资的钟豫栋,之前我们也跟他聊过,他没有用过任何深度学习的东西。他们在做的智能投顾的时候,还是用一些支持向量机,还有线性回归的方式。之前我们写过一篇文章,它更多的是在一些数据采集、数据量化,把一些事件性的东西量化了,做一些新的参数进来,其实它也没有用深度学习。


我特别同意刚才Harry说的,我们现在需要的是处理数据的智能工具,但现在很多人把深度学习当成了最佳工具,实际上根本不是这样。最简单来说,刚才提到了Waston,我觉得Waston最强的就是在推理决策,它现在的深度学习在推理决策方面做得非常一般,很多情况比起之前的方法差很多,但传统的线性方法更适合做推理决策。这是我对两种方法对比的观点。


在两三年前的时候,一开始我们建了读者群,群里很多小孩儿在讨论,他们做高频交易,用各种新的深度模型去试,试CNN,也试RNN,就是赚点小钱,他们也不懂,也没有金融理论,就是纯粹把模型拿过来,把数据丢进去做预测,能赚钱就赚,不能赚钱就算了,他们就纯粹是赌博,不能用金融理论解释,不具有代表性。

 

拥有一手数据就拥有主导权


曹江山,波士顿数据专家


其实,现在市面上有很多提供三方的数据源公司。各种运营商、包括说像银联、航旅,在市面上有很多这样的公司,有的是本身集团下面的子公司,就是帮助集团自己的自有数据,因为这个数据是自有性,别人买不到。帮助他自己做变现,还有就是大数据,现在很多人号称大数据公司,其实都是基于一手数据源下面的渠道公司,或者是二手公司,那些公司的数据用起来比较谨慎了,因为不知道他们的渠道,他们可能拿不到一手授权,包括数据质量都不是很高。


我想补充一下刚才数据即服务。我觉得数据即服务这个东西可能还是从细分化和应用场景,可能在某一个特定的应用场景,谁在这个场景下运用足够多的数据,谁在自己这个生态下有足够多的主动权,它会很容易建立起数据极服务,像滴滴在出行或者腾讯在游戏,以及阿里在电商,当然这个电商可以衍生出其他更多的东西,我觉得数据极服务会在更多细分领域出来,一个非常广泛跨领域跨平台。我觉得,这可能还是从每个人的生活行为或者工作行为来看,比如说出行,就像滴滴这种前端,或者像自动驾驶,或者车联网在汽车场景下,或者家居这个场景下。谁在这几个系统中,我觉得谁有主导权,谁就有可能去做出这样的东西。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存