创业5年的微软老兵:为什么数据科学平台是大势所趋?
The following article is from Fintech前线 Author 雨林
九章云极CEO方磊
“机器学习就是下一个数据库”
从数据分析角度来看,硬件提供的大部分算力目前都用在了数据库对数据的处理上,在整个产业不断发展的过程中新迭代出来的硬件会带来更多的算力被激发出来,现在机器学习或者说深度学习甚至是人工智能的模型也都需要消耗大量的算力,所以未来机器学习‘流行’起来的趋势还是非常明显的,而且这个赛道一定足够长,未来的前景也非常广。
导语
2017年,Gartner首次提出了“数据科学平台”的概念,同年,Gartner的研究表明全球数据科学平台的市场增长率已经是商业智能(BI)软件市场增长率的两倍,并预计2019年到2022年数据科学平台将得到大规模地应用。知名研究机构Forrester也在一份研究中表示,从2017年到2021年,数据科学平台市场的年复合增长率将达15%。
九章云极联合创始人兼CEO方磊博士近期接受了零壹财经的专访。这位前微软资深工程师2008年曾经作为早期骨干成员参与了微软云计算平台Azure的孵化与研发;2011年又加入必应(Bing)搜索团队,设计并开发了基于下一代大数据技术的索引处理架构以及基于机器学习的搜索语义理解。作为一个微软的“老兵”,回国创业5年的他这一次跟我们聊了聊他眼中的数据科学平台,以及为什么数据科学平台在未来能得到大规模应用。
2014年,在美国学习工作了10年的方磊决定回国创业,专注做数据科学平台。谈到创立九章云极的初衷,方磊脱口而出的一个英文单词是“Impact”,他说一直希望做一点“有影响”的事情,这也是创业5年来一直不变的初心。至于为什么选择做数据科学平台,方磊坦率地表示数据科学这个方向上的事才是自己最擅长的。
从开源说起
方磊在解释为何会选择数据科学平台这条赛道做商业探索时,特别提到了“开源”,“我们这个时代有几种比较有‘解构性’的力量,其中就包括‘开源’”。
以谷歌为例,一直以来谷歌都在极力倡导和推广开源,并发布了一系列开源项目。安卓和Chrome浏览器最开始只是单个的开源项目,现在基于这两个产品开发的插件和应用数量之多,已经构建起了庞大的生态圈。2007年以开源形式发布的安卓操作系统如今已经成为份额第一的移动操作系统。可以说,没有开源就没有谷歌今日的成就。
“虽然开源从一开始的时候就是反商业直觉的,但现在却已经成了计算机技术发展的核心推动力”,方磊认为,开源时代的到来让IT业发生了“质变”,“开源将导致整个IT交付模式发生巨大变化,今天的IT公司赚钱要比20年前困难很多,开源似乎让开发变得容易了,但IT公司的价值实现也相应变得困难了,理解客户的业务场景并证明自己的价值显得至关重要”。
在方磊看来,IT公司的价值如何实现要在选择商业赛道之时就做充分的考量。九章云极在成立之初“没有选择底层的计算组件,而是选择了与业务场景对接的中间层的分析组件”。方磊介绍说,“中间分析这一层稍微有一点万金油的感觉,本质上是把计算能力转化为业务需要的成果,所以它是和商业有一定关系的,它所构建的壁垒不完全是技术标准的壁垒,而是和业务场景相关的商业壁垒”。这里的“中间层”在九章云极的产品体系中主要指机器学习平台DataCanvas APS和实时决策中心DataCanvas RT。
“机器学习就是下一个数据库”,提及对行业发展方向的思考,方磊认为“从数据分析角度来看,硬件提供的大部分算力目前都用在了数据库对数据的处理上,在整个产业不断发展的过程中新迭代出来的硬件会带来更多的算力被激发出来,现在机器学习或者说深度学习甚至是人工智能的模型也都需要消耗大量的算力,所以未来机器学习‘流行’起来的趋势还是非常明显的,而且这个赛道一定足够长,未来的前景也非常广”。
如何看待数据分析的演进?
2015年曾经被经纬中国合伙人左凌烨称为“企业级服务投资的元年”,在企业级服务中经纬投资过很多SaaS相关的企业。“当时的SaaS都是非常容易理解的,比如用于开票和记账,就不是偏技术的SaaS”,方磊回忆说“刚回国的时候很多投资人还不知道机器学习是什么,也不知道九章云极是做什么的,那会儿的投资人还不是很看好我们这个方向,但到了2016、2017年,情况开始有了一些变化,因为人工智能兴起了,我很坚持从数据分析的角度来看人工智能兴起这个问题”。
方磊为我们梳理了一下数据分析的技术进展:“80年代开始就有了数据分析,当时是从数据库开始的,那时候只是把数据适配在一起做一些固定的事情,比如编制企业报表。到了2000年左右数据分析进入第二个发展阶段,我们称为BI可视化分析。这个时候的可视化分析就是用一些拖拽完成简单的饼图插图,也就是我们今天习以为常的BI分析做的一部分事情。
2015年以后,Gartner提出数据分析进入了‘增强分析’阶段,就是通过机器学习或者人工智能技术的加持增强数据分析能力。这里我们看到有一个从可视化分析进展到模型分析的趋势,可视化分析是通过视觉呈现产生一些洞察,但模型分析产生的洞察更强大,因为很多情况下的分析无法被有效可视化呈现,比如反欺诈分析中的数以亿计的交易”。
“整个数据分析我认为可以分四块”,方磊总结说,“第一块是数据仓库,就是数据的一个集合;第二块叫数据治理,就是要把数据的意义弄清楚,我们称之为‘元数据管理’;第三块是BI可视化,以图形化呈现;最后一块就是机器学习。从堆栈化的视角来看,最下面是数据,最上面是商业价值,而中间发生的所有事情都可以被看作是数据分析,所以说这个行业其实是一个非常大的行业。九章云极的核心就是把数据变成模型,为客户提供模型能力的技术工具或服务,以支撑各类商业场景。”
为什么需要数据科学平台?
在银行业中,客户流失是银行在日益激烈的市场竞争中需要面对的一大难题,而获客成本普遍高于老客维护的成本,因此从海量客户交易数据中挖掘出对客户流失有影响的信息,建立量化模型,合理预测客户流失风险是十分必要的。
方磊通过银行客户流失预测模型向我们解释了应用数据分析模型的必要性,“我们的分析师或者说数据科学家把这类业务问题转换成机器学习问题的第一步就是要定义什么是客户流失。比如一个人在银行的资产(包括购买的理财产品、贵金属、外汇等)三个月后下降了60%,我们就定义这个客户可能会流失。接下来就要解决如何保有这个客户,最常见的方法就是给他推荐相关产品,这就又涉及到推荐模型。任何一个具体的商业场景都是复杂的,中间还会切分成很多环节和很多的模型”。
方磊还举了保险业应用声纹识别解决骗保调查问题和应用图像识别解决车险核查问题,他认为“几乎所有的商业场景都需要考虑用机器学习和深度学习来做辅助,商业价值的实现路径已经开始有了变化,而这种变化背后就需要数据科学平台的模型能力做支撑。”
三个问题了解九章云极
1、九章云极是开发模型的算法公司?
方磊:“九章云极不把自己定位为一个模型算法的公司,我们希望客户能够自己完成模型的创建,这可能跟我们友商的定位是不一样的。有些很优秀的公司比如麦肯锡,比如埃森哲,他们是有很庞大的团队在帮银行做模型。
要做好一个模型,我觉得技术在其中占30%到40%,剩下的其实是业务知识。也就是说,如果不理解好业务就很难把模型做好,因为模型里会包含非常多的业务常识。比如小微贷款模型就需要考察企业的隐形负债风险,常年做审计的人应该知道,要考察的第一项就是借贷是否拆整为零:这家公司如果收到不同账号打款的总额是整额的话,其实是有负债风险的,有可能是去借了钱然后拆分打进来。那么这个事情是需要人的常识性经验来做判断支持的,需要他把这样的经验变成机器学习里面的一个特征,机器学习就可以做出相应的风险告警。
这种场景下数据科学家的作用就凸显出来,数据科学家是一个复合型工种,既要懂业务,同时又能够将业务问题转化定义为机器学习问题,然后他用数据分析平台这样的工具来解决业务问题。我们人类的很多常识是跟业务相关的,机器学习在某些方面可以洞察出微妙的数据信息,但有些还是需要依赖人的技能。我们虽然也为客户提供做模型的解决方案,将很多事情模板化,把难度降下来,这样就对入门客户简单很多,但我们不是一家做模型的公司,而是提供可以支撑很多模型的工具型平台的公司。”
2、九章云极是人工智能公司?
方磊:“人工智能是一个非常大的话题,在我个人来看,人工智能是一个非常泛化的问题。智能是个很有意思的事情,有人认为AlphaGO之后的叫智能,还有人认为听说读写叫智能,每个人的想法都不一样。九章云极的slogan是数据科学赋能企业AI,企业需要人工智能这个泛泛的说法就说明企业需要有一个‘大脑’,如何展现智能的一面其实有很多实现的途径,我认为数据科学是以数据为基础实现智能的一条主流路径”。
3、九章云极是大数据公司?
方磊:“这取决于如何理解大数据,很多人理解大数据公司就是有数据的公司,但我们不卖数据也不碰数据,只是在分析层面做文章,为企业提供工具型平台。”
方磊的数据科学人才观
方磊回忆,2000年他从清华毕业时市面上还有很多Excel学习班。“每一个新的技能出现的时候,会显得好像高大上或者很难,其实到最后它都变成了一个普遍的技能。我认为 ‘数据科学家’这个title的出现是BI可视化分析转向AI模型分析时所要求的技术能力的体现。现在相关工种的技能是向上迁移的,大众学到新技能的路径多了,技能的壁垒也就会相应降低。
数据科学家需要具备三种知识背景:计算机、统计以及应用数学的背景。一个好的数据科学家苗子或者想从事这个方向的人应该具备比较好的平衡业务和技术的能力。工具虽然在更新迭代,但相对于学习工具的难度,把业务问题转换为机器学习问题的难度更大,这部分角色更像是一个商业分析师。”
ToB业务出海是大势所趋?
服务全球客户,是方磊一贯的目标。他判断中国的ToB业务出海在3到5年以后会慢慢成为主流。对此他类比了一下国内游戏企业的ToC业务出海:“ToC业务出海很大程度上得益于苹果的AppStore,没有AppStore以前美国人在感恩节买中国的游戏是不可能的,而现在就很简单,直接放在AppStore上全球用户都可以下载使用了。也就是说业务的线上化让跨境竞争变得相对容易。
ToB业务出海在以前是更困难的,但现在ToB业务有一个类似AppStore的接入场景,那就是云。亚马逊的AWS和微软的Azure在美国的市场份额可达70%,美国的大公司业务现在基本都部署在云上。当企业都在云上开展业务以后,云就成为一个很大的入口,在云上我们就可以去提供全球服务和参与竞争了。我能看到ToB业务的出海一定会经历这个过程”。
开放银行模式带来的机遇与挑战
“开放银行从流程自动化转到决策的自动化,这个就是我们最大的机会”,这是方磊认为开放银行模式能给九章云极带来的机遇。“目前银行正在从交易型结构转向认知型结构,开放银行则会加速这个过程。开放银行模式是基于场景的,在接触不同的业务场景后需要做的业务决策就变多了,所以我们向银行输出的核心能力是帮助银行从流程自动化转向决策自动化。”
“开放银行在我理解还是把流程自动化的能力开放出来,决策自动化的能力银行还在慢慢构建当中。以前银行业务自动化主要做的纯粹是流程,比如存、贷、汇业务的流程自动化,但现在银行思考更多的是如何吸引客户存的更多或者如何降低放贷的风险,过去银行是靠人来做这些决策,慢慢这些都可以通过模型来决策了。到了开放银行时代,由于场景的丰富性,各种各样的业务都更加需要和依赖决策的自动化,模型的价值、数据科学平台的价值就凸显出来,这就是九章云极的机遇所在。”
Fintech前线
扫描右侧二维码添加作者(添加时请注明身份),邀您加入零壹财经·Fintech前线读者沟通交流群