查看原文
其他

易观智库CTO郭炜 | 大数据领域缺的是分析人才

2016-09-23 德先生
欢迎点击上方“德先生”进行订阅!


大数据和云计算已成为未来趋势,作为业内知名的大数据分析公司,易观是如何做数据分析的?近日,业内知名大数据专家、易观CTO郭炜接受了InfoQ专访,分享了他在易观做数据分析的经验和感受。


郭炜现任大数据分析公司易观智库CTO,负责公司的技术架构以及开发者生态产品研发、生态市场运营工作。加入易观前,曾任联想大数据总监、万达电商数据部总经理。


以下是专访全文:

为何加入易观?

提问:各位InfoQ的网友,大家好。现在我们是在QCon2016现场,今天做客我们专访间的是来自易观的郭炜老师。郭老师,先请你简单介绍一下自己。

郭炜:其实我是北大的本科研究生,当时毕业的时候选择了做数据这条路,我印象很深刻,我毕业论文写的是基于过程神经网络的客户流失分析做法,那个时候在做数据挖掘。毕业以后十多年经历了IBM、中金、万达电商、联想这样几家公司。其中在万达电商和联想负责大数据平台的建设。现在加盟了易观,我过去的经历基本上是这样的。

提问:能问一下你为什么会选择加入易观吗?

郭炜:其实加入易观,我也和我们的CEO一样考虑了很久。因为从大学开始到现在我一直在做数据相关的事情。数据这件事情有高峰、低谷、高峰这个过程。很多人说大数据得有数,你调研发现所有有数据的公司越来越多,未来每一家公司都会成为数据公司。

在整个数据和大数据行业里面,最缺的不是数据,而是数的背后能看出什么结果,人怎么拿它的结果反馈到真正应用生产流程里面,中间这个过程我们叫做分析,而这样一个分析的人才,在国内或者是国际,都是非常缺乏的。而这个恰好是易观最强的优势,因为它有非常庞大的分析师团队,有很强大的分析平台和分析报告,这些是在大数据时代里面是不可或缺的。

所以当时也是跟我们CEO聊,其实大数据各方面,过去很多都是人在做一些分析。现在易观有自己的大数据了,它现在有7.5亿的人数,每月有1.5亿的月活,把分析师建的人的模型,通过程序化的算法变成自动化的东西,出来人可以理解的结果,再看人怎么做决策,最终我们通过机器的算法去学习人的这些决策,最终形成一个闭环。将来让机器自己做决策闭环,我们插上比特的翅膀,让它自己的决策流程迅速转起来,这件事情我觉得从大数据领域来讲是不可或缺的,所以我在这个时候加盟易观,让它完成由人的模型变成机器化的算法,自动化的东西,是这样一个过程。

易观数据来源是什么?

提问:我看到易观有APP分析和网络分析,这两种有什么区别吗?

郭炜:目前整个易观的目标,它叫做互联网大数据分析公司。它现在自己有的数据主要是来自于移动客户端。我们会基于这些移动客户端各种各样的行为,来做一些分析的报告,帮助企业自己做相应的分析、运营的优化。

过去大家看到易观的分析报告都是某个行业,都是通过当年的调研问卷、访谈来做的。现在不是了,现在尽管是分析师对行业的理解,但是他的排名和领域已经是基于易观现有的大数据来计算出来的结果。易观榜单TOP500,以前是通过访谈和抽样调查做的,现在是通过7.5亿的客户行为做的,已经发生了比较大的变革。

提问:它后面是一整套完整的底层的系统在支撑所有的分析。

郭炜:对,我们用混合云的架构,云端大数据的实时运算,以及最后加工的展现和存储是一套的东西。易观已经不是过去大家想的,只是做报告的,全是分析师的公司了,它已经是一个技术产品公司,现在我们技术产品在易观已经接近一半的人员,另一半是分析师。

从人的分析到数据分析,遇到哪些挑战?

提问:这样一个转变的过程,从人分析到后面数据分析,这样一个过程当中,易观在技术团队方面踩过哪些坑,遇到过哪些比较大的挑战呢?

郭炜:前面说了为什么做混合云,一开始易观是一家强调云化的公司,我们一直希望我们所有的系统都是云化。但是我们的数据量级非常大,其实我们的大数据已经迁移过几次,现在我们希望国内有非常成熟的大数据的云服务,不仅仅我们说的IaaS或者是软件的PaaS,它们能够给我们提供大数据的云化,我们直接用它的云服务,底层希望通过合作伙伴来做,原来我们是这么执行的,但是我们发现数据量级到PB级以后,云化的厂商提供的性能都是有限的。我们特别希望能够把现有的云的厂商能提供像本地Hadoop一样好,这种公有云的服务,而且是非常稳定的服务,我们非常愿意试。我们发现这个东西在国外已经有这样的服务,我们也已经试过,国内的技术稍微有点差距,所以我们变成了混合云。

现在我们混合云的方式,云端用公有云,通过一些连接的方式直通到我们自己的大数据集群,既享受了云端混合云的优势,我们可以按需增加服务器,也能享受到下面大数据平台高性能的计算,通过这个方式来实现我们整个业务和结构框架。

提问:第二个呢?

郭炜:第二个就是大数据迁移和普通数据迁移不太一样。一是它的量级大,PB级的数据,你怎么迁,从云端迁到线下。混合云一定涉及到公有云,这种数据迁移不是从一个机架到另一个机架。同时我要求我们的数据在两个集群并行。

现在传输的终端每秒是78万次,高峰是100万次,这么大的数据怎么能并行起来,我们试了各种方式,最后我们才选择了今天混合云迁移的办法来解决这样的问题。我相信将来无论是大数据公司或者是任何一家企业,它们在做云化或者是混合云的时候一定会面临跟我们一样的问题,中间有很多坑,希望大家不要再踩了。

提问:对,因为现在很多公司一部分是往云上迁,一部分是保留自己的一些东西,现在混合云是非常灵活的云化方向。

郭炜:对,因为现在很多服务,特别像高并发,有时候云端还不能满足。因为它原来是小分享,现在在技术上还存在一定的瓶颈。

技术上如何保证数据准确又安全?

提问:我还有一个问题,你刚才提到了很多大数据的问题。我想说现在易观数据量这么大,怎么保证数据的准确性,另外也是由于数据安全的问题,在技术上是怎么保障的呢?

郭炜:先说安全性的问题,因为所有做大数据的公司都会涉及到隐私的问题。其实我们通过三层优化把这个优化掉。

第一层是模糊掉个人信息。因为我们做的是统计分析报告,个人在进入采集的时候,首先会模糊掉个人的信息,不会入到整个库里面。

第二层是优化渠道。因为我们要看整个趋势排行是怎么样,究竟从哪个渠道接进来的,这些渠道我们会模糊掉,你不会看到到底从哪个渠道上传上来的。

第三层是做计算池。模糊掉人和渠道以后,不是所有人的东西都可以到计算池里面变成分析报告的来源,因为我们要去掉有人故意刷单的数据,这些其实都不是我们的目标统计池人群,我们把这些东西放到统计池里面再变成相关的统计报告分析,这时候你基本上看不到相关的信息了,也保证了数据质量的问题,也保证我们统计池里面的数据全都是干净、稳定的数据。

提问:现在统计池的数据量大概是多大的量级呢?

郭炜:这个不能完全公布,我们整个社会数是7.5亿,其中很大一部分是在统计池里面的。

易观数据分析指标有哪些?

提问:你刚才提到把它弄到统计池会模糊掉很多信息,你们做数据分析的时候会对他们哪些关键的指标进行挖掘呢?

郭炜:大家可以看到易观各种分析报告,我们看到日活、月活、上升的趋势、留存、用户画像,要对这些做一些分析。对于每一个开发者来讲,他们都很关心自己的APP活跃程度到底怎么样,我的用户到底长怎么样,我的用户它的消费潜力到底如何,易观有相关的易观方舟产品,提供的技术是免费的,大家都可以使用这样的工具。

提问:其实这些点也是目标用户的痛点,也是他们感兴趣的点。

郭炜:对。

提问:怎么看待日活和月活。

郭炜:我觉得日活和月活,大家一般都知道。但是用户画像和应用评级,这两件事可能普遍开发者很难找到相关的服务,易观主要在这方面提供了相关的服务,能够把你的用户究竟是什么样的,他早上起来打开什么样的APP,你怎么样更好的运营你自己的APP,做一些相关的活动。

因为易观原来就做分析报告,他有很强大的分析模型,他在行业报告里面有一些分析。现在我们把这些模型摘出来以后,能让他在自己的APP上看,他的AMC模型是什么,这是易观的模型,通过程序化的算法现在提供免费的服务,将来可能有一部分高级功能会收费,但是现在这种是免费的。

提问:你刚才提到分析模型,易观现在有哪些比较常用或者说是比较受欢迎的的分析模型呢?

郭炜:现在最受欢迎的,我们叫TGI指数。因为现在我们一共有278个领域,我们拿金融证券来讲,我们能看到你的用户和全互联网用户的倾向性怎么样,我能告诉你,你的用户里面80%在互联网金融里面,它的指数非常高,意味着你的客群很多人都倾向于跟互联网金融下载相关的APP、活跃度高,如果你是普通的APP开发者,你将来可以跟互联网金融公司达成一些合作。我们把这些指数当成很重要的用户画像的基础和我们评估一个APP应用评价的基础,这是我们目前最受欢迎的分析模型,我们把分析师的分析模型程序化和自动化。

易观有哪些创新产品?

提问:我还有一个问题,虽然大数据易观做的特别好,最终还是要产品呈现来吸引用户。易观在这方面的数据产品,虽然都是一些分析报告或者是其他的结果,它在产品方面有没有一些创新的产品来吸引用户呢?

郭炜:刚才提到了两个创新的产品,一个是易观方舟的用户画像,我刚才在场内转了一圈,目前没有一家提供这样的功能。你的APP用户究竟是什么样的,可以画出来。再一个是应用评级,这是易观模型程序化的算法,给你的APP通过程序来自动化的跑一遍,相当于易观的分析师给你做专门的服务,只不过他是通过程序化的方法来做的。

提问:你刚才提到的应用评级是指应用的哪些方面呢?

郭炜:有几方面,一方面是用户的价值,比如说你自己的APP,你的媒体价值怎么样,你将来吸引客户投广告,游戏价值,你的客户是游戏的厂商,跟你可能有合作关系,因为你的用户大多数都非常喜欢玩游戏,可以买很多东西;还有一些消费价值,比如说网购。以及应用价值,APP使用的程度怎么样。

目前开放了四个,将来会有越来越多的模型给评价你自己的APP如何。

易观技术创新点在哪?

提问:产品应该算是比较创新的,我想问一下技术方面,易观在技术上有没有创新或者不一样的地方呢?

郭炜:一是混合云。国内我们做自己的混合云打法不多,大部分要么是公有云,要么是私有云。现在我们唯一把两边全部打通,这是我们其中的一点。

二是用抽样计算、模糊计算的方式,来满足客户实时查询数据的需求。

我们在做大数据计算的时候,很多人想可以实时查到非常大量数据的统计结果,这些东西在过去不太容易算,特别对于每家公司他的服务器是有限的,不像BAT那样,我们想做到高并发,而且有很好的客户体验。

比如说我是APP开发者,我的用户里面90后女性、爱购物、喜欢玩游戏的人,晚上十点钟经常打开哪些APP,TOP50多少,这个是自定义的查询,你要在7.5亿的大池子里查其实是非常困难的,而且他希望能看到实时的结果,这个时候我们用到抽样计算、模糊计算的方式,来满足客户的需求,这些东西是我们现在通过在大数据时代,先把小数据分析做到极致,在这个时代里面把这件事做起来,再通过小数据给人的反馈做决策,我们是这样来做这件事情的。

提问:我想问的问题大概就是这些,谢谢你的分享。

文章来源:易观国际


相关阅读

1.《决策知识自动化》| 多院士联合推荐,知识时代必读之作

2.从大数据到大知识: HACE + BigKE(一)

3.从大数据到大知识: HACE + BigKE(二)

4.DNA数据库:游走在科学与伦理的边缘

5.免费公开基因数据挑战隐私保护--你的基因组是家族共同的财产!!!



公众号D-Technologies 关注科技变革,探索科技热点。讨论现代科技对人类伦理、道德与文化的冲击!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存