数说(之二)·谈谈大数据产品的选型
人生中最困难者,莫过于选择。 ——(英)莫尔 |
上期回顾:《大数据建设误区》统一认识,是开展大数据战略的第一步,详细文章见数说 • 大数据项目建设误区
目前很多企业已经认识到了大数据技术的重要性,于是信息管理部门天天被大老板敦促赶紧上马大数据项目。尽管技术人员信心满满、摩拳擦掌,准备大干一番的时候,却发现面临的第一个问题就是如何选择大数据产品——就像马上要上战场的士兵还没有选好武器一样。
我们在做企业信息化系统时,似乎从来没有把产品选型当成一个大事情。比如采购桌面系统,基本上是微软或者苹果系统,服务器系统主要是Unix或Linux或windowsserver,数据库Oracle、DB2、MySQL,ERP套件主要是SAP、Oracle……诸如此类,选择不会太多。反观大数据领域,网上的产品比比皆是,不管什么类型的软件,都号称采用了大数据技术,这让我们有点手足无措。
如果说好的工具能让我们事半功倍,那么什么是一款好的大数据产品呢?说到这里,可能有些读者迫不及待的往下文去找“结果”了。别着急,选大数据产品前,首先回答一个问题:
“目前我们是以大数据为业务的组织吗?”回答这个问题的时候,我们需要考虑企业的主营业务是什么?如果是银行、电信、物流、制造等这些非IT行业,其信息化部门可以不用考虑自己从头搭建一个大数据平台。请注意一个关键词——“目前”,有些企业上了大数据后,发现能给企业带来非常大的利润,于是大力投入,甚至独立成立大数据公司来运作企业数据。如果近期预期通过大数据技术获得回报的,可以考虑自制大数据产品。不过在此之前,要重新考虑其投入产出比。
“公司对于大数据投入的预期是多少?”在云栖社区近期进行的一项调查中显示大数据已经成为信息化长远发展的共识,但由于对数据认知度的局限、大数据产品服务的不足和市场教育的缺乏,有相当多的企业并不清楚投入多少才是合理的。
图云栖社区《2017中国开发者调查报告》
除了平台本身,人力成本也是大数据投入的主要方面。目前大数据人才缺口严重,薪资比较高,一般集中在互联网企业和大型软件公司中,招聘合适的研发人员较为困难。从头搭建一个完整的大数据平台是耗资巨大的,以下是笔者以前接触过的一些厂商的反馈,不一定是官方数据,仅供参考:
厂商一 | 厂商二 | 厂商三 |
从2009年进行产品预研到2013年发布第一个商用版本,大约600多名研发人员,花费4年以上时间。 | 从2011年开始研究和建设大数据平台,在6年时间里,300多人研发人员持续优化,打造稳定、高性能、易用的大数据平台。 | 2013年开始,约200多名技术研发人员,在近2年时间发行相对稳定的商用版本;后续保持200多名技术人员持续优化升级完善。 |
从上文对比可以看出,实际市场对大数据的投入是偏低的,可谓是“雷声大、雨点小”。所以一旦确定了大数据战略,那么应该是持续性的,符合性价比的投入方案,例如在某些特定场景先行应用大数据平台,而不是全面推行。
“我们选哪种类型的大数据平台?”一旦确定了企业对于大数据的战略、目标和投入预期,接下来就面临如何选择大数据平台产品的问题了。从CSDN《2016年度中国软件开发者白皮书》来看,国内还是使用商业版大数据平台的企业较多(34%+28%=62%)。其原因还是开源社区版本的大数据软件在稳定性上和商业版尚有不少差距,单靠企业自身能力难以对其进行深度改造和完善。
图企业搭建大数据平台情况(CSDN)
市面上号称大数据的产品不少,有提供一站式服务的大型平台、专门提供分析服务的软件、有专门分析网络日志的工具……到底我们如何选择呢?好,请回答下个问题:
“我们到底要用大数据干什么?”现在国内的大数据场景常见的有以下几类,笔者说明一下需要考虑的大数据组件,供读者参考。
序号 | 大数据场景 | 组件选择范围(包含但不限于) |
1 | 统计分析、数据可视化 | 大数据存储组件、大数据可视化组件、大数据实时处理组件、大数据批量处理组件 |
2 | 运维日志处理、实时监控 | 大数据存储组件、大数据实时处理组件 |
3 | 画像建模、精准营销 | 大数据存储组件、大数据挖掘组件、大数据可视化组件 |
4 | 基于大数据的业务系统 | 大数据存储组件、大数据挖掘组件 |
5 | 非结构化数据处理 | 大数据存储组件、大数据批量处理组件 |
6 | 数据租售服务 | 大数据存储组件、分布式数据服务组件、数据权限管理组件 |
如果真不知道要干什么,好吧,可以选择一些大的综合性平台,像国外的有Cloudera、Hortonworks、MapR的产品,国内有阿里、华为、星环、联想等。但是成熟的大数据平台往往投入不菲,需要慎重考虑。
最后笔者结合以往经验给出几点建议:(1)没有大数据平台研发能力企业建议采用商用软件
这里是指大数据平台的产品研发能力,不是应用开发能力。因为可以称之为产品的大数据平台架构复杂,开发周期长,投资巨大,前文已经有所表述,不再赘述。
(2)尽量选用采用通用大数据技术的产品
尽管有些大数据厂商的技术非常先进,实施案例也比较丰富,但是从通用性、平台迁移成本考虑,还是建议各位尽量选择基于通用开源技术的商业产品,因为一方面闭源的产品在后期的维护、升级定价比较容易被厂商垄断;另一方面对于通用产品应用研发,企业自身招聘IT人员的选择范围较多,人力成本相对较低。
(3)先规划大数据场景再进行选型
大数据技术能结合业务的场景比较多,但不同的场景所需要用的大数据组件不同(前文也有所讲述),所以需要根据业务场景来综合考虑选型问题。另外,大数据平台的产品组件也不是越多越好,部分组件对于硬件环境要求、配置参数方面是相冲突的,因此有些大型企业的大数据平台往往不止一套,而是多套,每个平台都有其对应的一些业务场景和使用范围。
企业构建数据分析项目常见的最大问题往往是贪大求全,特别是首次开展大数据项目的企业,项目执行团队很有可能会被要求构建一套既没有“明确功能范围”却要求“适应各种业务场景”的解决方案,造成项目成本高昂且工期很长。项目执行团队不如在安排项目计划时,采用小规模快速实施的“速赢阶段”应用,让决策者很快可以看到成效,提升他们对同类项目的信心,然后再按部就班的实施后面的深度应用。
题外篇
IT青年问禅师:“老板整天都让我研究新技术,昨天刚弄完云计算、今天让搭建大数据平台,什么时候才能走上人生巅峰,迎娶白富美啊?”
禅师默默指了指山下不远处的中石化加油站。
青年顿悟道:“大师我明白了!您的意思是人生就像车子一样需要不断加油,才能驶向成功的目的地吗?”
禅师怒道:“你这个棒槌,中石化早就采用了大数据技术,你还发什么感叹,赶紧去学习一下吧。”
石化盈科大数据平台介绍请看石化盈科大数据平台介绍
汪晋,石化盈科数据业务部项目总监,曾先后在联想集团、神华集团工作,长期从事数据仓库、智能分析和大数据项目的建设,熟悉能源行业(煤炭、电力、化工)和制造行业。
END
热门文章
做数据治理行业的工匠者 ——浅谈物料主数据实施难点、策略及方法步骤
邮箱:ccjiu@163.com
QQ:174856958
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。