Gartner:伙计们,你们搞错Hadoop和Spark了,它们可能会失败!
开发人员想要全新的产品,用户忘了集成,还有不给力的供应商……
你试图让部署的Hadoop或Spark系统正常运行起来,但可能无法如愿以偿,这一方面恐怕归咎于你抱着以为它们就是灵丹妙药的幻想。
这就是知名调研机构Gartner的研究主任尼克·霍德克(Nick Heudecker)在该公司召开的2017年悉尼数据和分析峰会(Data & Analytics Summit 2017)上发表的一场演讲的核心内容。
霍德克以形势严峻的预测作为开场白:今年部署的Hadoop系统中多达70%将无法实现预期的成本节省或希望带来新收入这一目标。他表示,那些失败归咎于缺乏训练有素、经验丰富的人员。缺乏培训还将意味着:一旦Hadoop部署并运行起来,会出现令人无语的时刻:这位分析师表示,他经常从新用户那里听到的第一个问题是,他们如何才能果真让数据进出那个全新的Hadoop集群。他还觉得有必要忠告与会者在开始具体实施之前,制定好数据质量和安全计划,因为事后对这类计划修修改改很常见,也很不明智。
他还认为,企业组织在上马Hadoop和Spark项目时对于自己能够做什么抱有不切实际的过高期望。他表示,这两种工具都取代不了数据库或现有的分析工具。
霍德克半开玩笑说:“有个客户每隔七个月打一次电话给我,说他们把数据仓库换成了Hadoop,真希望他们准备好了简历。”
想成功使用这任何一种工具,就要了解它们擅长处理什么任务,为它们分配目前的分析工具无法胜任的新角色。但是对开发人员也要严厉,因为他表示他们“总是一味追求全新的产品”,却很少考虑更广泛的关注点。结果就是,你可能不需要Hadoop或Spark。
比如说,Hadoop非常擅长快速地执行提取、转换和加载(ETL)操作,但是处理SQL的功能并不是很出色。Hadoop还阻碍了机器学习或其他高级分析任务,原因就在于它是以存储为中心的。这种质量意味着,如果部署在企业内部,成本也会很高昂;在企业内部环境下,你需要备齐存储、计算和存储等资源。相比之下,在云端,可以单独购买计算资源和存储资源,节省一些现金。
因此,霍德克认为,云是运行Hadoop的再自然不过的地方。他补充道,AWS可能是就收入和规模而言全球最大的这种工具的用户。
这番道理同样适用于Spark,它是为内存中处理而设计的,因此适用于价格不菲的硬件。但是它对机器学习而言也很出色,而其他分析工具根本就不是为处理这种工作负载而设计的。
需要考虑的另一个事实是,Spark发展迅速,快至五个星期就发布点版本(次要版本)。因此,采用Spark还意味着频繁升级以便保持安全。这位分析师建议,坚持立场,按照自己的日程、而不是按照供应商的日程来更新。
霍德克发现许多公司经常掉入的一个陷阱是,任由供应商把整套Hadoop或Spark架构卖给自己,现在这种架构包括多个软件包,并不是说所有软件包都是基本业务运营必不可少的。他表示,只购买自己需要的部分,所以领先供应商提供的这两种工具的发行版现在都包括缩减版软件包是明智之举。
他表示,这方面还有另一个风险,那是由于仍然只有RedHat这一家专业的开源公司其年收入突破数十亿美元这个大关。因此,预计Hadoop和Spark行业领域会有变数。
但是一旦你训练自己的人员,找到一个值得上马的项目,深入比较云与内部部署各自的成本,搞好安全和数据质量,让你的开发人员切合实际,并与一家稳定的供应商建立牢靠的关系,那样你才有相当大的成功机会。
谁有兴趣吗?
相关阅读:
到2021年,Hadoop大数据分析市场产值将达406.9亿美元