Hadoop迎来第10年:里程碑和发展势头
今年1月份,Hadoop迎来了十周年生日,这种开源框架用于处理非结构化数据和分析。下面不妨看一下共同见证这项突破性技术发展历程的里程碑、厂商和重大事件。
还是让时光倒回到2006年。那时Facebook还是一家成立才两年的初创公司,由一个身穿连帽衫的二十出头的小伙子打理。几个企业家联手起来,推出了一种名为Twitter的新型社交媒体服务。那年12月份,全世界离看到iPhone横空出世还有六个月之久。那是不一样的时期。
那时,消费者并不是走到哪里都随身带着装有众多传感器、配备摄像头的数据采集设备,习惯将点点滴滴的想法、情感还有美食都发布到社交媒体上。许多公司在考虑数据时,考虑的是企业资源规划(ERP)和客户关系管理(CRM)系统里面的结构化数据,以及他们如何可以为企业高管制作更准确的商业智能报告。
就是在这样的大环境下,一种名为Hadoop的新技术诞生了。它起初只是一种框架,以支持一种名为Nutch的搜索引擎项目。Nutch的几位开发者需要一种方法来存储和处理收集的海量数据,以便供搜索引擎使用,于是他们从一家处于成长期的硅谷新兴企业:谷歌发表的几篇论文获得灵感后, 开发出了一种新的软件框架。
这两位开发人员就是道格·卡廷(Doug Cutting)和迈克·卡夫拉(Mike Cafarella),他们俩最后加入了名为雅虎的另一家公司,当时雅虎在苦苦保住对谷歌这家后起之秀在网站访问量这个方面的优势。他们俩在雅虎负责设计分布式文件系统和并行处理框架,后来命名为Hadoop(名字来自卡廷儿子的一头毛绒玩具大象)。雅虎最后将Hadoop送到了开源组织Apache基金会。开发工作继续进行,旨在让这种当时还没有完全准备好迎来黄金时期的分布式存储和处理系统具有更强的扩展性。
如今,Hadoop已进入了一个新阶段。负载处理方面的改进以及附加项目已经将这个软件框架变成一种功能强大的工具,广泛用于许多大公司,包括Facebook、Twitter、电子港湾(eBay)和Salesforce。Hadoop现在确实似乎准备好了迎来属于它的黄金时期。
在弗雷斯特研究公司发布的《Forrester Wave:2016年第一季度大数据Hadoop发行版报告》中,这家知名调研公司说:“企业Hadoop是一个历史连10年还不到的市场,但是我们估计,在今后两年内,100%的大企业会全部采用[Hadoop及Spark之类的相关技术],用于分析大数据。”
为了庆祝Hadoop迎来10周年,不妨与我们一道回顾Hadoop发展史中的一些里程碑、主要厂商和重要发展。
贵企业是Hadoop用户吗?它是不是你在为贵企业考虑采用的技术?我们是不是漏过了某个重要的里程碑?欢迎留言告诉我们。
Cloudera是提供主要的开源Hadoop商业发行版的三大公司之一。
2008年,谷歌、雅虎和Facebook的三名工程师以及甲骨文的一名前任高管共同创办了这家公司,并于2009年发布了其第一款Hadoop发行版。作为Hadoop的开发者之一,道格·卡廷在这家总部位于加州帕洛阿尔托的公司担任首席架构师。
Cloudera从硅谷的许多老牌投资者获得了资金,但是芯片业巨头英特尔在2014年3月获得了该公司的大多数股权。
MapR是三大Hadoop发行版公司中的另一家,总部设在加州圣何塞市,2009年由首席执行官约翰·施罗德(John Schroeder)和首席技术官M·C·斯里瓦斯(M.C. Srivas)创办。迄今为止,这家公司从包括谷歌资本(Google Capital)在内的投资者处获得了总额1.7亿美元的资金。施罗德在几次采访中表示,这家公司考虑在不久的将来首发上市。MapR最近聘请甲骨文公司的老兵马特·米尔斯(Matt Mills),担任首席运营官和总裁。技术合作伙伴包括谷歌、EMC和Talend。2015年9月,这家公司通过AWS市场来提供其Hadoop发行版。
Hortonworks是三大Hadoop发行商之一,于2011年从雅虎分拆出来,成为一家独立公司。该公司分拆时,雅虎和标杆资本(Benchmark Capital)为它提供了2300万美元的种子风险资金。埃里克·巴尔德施维勒(Eric Baldeschweiler)曾在雅虎担任Hadoop开发副总裁,他担任创始首席执行官,不过在2013年离开了公司。
这些年来,这家总部位于加州圣克拉拉的公司与微软的Azure云平和SAP达成了合作伙伴关系。
2014年12月,Hortonworks首发上市,筹资1亿美元。
弗雷斯特研究公司的Wave报告提到了另外两大Hadoop发行版:IBM BigInsights和EMC的Pivotal HD Hadoop发行版。两者都是规模大得多的公司内部开展的Hadoop项目,服务于大数据之外的其他许多市场。弗雷斯特公司认为三大厂商和IBM是领导者,并表示Pivotal表现不俗。
虽然Cloudera、Hortonworks和MapR都已经全部发布了各自的Hadoop发行版,Apache软件基金会却直到2012年1月才发布这项技术的版本1.0。它在博文中宣布了新闻:“该项目的最新版本标志着这是六年来的重大里程碑,并取得了对得起1.0版本这个称号的稳定性和企业就绪性。”
2012年还标志着第一届Strata +Hadoop大会成形,现在已经在全球各地举办一系列盛会。有志于数据科学的与会者了解新的发展、产品发布、用户组织介绍的案例研究等等。这次会议始于硅谷、纽约和欧洲的三项活动(现在它们成了一年一度的盛会),此后扩大了范围,去年增加了新加坡,今年增加了北京。
虽然Hadoop让许多人为之兴奋,但是与大多数新技术一样,它并不容易使用,而且拥有所需技能的人为数不多。另外,它被认为速度偏慢。
这时Spark登场了。该技术旨在改进Hadoop架构。它让开发人员可以使用Java、Python、Scala或R编写应用程序。据Apache软件基金会声称,Spark在内存中运行程序的速度比Hadoop MapReduce快100倍,在磁盘上运行的速度快10倍。
Spark现在是大数据领域最活跃的开源项目,过去12个月的贡献者数量超过600个。Spark还让众多专家和技术公司为之兴奋,竭力让大数据架构的发展更上一层楼。
IBM分析部门的产品副总裁罗布·托马斯(Rob Thomas)告诉《信息周刊》杂志:“Spark有单一的编程模型,并且能够分析来自所有数据源的各种各样的数据,这让它有望在业界带来就像Linux在本世纪初带来的那种影响。Linux是一种面向系统和计算机的操作系统。Spark会成为数据分析方面的操作系统,会影响如何访问数据。”
2014年,Spark成了为Apache软件基金会的一个顶级项目。
许多企业对这项技术颇感兴趣,但Hadoop在过去并没有成为重大的优先事项。随着更多的企业希望借助实时数字化解决方案,这种情况可能会发生变化。
去年,Gartner公司进行了Hadoop采用调查,包括调查了Gartner Research Circle的284个成员。据报告声称,只有26%的调查对象表示,他们在部署、试点或尝试Hadoop。在其他的调查对象当中,11%的人表示,他们计划在12个月内部署该技术,7%的人表示他们计划在24个月内部署该技术。
如今,Hadoop成为一些最成功的数字原生代初创公司的基础,而优步(Uber)就是个广大人知的例子。使用Hadoop的其他企业组织包括AOL、Facebook、IBM、LinkedIn和Twitter。
据联合创始人道格·卡廷声称,Hadoop还用于改善医疗效果、支持在线约会服务以及更多应用。卡廷表示,他认为Hadoop现处于发展初期,是开源开发社区的成果。外界对它确实抱有浓厚的兴趣。迅速浏览一下谷歌趋势,就能发现Hadoop的搜索量在过去的10年大有增长,而商业智能的搜索量却出现了下降。
云头条编译|未经授权谢绝转载
相关阅读:
Gartner发布2016年数据仓库和数据管理解决方案魔力象限
Gartner 2015新兴技术发展周期简评:大数据实用化、机器学习崛起
Google 开源云端大数据处理平台 Cloud Dataflow
欢迎加入,群主微信:aclood