查看原文
其他

Hadoop和大数据正式走到头了:13个相关的Apache开源项目宣布报废

开源社 2021-04-22

The following article is from 云头条 Author 小云

点击上方“开源社”关注我们




| 作者:小云| 转载自:云头条| 编辑:钱睿| 设计:杨敏| 责编:沈于蓝

看起来 Hadoop 和大数据的光辉岁月正式走到头了。


Apache 软件基金会已在短短11天内宣布报废13个与大数据有关的 Apache 项目,其中包括 Sentry、Tajo 和 Falcon。
 
昔日大数据领域的宠儿 Apache Hadoop 早已过气,最近这已不是什么秘密。不过自4月1日起,Apache 软件基金会(ASF)已宣布将至少19个开源项目“束之高阁”(Attic),其中13个项目与大数据有关,其中10个项目属于 Hadoop 生态系统。

光荣榜



虽然宣布报废单个项目似乎微不足道,可是从整体上来看,它们无异于一起分水岭事件。为了帮助从业人员和行业观察人士充分认识到这次大数据开源重组带来的全面影响,盘点一下似乎很必要。

考虑到这点,与大数据有关的已报废的 Apache 项目包括如下:

  • Apex:这个统一的平台面向大数据流和批处理,基于 Hadoop YARN。

  • Chukwa:这个数据收集系统用于监控大型分布式系统,基于 Hadoop 分布式文件系统(HDFS)。

  • Crunch,它提供了一套框架,用于编写、测试和运行 MapReduce(包括Hadoop MapReduce)管道。

  • Eagle:这种分析解决方案用于立即发现大数据平台(包括 Hadoop )的安全和性能问题。

  • Falcon:这种面向 Hadoop 的数据处理和管理解决方案,为数据移动、数据管道协调、生命周期管理和数据发现而设计。

  • Hama:这种用于大数据分析的框架在 Hadoop 上运行,基于 Bulk Synchronous Parallel 范式。

  • Lens:提供统一分析界面,将 Hadoop 与传统数据仓库集成起来,如同一个整体。

  • Marmotta:一种面向链接数据的开放平台。

  • Metron:专注于实时大数据安全。

  • PredictionIO:这种机器学习服务器用于管理和部署生产就绪的预测服务。

  • Sentry:这种系统用于对 Apache Hadoop 中的数据和元数据执行细粒度授权。

  • Tajo:Hadoop 上的大数据仓库系统。

  • Twill,使用 Hadoop YARN 的分布式功能以及类似运行中线程的编程模型。


房间里的大象



上面这份名单很长,而且是一份还包括非大数据项目的更长名单的一部分。很显然,Apache 软件基金会正在做一番清理工作。此外,由于 Cloudera 和Hortonworks 合并,Sentry 和 Metron 实际上已遭弃用,对应的Ranger项目和 Spot 项目改而受到追捧。两家公司共同支持这所有四个项目,只有一对项目才能取得胜利。

这桩合并本身植根于大数据市场的合并。可以说,这起大数据合并还能解释上述报废项目的整份名单。退一步说,在不到两周的时间内宣布报废所有这些项目值得关注。

官方说法



ZDNet 编辑 Andrew Brust 向 Apache 软件基金会询问了有关清理大数据项目的情况。Apache软件基金会的营销和公关副总裁 Sally Khudairi 通过电子邮件回复道:“Apache 项目的活动在其一生中起伏不定,这取决于社区的参与情况。”Khudair i补充道:“从项目管理委员会(PMC)内部到投票决定将项目束之高阁的理事会,我们审查和评估数个 Apache 项目的活动有所加大。”Khudairi 还表示,Apache 软件基金会 Apache Attic 副总裁 Hervé Boutemy“最近通过‘春季大扫除’,在过去几个月清理掉了准备报废的十几个项目,一直非常高效。”

尽管 Apache 软件基金会声称这次大数据清理活动只是常规项目报废一下子集中而已,但很明显,大数据领域的形势已发生了变化。Hadoop在开源分析技术的霸主地位已让给了 Spark,Hortonworks 与旧的 Cloudera 之间项目无意义重复的现象已被终止,而这些项目当中优胜劣汰的自然选择业已完成。

不妨注意点



同样很显然,在大数据世界,Apache Sentry 方面大笔投入的众多供应商和客户现在将需要弥补其损失,继续前进。这个残酷的现实带来了几乎适用于每个技术类别炒作周期的教训:社区为之兴奋,开源技术遍地开花,生态系统确立起来。但是那些生态系统并不是永生的,几乎任何新平台(无论是商业平台还是开源平台)都存在固有的风险。

用 Apache 软件基金会的 Khudairi 的话来说:“每个项目背后的社区确保其代码的活力(‘代码不会自行编写’),因此社区在某个项目上改变步伐的情况并不少见。”换句话说,先进技术令人兴奋,但早期采用者要提防:先进技术也存在着变数。要小心,管理好风险。






开源社简介


开源社成立于2014年,是由志愿贡献于开源事业的个人成员,依“贡献、共识、共治”原则,所组成的厂商中立、公益非营利的开源联盟,是最早以“开源治理、国际接轨、社区发展、开源项目”为使命的开源组织。开源社积极与支持开源的社区、企业以及政府相关单位紧密合作,旨在共创健康可持续发展的开源生态,并推动中国开源社区成为全球开源体系的积极参与及贡献者。






相关阅读 | Related Reading



我们需要什么样的开源教育?


GitHub Insights from 860 Million Event Logs of 2020


源来是你第四期发布啦



欢迎大家点击阅读原文查看原文


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存