查看原文
其他

Apache Hadoop 3.1.0重磅发布,终于支持GPU和FPGA了!

2018-04-08 万众期待的新版本 AI前线
策划编辑|Natalie
编译|Debra、无明
AI 前线导读:4 月 6 日,Apache Hadoop 正式发布了 3.1.0 版本,这是 2018 年 Hadoop 3.x 系列的第一个小版本,较之前的 Hadoop 3.0 有了一些重大改变。需要注意的是,这个版本还不适用于生产环境,如果需要在生产环境下使用的用户还需等待 3.1.1 或 3.1.2 版本发布。但 3.1.0 也有其重大意义,因为它终于支持 GPU 和 FPGA 了。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
重大改进

Hadoop 3.1.0 版本带来的重大变化简要介绍如下:

  • Yarn Service 服务框架为在 YARN 上长期运行的服务提供支持,作为一个容器编配平台来管理运行在 YARN 上那些被容器化的服务,支持 Docker 容器和传统容器。


    详情参见:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/yarn-service/Overview.html


  • YARN 支持基于 GPU 的调度和隔离(Docker 和非 Docker 容器)。


    详情参见:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/UsingGpus.html


  • YARN 支持基于 FPGA 的调度和隔离(Docker 和非 Docker 容器)。


    详情参见:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/UsingFPGA.html


  • 在 YARN 中支持更多的配置约束。这些约束对于应用程序的性能和弹性至关重要,尤其是那些包含长期运行容器的应用程序,如服务、机器学习和流式工作负载。在同一机架上调度有关联的任务(相似性约束)可以降低网络成本,在机器之间分配任务(反亲和约束)以便降低资源干扰,或者限定特定节点组的任务数量(基数约束)以在两者之间取得平衡。


    详情参见:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/PlacementConstraints.html


  • 支持管理员为队列指定具体数目的资源(比如具体的内存数量、vcore 核数、GPU 等),而不是提供基于百分比的值,这让管理员能够更好地控制给定队列配置所需的资源。


    详情参见:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html


  • 3.1.0 提供的存储允许将存储在 HDFS 之外的数据映射到 HDFS,并从 HDFS 进行寻址。这是一种异构存储,通过向 DataNode 中引入新的存储类型 PROVIDED 来实现。


    详情参见:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-project-dist/hadoop-hdfs/HdfsProvidedStorage.html

其他更新

3.1.0 版本中,Hadoop 社区修复了 768 个在 JIRA 记录的问题(https://s.apache.org/apache-hadoop-3.1.0-all-tickets),包括:

  • 与 Hadoop Common 有关的 141 个 ,其中包括 S3/S3A/S3Guard 相关改进

  • 与 HDFS 有关的 266 个

  • 与 YARN 有关的 329 个

  • 与 MapReduce 有关的 32 个

更多改动参见官方 Release Notes:

http://hadoop.apache.org/docs/r3.1.0/hadoop-project-dist/hadoop-common/release/3.1.0/RELEASENOTES.3.1.0.html

Hadoop 老矣?

Gartner 在 2017 年 9 月发布的一份关于数据管理的技术成熟度曲线显示,由于整个 Hadoop 堆栈的复杂性和可用性问题,许多组织已经开始重新考虑其在信息基础架构中的角色。Gartner 认为,Hadoop 已发行版本已经被淘汰出局,未能进入实质生产的高峰期 (Plateau of Productivity)。与此相对,企业正在寻求其他更有竞争力、更加便捷的基于云的产品。

Hadoop 是否真的老矣?此次 3.1.0 版本发布的几项重大改进,能否给这个老牌大数据平台带来新的活力?你怎么看?

原文链接:

https://lists.apache.org/thread.html/8313e605c0ed0012f134cce9cc6adca738eea81feccea99c8de87cd9@%3Cgeneral.hadoop.apache.org%3E

http://hadoop.apache.org/docs/r3.1.0/index.html

https://www.gartner.com/newsroom/id/3809163


今日荐文

点击下方图片即可阅读

15年研发经验博士手把手教学:从零开始搭建智能客服


专栏推荐

人工智能时代,如何快速且有效地入门?需要哪些数学基础?怎样掌握机器学习主要方法?

工学博士、副教授王天一在他的里,会带你巩固人工智能基础,梳理人工智能知识框架,了解人工智能的最佳应用场景。新注册用户,立减 30元。欢迎点击图片试读。

「阅读原文」,免费试读或订阅

如果你喜欢这篇文章,记得给我们留个言点个赞,给编辑小哥哥小姐姐们鼓励一下吧!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存