大数据界迎来新的开源项目：Apache Arrow｜云头条

2016-02-19 云头条

Apache软件基金会声称，Arrow在处理分析型工作负载时，性能有望提升100多倍。

Apache Arrow为列式内存分析提供了一种高性能跨系统数据层。图片来源：IDGNS

Hadoop、Spark和Kafka已经对大数据领域产生了巨大的影响力，现在多了另一个Apache项目，有望进一步改变这个领域，那就是Apache Arrow。

Apache软件基金会于周三推出了Arrow这个顶层项目，旨在提供一个高性能数据层，以便在不同系统上快速执行列式内存分析工作。

该基金会声称，Apache Arrow基于来自Apache Drill这个相关项目的代码，带来了诸多好处，包括处理分析型工作负载时性能有望提升100多倍。通常而言，Arrow消除了跨系统通信的开销，因而能够处理多个系统上的工作负载。

向该项目提交代码的人士包括来自其他Apache大数据项目的开发人员，比如Calcite、Cassandra、Drill、Hadoop、HBase、Impala、Kudu、Parquet、Phoenix、Spark和Storm等项目。

主管Apache Drill及这个新项目的副总裁雅克·纳多（Jacques Nadeau）说：“开源社区在Apache Arrow方面进行了通力合作。我们预计，今后几年，世界上的大多数数据将通过Arrow来加以处理。”

在许多工作负载中，70%到80%的处理器周期用于数据的序列化和反序列化上。基金会声称，Arrow缓解了这个负担，其办法就是让数据能够在诸系统之间共享，并加以处理，没有序列化，没有反序列化，也没有内存副本。

泰德·邓宁（Ted Dunning）是Apache孵化器副总裁，也是Apache Arrow项目管理委员会成员。他说：“一个基于行业标准的列式内存数据层让用户能够在处理单一工作负载时，合并多个系统、多个应用程序和多种编程语言，没有通常面临的开销。”

除了支持传统的关系型数据外，Arrow还支持使用动态模式的复杂数据。比如说，它可以处理JSON数据，这类数据通常用于物联网工作负载、现代化应用程序和日志文件中。还针对许多编程语言提供了实现方法，以加强互操作性。

Apache Arrow软件采用Apache许可证v2.0发行，由这个项目的积极贡献者自行选择的一个团队负责监管。

云头条编译｜未经授权谢绝转载