查看原文
其他

Amoro 社区 2023 年度总结

Amoro Community Apache Amoro
2024-09-10
点击上方蓝字关注我们,了解更多内容

2023,是希望的一年。

今年 Amoro 更加明确自己的技术愿景:Amoro 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。

同时 Amoro 作为一个开源社区,也汇集了来自不同背景、具有不同技能的开发者和大数据从业者,大家积极分享经验和知识,共同学习,共同推进了 Amoro 开源社区的发展。

接下来通过这篇年度总结,让我们一起回顾 Amoro 的2023。
01
Amoro 成长之路
Amoro 在2022年8月由网易主导开源 ,2023年8月从 Arctic 更名为 Amoro。目前已成长为 60+贡献者参与的活跃项目。贡献者中有20+来自 Amoro 的社区实践用户,产生了10+个生产用户案例。


2023年是 Amoro 快速成长的一年,这一年 Amoro 发布了4个版本:0.4.1,0.5.0,0.5.1,0.6.0。经过这4个版本,Amoro 朝着开箱即用的湖仓管理系统的愿景更近一步。以下是针对其中一些关键功能和提升的高度总结。

Iceberg format 表的管理和自动优化能力提升

2022年底,Amoro发布了0.4.0版本,首次支持管理和自动优化 Iceberg format 表。2023年社区不断优化 Iceberg format 表的自动优化能力,使得其性能和稳定性得到极大的提升,现在无论是拥有上百万个文件或者堆积了大量  Delete File 的 Iceberg V2 表,Amoro 都能从容应对,快速完成碎片文件和 Delete File 的合并。除此之外社区还丰富了更多 Iceberg format 表的管理功能,包括提供了 Rest Catalog 的 Server 端实现,支持定期清理悬挂的 Delete File,支持定期清理历史分区或数据,支持对 Tag 和 Branch 的管理等等。

全面适配云原生湖仓

现在越来越多的用户选择在云上基于价格低廉的对象存储服务构建湖仓架构。2023年 Amoro 对云原生湖仓场景进行了全面的适配,包括支持了 S3 存储类型,Glue 元数据中心。另外还提供了 Amoro 官方镜像,helm 部署脚本,基于它们现在可以一键完成 Kubernetes 环境的 Amoro 部署工作。

Mixed format 能力提升

Mixed format 是基于 Iceberg format 构建的一种混合表格式,它针对流式场景做了诸多优化,使得用户可以在复用 Iceberg fomrat 强大的批处理和分析能力的基础之上,获得更好得流式处理能力和性能。2023 年 Amoro 强化了 Mixed format 在流式处理场景下的能力,如支持了通过 Apache Flink 进行流式维表关联,同时还提升了 Mixed format 表的兼容能力,现在可以基于任何 Iceberg Catalog 构建 Mixed format 表,并且在 Spark/Trino 等批处理/分析引擎里能直接使用 Iceberg format connector 访问 Mixed format 表。

更多 Format 的集成

2023年 Amoro 还集成了 Paimon format。Amoro 为不同数据湖表格式提供了统一的管理能力,使得使用不同的 format 满足不同场景下的需求成为可能。Paimon format 的集成使得 Amoro 对 Catalog 和 Table API 做了重新的抽象,为以后集成更多 table format 打下了坚实的基础。


02
Amoro 社区发展
社区贡献者

Amoro 鼓励社区成员通过参与讨论、修改文档、提交 issue 和 pr 等多种方式积极参与社区。正是因为大家的参与和贡献 Amoro 才能更好地了解用户需求和优化项目功能,持续发展繁荣。

  • 感谢 @SteNicholas @czy006 @周新宇 对Amoro 社区的支持与鼓励,积极拓展 Amoro 社区生态,在多渠道和场合积极宣传 Amoro 。

  • Most Valuable Contributor 代表了极高的社区荣誉。这些贡献者不仅积极参与活动,贡献了高质量的代码,还帮助更多社区成员完善他们的代码。感谢@XBaith @czy006 @zhongqishang @huyuanfeng2018 @tcodehuber @minteliuwm,鼓励更多人参与社区,帮助 Amoro 更加长远地发展




来自思科的白旭(Github ID: XBaith)在9月份的贡献活动中独立贡献了”支持数据过期“和”Transaction页面支持展示详情“两个重要特性。同时作为 Amoro 开源后的天使用户,帮助 Amoro 在 Iceberg Format 的自动优化和云原生部署两个场景提供了非常多的场景反馈和优化建议。



个人独立开发者陈政羽(Github ID: czy006)在9月份的贡献活动中深度参与了“Amoro 与 Kubernetes 集成“的开发,并独立承担了”Amoro Mixed Format Flink Connector 支持 Flink 1.16/1.17“ 的开发。同时主动担任 Amoro 在开源社举办的2023年开源年会(COSCon 2023)活动中的分享嘉宾,带来了《开源湖仓管理系统-Amoro》的分享。



来自企查查的仲启尚(Github ID: zhongqishang)在10月份的贡献活动中解决了 Optimizer 在自动优化 Iceberg equality delete 文件过多的表时可能出现优化过慢或者内存溢出的问题,大大提升了 Optimizer 的稳定性。同时还优化了 Dashboard 上表详情中 Optimizing 页面的展示,方便了用户查看 Optimizing 任务详情。



来自虎牙的胡源峰(Github ID: huyuanfeng2018)在10月份的贡献活动中为 Iceberg 表支持了 Tag&Branch 的展示。同时参与了 Amoro metric 功能的开发,提供了表 Optimizing 相关的 metric 信息。



来自多点 DMALL 的黄刚(Github ID: tcodehuber)在11月份的贡献活动中独立贡献了 Optimizing 任务的手动中断特性,加强了 Optimizing 任务管理的灵活性。另外黄刚同学还在多点 DMALL 内部率先实现了基于 Spark 引擎的 Optimizer,在公司内验证通过后也积极贡献给了社区,为 Amoro 社区的用户提供了更丰富的 Optimizer 实现。



来自微策略的刘为民(Github ID: minteliuwm)在11月份的贡献活动中独立实现了表上 Tag&Branch 展示的前端部分。同时作为 Amoro 社区的前端担当,还主动推进了前端项目的文档补全,架构优化等工作。

上线用户

Amoro 最初诞生于网易构建流批一体、湖仓一体的架构,开放的特性可以很好地契合由开源技术栈构建的各种大数据平台和产品,体现湖原生数仓、湖仓一体的业务价值。所以无论是数仓用户还是平台开发者,都能在 Amoro 找到适合自己的内容和资源。同时感谢在试用中向社区反馈问题,提出需求和社区共建的用户积极参与到项目的开发和改进中。

在此,我们要对以下分享了 Amoro 案例的用户表示特别感谢。

仲启尚,企查查
企查查基于 Apache Iceberg 与 Arctic 构建实时湖仓实践
白旭,思科
思科基于 Amoro + Apache Iceberg 构建云原生湖仓实践
喻志强,浙江电信
浙江电信基于 Amoro + Apache Iceberg 构建实时湖仓实践
熊俊,上海钢联;王涛,网易杭研
Amoro Mixed Format 在上海钢联的构建实时湖仓实践
谢怡,网易有道;王涛,网易杭研
有道基于 Amoro Mixed Format 构建准实时湖仓实践
鲁成祥&马一帆,网易传媒
Arctic助力传媒实现低成本的大数据准实时计算
网易数帆&华泰证券

Arctic开源!网易数帆×华泰证券,推动湖仓一体落地

社区生态伙伴

Amoro 支持管理众多开放数据湖表格格式,我们收获了很多社区合作伙伴,如 Iceberg, Flink, Kyuubi, Paimon……

任何企业或团队都可以使用 Amoro 提供的数据自优化和表格管理服务,也希望与更多的社区达成生态合作,为用户带来更丝滑的使用体验,为开源事业添砖加瓦。


03
结语

2024年 Amoro 将继续出发,坚持朝着开箱即用的湖仓管理系统的愿景前进。

社区鼓励各种形式的贡献,欢迎加入社群一起聊天灌水,这里也有社区整理的初次贡献指南:https://github.com/NetEase/amoro/contribute

志合者,不以山海为远。最后感谢每一位社区成员在过去一年中的付出。正是有了你们,Amoro 的开源之路才能走得更远!


END


精彩回顾

社区动态:官宣 | Amoro 0.6.0 版本正式发布 用户案例:浙江电信基于 Amoro + Apache Iceberg 构建实时湖仓实践
思科基于 Amoro + Iceberg 构建云原生湖仓实践 技术干货:Apache Iceberg + Arctic 构建云原生湖仓实战


更多资讯

社区鼓励任何形式的参与,并期待大家能与 Amoro 共同成长欢迎 Watch Fork Star 一键三连~官网:https://amoro.netease.com/源码:https://github.com/NetEase/amoro

 Amoro 社群


后台回复【社群

扫描二维码添加小助手,邀你进群~


点击下方【阅读原文】直达 Amoro 官网
继续滑动看下一个
Apache Amoro
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存