活动预告
其他
从 Arctic 到 Amoro:我们的开源旅程和愿景
项目更名第一,Arctic 项目名称今日起正式变更为 Amoro [/aˈmoro/],项目官网和 GitHub 同步变更:
官网:https://amoro.netease.com/ 文档:https://amoro.netease.com/docs/latest/ 源码:https://github.com/NetEase/amoro
Man Group 开源的名为 Arctic 的 Python 数据库项目:https://github.com/man-group/arctic Dremio 的 Arctic 组件:https://www.dremio.com/platform/arctic/
经过多次纠偏和商标确认,得到了 Amoro [/aˈmoro/] 这个名字,下面是全新设计的 LOGO,这里特别感谢家超同学在视觉设计上的创意和付出:给我想一个以字母 A 开头,字符不超过 6 位,朗朗上口易于传播的软件名称,避免跟已知软件存在商标冲突。
项目定位我想通过倒立的字母 A 来聊聊这个项目是什么,为什么做:
不会从 0 做一个数据湖 format 以社区驱动积极对接不同数据湖 format 以社区驱动积极对接各种计算引擎 尽可能以可插拔的架构来对接服务,比如 Kyuubi,消息队列
数据湖 format 技术在国内讨论更多的是 CDC,流批一体这样的场景,立项之初这也是 Amoro 主要关注的点。但熟悉 Iceberg 的同学可能知道,Iceberg 诞生的重要背景之一,是面向 AWS S3 构建数仓的需求,Hive 在对象存储之上有诸多不足,在 Iceberg 之上都有得到妥善解决,技术点这里不多做讨论。云原生数仓可以认为是纯粹面向对象存储的数仓方案,业务往往会选择一个全新的技术栈,比如用 Iceberg 代替 Hive,用 AWS Glue 代替 HMS,而 Amoro 提供的 AMS 实现了 Iceberg 的 Restful catalog 接口;提供了数据自管理和优化的特性;提供了时效性、性能、成本的度量和管理功能,能够在云原生数仓的场景下作为 Iceberg 的最佳伴侣来使用。定位和愿景Amoro 是什么,这个答案既要回答立项的初心,也要代表项目长期的定位和愿景:"Amoro is a Lakehouse management system built on open data lake formats. Working with compute engines including Flink, Spark, and Trino, Amoro brings pluggable and self-managed features for Lakehouse to provide out-of-the-box data warehouse experience, and helps data platforms or products easily build infra-decoupled, stream-and-batch-fused and lake-native architecture."首先 Amoro 是湖仓管理系统,这里我们借鉴了数据库管理系统的叫法,可能很多同学乍一听会觉得管理系统会类似于实时计算、离线开发一类的工具平台,这里我稍稍做个澄清:工具的目标是帮助用户更高效、便利地执行某种流程,而Amoro 的目标是将一些流程向用户屏蔽,交给用户一个黑盒,他的定位更多是一个基础软件,所以 Amoro 的 MS 类似于 DBMS 中的 MS,我们经常讲一句话:build a box for lakehouse。这里抛砖引玉一下,我们经常在数据库和传统数仓中看到一些面向 information_schema 的标准化指令,Amoro 希望可以做 Lakehouse 的 information_schema,后续我们会尝试带动社区推进这块功能的标准化。
活动预告
END
看到这里 记得关注、点赞、转发 一键三连哦~
万字长文详解开源流式湖仓服务Arctic
从Delta 2.0开始聊聊我们需要怎样的数据湖
手把手教你使用 Arctic 自动优化 Apache Iceberg
关于 Amoro 的更多资讯可查看:官网:https://amoro.netease.com/文档:https://amoro.netease.com/docs/latest/源码:https://github.com/NetEase/amoro社群:后台回复【社群】添加小助手(或扫描下方二维码↓,邀你进群)