查看原文
其他

活动预告|6月15 日 Apache Paimon Meetup,深入解读 Apache Paimon 0.4.0 !

Apache Flink 2023-07-25

2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念,可以与 Apache Flink / Spark / Trino 等诸多业界主流计算引擎进行对接,共同推进 Streaming Lakehouse 架构的普及和发展。目前业界主流数据湖存储格式项目都是面向 Batch 场景设计的,在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求,因此 Flink 社区在一年多前内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime 的数据湖存储项目。截止目前已经发布第四个版本 Apache Paimon 0.4.0 。


深入解读 Apache Paimon 0.4.0 Meetup,6月15日|线上活动,敬请期待!



活动亮点


6 月 15 日,在 Apache Paimon Meetup ,我们特邀请了阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC 李劲松(花名:之信)、字节跳动基础架构工程师李明、同程旅行大数据计算组负责人吴祥平,三位各大行业专家给大家带来主题分享。


本次分享会介绍:

  • Paimon 0.4 已经发布!本次 Meetup 会介绍 Paimon 0.4 的核心能力,用户场景,欢迎大家试用和反馈!

  • 字节在 Paimon 上提供了一个完整的 Streaming Warehouse 一致性视图,本次 Meetup 将会分享字节相关的实践和经验。

  • 来自同程的老师大规模落地了 Paimon,他将会介绍落地 Paimon 的生产实践。


观看直播的小伙伴们还能一起加入到“答疑环节中”跟 3 位大咖在线交流哦!

直播过程中,同学们可以在评论区踊跃提问,讲师将在分享结束后统一解答。每个议题分享结束后都有 10 分钟的答疑互动环节!


活动议程



嘉宾及议题介绍



出品人介绍

李劲松(花名:之信)

阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC


议题一|深入解读 Apache Paimon 流式数据湖 V0.4


■ 嘉宾介绍


李劲松(花名:之信)阿里云开源大数据表存储团队负责人,负责 Apache Paimon 的研发和产品,Founder of Apache Paimon,PMC member of Apache Flink,Committer of Apache Iceberg & Beam。先后从事分布式流计算、分布式批计算、湖存储,目前专注于流式湖仓一体的技术。


■ 演讲简介


目前业界主流数据湖存储格式项目都是面向 Batch 场景设计的,在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求,因此 Flink 社区在一年多前内部孵化了 Flink Table Store 子项目,目前进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。Paimon 进入 Apache 孵化器后的三个月,Paimon 社区的活跃度快速增长,共有 60 多位贡献者参与社区,完成了 400 多个 Commits,一位新的 Committer,为社区带来了许多令人兴奋的新功能和改进。Apache Paimon 0.4.0 是进入 Apache 孵化后第一个版本,我们推荐所有用户都升级到这个版本。
  • 数据入湖:CDC 入湖、预计算、Actions
  • 数据流读:实时 Changelog、Consumer ID、有序流读
  • 数据查询:时间旅行、Full-Compaction读取
  • 数据管控:Snapshot 清理、分区自动删除


议题二|基于 Flink & Paimon 实现 StreamingWarehouse 数据一致性管理


■ 嘉宾介绍


李明,字节跳动基础架构工程师。在字节跳动流式计算团队主要从事 Flink 存储相关的工作,Apache Flink&Paimon Contributor。


■ 演讲简介


在 Streaming Warehouse 场景中,我们会根据上下游的数据的依赖关系,级联的创建流式任务产生下游数据,从而构建出一个复杂的数据依赖关系,而由于流式任务是互相独立的,导致血缘关系难以维护,上下游数据版本难以管理,因此我们在进行流式任务管理时,经常会遇到开发成本高、计算结果不一致等问题。本次分享主要介绍基于 Flink&Paimon 进行 Streaming Warehouse 数据版本一致性管理的方案,主要包括以下 5 个内容:

  • 背景:介绍现有的 Streaming Warehouse 中的使用痛点;
  • 设计目标:介绍在 Streaming Warehouse 中进行数据一致性管理需要解决哪些问题;
  • 详细设计:介绍通过 Flink&Paimon 如何建立上下游血缘关系、进行数据一致性版本管理等;
  • 当前进展:介绍目前数据一致性管理的实现进展;
  • 未来规划:介绍在 Streaming Warehouse 场景中的未来规划。


议题三|Apache Paimon 在同程旅行的实践进展


■ 嘉宾介绍


吴祥平,同程旅行大数据计算组负责人。负责同程旅行大数据计算团队,重点工作方向是数据湖的落地和推广应用,很荣幸能参与到数据湖技术贡献中。


■ 演讲简介


介绍 Apache Paimon 在同程旅行的引入,湖场景替换为 Hudi 后的一些成效以及如何与 Hudi 混合过渡,同时介绍在实践过程中遇到的一些写入、读取性能、建表等问题以及解决过程和部分场景下 Paimon 调优实践 最后展望对 Paimon 未来的一些期待,和发展规划。


活动详情


时间:6月15 日 14:00
直播观看链接:https://uoi.h5.xeknow.com/sl/GmZHs

扫码直达直播间:

往期精选




▼ 活动推荐▼

▼ 关注「Apache Flink」,获取更多技术干货 ▼


   点击「阅读原文」,直达直播间

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存