CommunityOverCode Asia 专题介绍之数据湖与数据仓库

ALC Beijing ALC Beijing

2024-09-11

引言

CommunityOverCode Asia 2023

近年来，随着数据量、速度和种类的增加，选择合适的数据平台来管理和存储数据从未像现在这样重要。数据湖与数据仓库作为大数据系统的两条不同演进路线，各有各的有优势与局限性。

为了解决当前大数据场景下的实时处理诉求高、非结构化数据治理难、系统运维复杂等问题，湖仓一体进入人们视野。湖仓一体构建在数据湖低成本的数据存储架构之上，同时具备了数据仓库的数据处理和管理能力，兼具数据湖灵活性和数据仓库成长性，可大大提高数据处理效率和数据分析能力，为企业决策提供更有力的支持。

本次 CommunityOverCode Asia 2023（原 ApacheCon Asia）的数据湖/数据仓库专题，将给大家带来 Apache 相关项目的最新资讯，现在就一起来看看吧！

出品人

CommunityOverCode Asia 2023

代立冬

CommunityOverCode Asia 2023

白鲸开源联合创始人，Apache 基金会正式成员，Apache IPMC Member/Mentor，Apache SeaTunnel PMC Member，Apache DolphinScheduler PMC Chair，多个孵化项目导师，中国开源先锋。

专题介绍

CommunityOverCode Asia 2023

数据湖和数据仓库是存储和管理数据的重要解决方案，它们在数据管理、数据分析和决策中发挥着关键作用。在 ASF，有不少是与数据湖和数据仓库有关的项目，例如：Apache Hive, Apache Hudi, Apache Iceberg, Apache Paimon, Apache Cassandra, Apache HBase 等。在这个主题中，你将得到数据湖和仓库的最新情况，公司在生产中使用它们的最佳做法，以及这些项目的路线图。

议程亮点

CommunityOverCode Asia 2023

8 月 18 日 13:30 - 16:45

演讲议题：Challenges and Solutions on building Realtime Data warehousing with Apache Flink , Apache Hive and Apache Iceberg

分享时间：8 月 18 日 13:30 - 14:00

议题介绍：

There are many technologies that can be used to build an Enterprise level real-time data warehouse. In order to fully migrate the Batch ETL processing of your EDW towards Real Time ETL, there are challenges such as late events, dirty data routing, etc require extra attention to handle. The purpose of this speech is to provide the recent community works on Apache Flink, Apache Hive, and Apache Iceberg and architecture design related to migrating Batch Processing EDW to Real-time PRocessing EDW.

在当下，有很多的技术组合可以用于迁移基于批处理的数据仓库至实时处理的数据仓库。为了能够完整的迁移批处理的数据仓库，我们需要额外的处理在实时架构下遇到的迟到事件，脏数据路由以及由这些问题引起的结果集修复等问题。本演讲主要关注在 Apache Flink ， Apache Hive 和 Apache Iceberg 在围绕上述挑战下的社区工作总结以及如何使用 Apache Flink， Apache Hive 和 Apache Iceberg 构建一个企业级的实时数据仓库。

嘉宾介绍：

Yan Liu 刘岩丨Apache Hive Contributor，Apache Flink Contributor，Cloudera Solution Engineer

Apache Hive and Apache Flink Contributor, Cloudera Solution Engineer. Over 10 Years of Practical Experience in Big Data and my current focus is real-time data warehouse using Apache Flink, Apache Hive, and Apache Iceberg.

演讲议题：基于 Flink 构建实时数据湖的实践

分享时间：8 月 18 日 14:00 - 14:30

议题介绍：

实时数据湖是现代数据架构的核心组成部分，它允许企业实时分析和查询大量数据。在这场分享中，我们将首先介绍实时数据湖目前存在的痛点，比如数据的高时效性，多样性，一致性和准确性等。然后介绍我们如何基于 Flink 和 Iceberg 构建实时数据湖，主要通过如下两部分展开：如何将数据实时入湖、如何使用 Flink 进行 OLAP 临时查询。最后介绍一下字节跳动在实时数据湖中的一些实践收益。

嘉宾介绍：

王正丨字节跳动基础架构工程师

2021 年加入字节跳动，就职于基础架构开放平台团队，主要负责 Serverless Flink 等方向研发。

闵中元丨字节跳动基础架构工程师

2021 年加入字节跳动，就职于基础架构开放平台团队，主要负责 Serverless Flink ，Flink OLAP 等方向研发。

演讲议题：OpenEuler and Bigtop with Ambari : Empower Data Lake in the real world

分享时间：8 月 18 日 14:30 - 15:00

议题介绍：

At present, there are no available free data lake platforms to streamline data management and analytics, as Cloudera Data Platform (CDP) is no longer offered free of charge. As more users show interest in similar platforms, Bigtop with Ambari provide free open-source solutions for the data lake stack as an alternative to CDP that can deliver faster and easier data management and analytics.The Bigtop team, along with people from Oracle, NTT DATA, Visa, Arm and some individual developers, re-incubated Apache Ambari last year. Roman Shaposhnik, the founder of Bigtop and Director of the ASF Board, spearheaded the effort to bring Ambari back.

In this talk, we will provide an overview of the new Bigtop 3.2.0 release and an in-depth perspective on the Bigtop+Ambari solution as a data lake platform. Furthermore, Bigtop has started to work on supporting OpenEuler, which has over 300 organizational members and has seen significant enterprise deployments, particularly in China. We will introduce the current work status and roadmap of Bigtop on OpenEuler.

嘉宾介绍：

Yuqi Gu丨Arm Staff Software Engineer

Yuqi Gu is currently Chair and PMC member of Apache Bigtop. He is also the committer and PMC member of Apache Ambari. He works for Arm and is mainly focusing on performance optimization on Arm64.

演讲议题：APACHE LINKIS 在湖仓一体架构下的数据处理实践

分享时间：8 月 18 日 15:00 - 15:30

议题介绍：

主要分享邮储银行作为一家大型国有银行，在湖仓一体架构下，如何结合 Linkis 解决实际面临的问题，以后后续的发展展望。

此次分享主要介绍：

1. 邮储银行大数据湖仓一体架构；

2. 实施中面临的问题；

3. Apache Linkis 的具体实践；

4. 参与 Apache linkis 社区共建；

5. 未来技术规划：基于 Linkis 加强对 Iceberg 等数据湖技术的管理功能。

嘉宾介绍：

王华磊丨中国邮政储蓄银行副主任工程师

多年银行大数据领域数据架构经验，开源爱好者，Linkis 社区贡献者。

演讲议题：数据湖 Iceberg 在小米的实践与优化

分享时间：8 月 18 日 15:45 - 16:15

议题介绍：

本次分享着重于介绍小米内部引入 Iceberg 的原因和现状，及利用 Iceberg 实现业务架构升级的实践，也包括了对 Iceberg Parquet 文件过滤能力的优化，和托管式表优化服务架构演进及落地等内容。

提纲：

引入 Iceberg 的原因和现状：介绍小米内部引入 Iceberg 的原因，以及 Iceberg 在小米内部当前的生产状态。
湖仓架构升级实践：主要分为表升级实践和业务架构升级实践两部分。表升级实践主要讲述小米内部如何进行 Hive 表升级为 Iceberg 表的方案选型和产品化落地；业务架构升级实践主要介绍部分实际业务将链路升级到湖仓架构获得较大收益的实践内容。
能力优化：介绍 Iceberg 读取原理和开发的 Parquet Page Index 功能，进一步提升 Iceberg 的 Data Skipping 能力；介绍在 Iceberg 集成 Parquet 加密能力实现列级数据加密。
托管式表优化服务的构建和演进：主要介绍托管式表优化服务上线之前遇到的问题、系统架构，和支持的优化任务类型、表监控等内容。
未来规划：主要介绍未来小米将会基于 Iceberg 开展的工作内容，如索引构建、存储混合云架构、智能湖仓和缓存加速等内容。

嘉宾介绍：

肖杰宝丨小米软件研发工程师

小米软件研发工程师，目前主要负责小米内部数据湖 Iceberg 内核及表优化服务的研发工作。

演讲议题：字节跳动基于 Parquet 格式的降本增效实践

分享时间：8 月 18 日 16:15 - 16:45

议题介绍：

字节跳动离线数仓默认使用 Parquet 格式进行数据存储，但是在业务使用过程中我们遇到了小文件过多，数据存储成本高等相关问题。

针对小文件过多问题，现有技术方案一般是通过 Spark 读取多个 Parquet 小文件后，再将这些数据重新输出并合并到一个或多个大文件。对于存储成本过大问题目前离线数仓只有分区级的行级 TTL 方案，如果需要删除分区中不再使用且占比较大的明细字段数据（列级 TTL)，则需要通过 Spark 将数据读取出来并将需要删除的字段置为 NULL 的覆写方式来完成。

无论是小文件合并，列级 TTL，都存在对 Parquet 数据文件的大量覆写操作。由于 Parquet 格式有特殊的编码规则，需要经过特殊的（反）序列化、（解）压缩、（反）编码等一系列操作，才能实现对 Parquet 中数据的读写。在这一过程中，编解码、解压缩之类的操作是 CPU 密集型计算，会消耗大量计算资源。为了提高 Parquet 格式文件覆写效率，我们深入研究了 Parquet 文件格式定义，采用了二进制 copy 的方法优化数据覆写操作，跳过了普通覆写中编解码之类的多余操作，相比于传统方法大幅提高了文件覆写效率，性能是普通覆写方式的 10+ 倍。

为了提高易用性，我们同时提供了新的 SQL 语法来支持用户方便的完成小文件合并、列级 TTL 等操作。

嘉宾介绍：

徐庆丨火山引擎 LAS 高级研发工程师

火山引擎 LAS 高级研发工程师，多年从事于 Hive Metastore, SparkSQL, Hudi 等大数据相关组件的研发工作。

王恩策｜火山引擎 LAS 高级研发工程师

火山引擎 LAS 高级研发工程师，负责字节跳动大数据分布式计算引擎的设计与研发，帮助公司在海量数据中挖掘出高价值信息。

8 月 19 日 13:30 - 16:15

演讲议题：云原生数据湖如何提速两倍以上

分享时间：8 月 19 日 13:30 - 14:00

议题介绍：

随着云计算与大数据技术的融合，云原生湖仓逐渐成为业界的热点。Kubernetes 和 Apache Spark 做为云原生和大数据领域的开源技术领导者，彼此结合成为很多人的首选。然而将 Spark 在 Kubernetes上作为湖仓分析引擎，面临诸多挑战，例如资源管理、任务调度、存储对接、弹性伸缩、高可靠性等。Kyligence 在服务各类客户的过程中积累了丰富的经验，并积极参与和回馈社区；此次演讲将分享如何基于一系列开源技术如 K8S、Spark、Gluten、Volcano、Kyuubi 等打造开箱即用的云原生湖仓分析引擎。

嘉宾介绍：

史少锋丨Kyligence Inc 首席架构师

Kyligence 首席架构师，Apache Kylin committer & PMC。曾就职于 eBay，IBM，作为核心成员，参与 Apache Kylin 项目的研发与开源全过程。对大数据和云计算行业发展趋势、产业生态、技术产品化有着长期深入的研究和丰富的实战经验。

演讲议题：Apache Paimon 流式数据湖：CDC 入湖与流读

分享时间：8 月 19 日 14:00 - 14:30

议题介绍：

Apache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念，可以与 Apache Flink / Spark / Trino 等诸多业界主流计算引擎进行对接。

此次分享主要介绍 Paimon：

1. CDC 入湖 Schema Evolution；

2. CDC 整库入湖；

3. CDC 入湖部分列更新；

4. 实时变更日志流读。

嘉宾介绍：

李劲松丨阿里巴巴高级技术专家

阿里云开源大数据表存储团队负责人，负责 Apache Paimon 的研发和产品，Founder of Apache Paimon，PMC member of Apache Flink，Committer of Apache Iceberg&Beam。先后从事分布式流计算、分布式批计算、湖存储，目前专注于流式湖仓一体的技术。

演讲议题：下一代超高性能大数据集成工具 - Apache SeaTunnel 在数据湖场景的应用

分享时间：8 月 19 日 14:30 - 15:00

议题介绍：

当今数据源多达几百种，来源不仅有关系型和非关系型数据库，还有 SAAS、日志及接口数据等，离线批量同步已不能满足业务需求，越多越多的业务要求实时同步，如何让这些数据源之间可以快速高效进行离线和实时同步，且做到数据一致性及完善的监控同时占用最少的资源，这是对数据集成的一个极大的挑战解决思路:利用 Apache SeaTunnel 数据同步管道结合 SeaTunnel 自己专用同步引擎 Zeta 来解决集成难问题，同时可以以尽可能低的资源完成数据同步，对于大规模的数据集成同步提供更优的表现。

听众收益：

1. Apache SeaTunnel 功能与架构设计；

2. 为何研发 SeaTunnel 自己的同步引擎 Zeta、而不是选择基于 Spark/Flink ？

3. 用户使用案例及后续 Roadmap 等内容。

嘉宾介绍：

代立冬丨白鲸开源联合创始人、Apache SeaTunnel PMC member

白鲸开源联合创始人、 Apache SeaTunnel PMC & Apache DolphinScheduler PMC、Apache 孵化器导师

演讲议题：基于 Apache Iceberg, Apache Arrow 和 Apache Parquet 的创新 lakehouse 设计

分享时间：8 月 19 日 15:00 - 15:30

议题介绍：

云器科技成立于 2021 年，是一家多云及一体化的数据平台提供商。本次讲座我们将揭秘如何使用和优化 Apache Iceberg、Apache Arrow 和 Apache Parquet，来打造一个拥有开放生态系统和极佳性能的多云 lakehouse。

嘉宾介绍：

吴刚丨云器科技软件工程师

云器科技软件工程师。目前是 Apache ORC 的 PMC，也是 Apache Arrow 和 Apache Parquet 的 committer。在此之前，他是阿里巴巴的高级技术专家，负责 MaxCompute 的存储系统，也曾在 Uber 负责 Apache Spark 平台。

付旭炜丨云器科技软件工程师

云器科技软件工程师，主要负责云器 lakehouse 存储系统的研发。

专题议程

CommunityOverCode Asia 2023

作为 Apache 软件基金会（ASF）的官方全球系列大会，每年的 CommunityOverCode Asia 都吸引着来自全球各个层次的参与者、社区共同探索 "明天的技术"。8 月 18 日至 20 日，即将强势来袭的 CommunityOverCode Asia 2023 上，大家可以近距离感受来自 Apache 项目的最新发展和新兴创新。

继续滑动看下一个

ALC Beijing

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘

CommunityOverCode Asia 专题介绍之数据湖与数据仓库

8 月 18 日 13:30 - 16:45

8 月 19 日 13:30 - 16:15

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘

生成图片，分享到微信朋友圈

CommunityOverCode Asia 专题介绍之数据湖与数据仓库

8 月 18 日 13:30 - 16:45

8 月 19 日 13:30 - 16:15

您可能也对以下帖子感兴趣