其他
袋鼠云在实时数据湖上的探索实践
导读 本文将分享袋鼠云在实时数据湖上的探索与实践。
主要内容包括以下五大部分:1. 背景介绍
2. 实时数据湖解读
3. 探索与实践
4. 发展规划
5. 问答环节
分享嘉宾|郝卫亮 袋鼠云 大数据引擎开发工程师
编辑整理|李欣卫
内容校对|李瑶
出品社区|DataFun
1. 关于袋鼠云
3. 痛点分析
实时数据湖解读
3. 基于数据湖的数栈解决方案
探索与实践
2. 实时入湖
3. CDC 实时入湖方案
4. 实时入湖落地遇到的问题
小文件问题优化-设置合理的 Checkpoint Interval
小文件问题优化-小文件治理
Hudi 适配 Flink1.12
跨集群入湖
跨集群入湖方案
数据湖上创建的物化视图需要进行平台化的管理,如果没有规范化的管理,那么创建的物化视图将变成垃圾数据; 需要 Spark 支持对数据湖表格式管理物化视图的创建和重写; 需要 Trino 支持对数据湖表格式管理物化视图的创建和重写,因为数栈使用了Trino 实现 OLAP; 需要 Flink 支持对数据湖物化视图的创建。
发展规划
增加平台的易用性,使针对 Hudi 和 Iceberg 的管理更加简便。比如,对 snapshot 的读取列表提供可视化管理功能。
引入 Paimon,目前 Paimon 势头迅猛,因为它与 Flink 天然的兼容性,未来很可能会被广泛应用。
提升入湖性能。深入并增强内核,提升入湖的性能。
安全性探索:数据湖提供了共享思维,数据共享需要考虑安全性,又因为支持多引擎查询,所以在多个查询引擎查询数据时数据的安全性更需要考虑。
问答环节
分享嘉宾
INTRODUCTION
郝卫亮
袋鼠云
大数据引擎开发工程师
就职于袋鼠云数栈产品计算引擎团队,主要负责数据湖、Flink和Spark方向研发
往期推荐
点个在看你最好看