数据湖融合LLM的新范式
数据湖三剑客有哪些最新进展?
Paimon、RisingWave等数据湖新贵处在什么位置?
如何设计一个高性能的流式湖仓?
LLM时代,数据湖的新范式?
数据湖在实际业务场景中落地效果如何?
活动日程
议题详情
主题演讲:数据湖的全新演进
刘兆磊 Databricks 资深软件工程师
个人介绍:现任 Databricks Delta Lake 组元数据软件工程师,负责开源存储格式和优化。
演讲题目:开源 Delta Lake 3.0 优势和发展
演讲提纲:主要介绍Delta lake 3.0 主要发布的新特征和特点,主要包括:
1. Delta lake最新的特征,例如 max/min metadata optimization 基于最大最小值的查询元数据优化,deletion vector 删除向量
2. Delta UniversalFormat 统一格式,让您从Delta Lake写入,之后可以从Delta,Hudi,Iceberg读取
听众收获
1. 了解 Delta lake 最新动态和社区的进展
2. 了解 Delta lake 相对于其他存储格式的特点及评测数据,以便于企业选择选择合适的存储格式
LLM/AI 时代湖仓新范式论坛
刘嘉承 Alluxio Staff Engineer,Alluxio PMC & Maintainer
个人介绍:硕士毕业于哥伦比亚大学,Alluxio Staff Engineer,Alluxio开源社区PMC成员和Maintainer,《Alluxio - 分布式统一大数据虚拟文件系统》核心作者。
演讲题目:Alluxio 3.0:下一代分布式AI/数据湖缓存架构的探索和实践
演讲提纲:
1. Alluxio 分布式缓存系统的项目背景、历史
2. Alluxio 在AI/数据湖领域的使用场景和效果
3. Alluxio 2.x - 3.x 的核心架构革新
听众收益:
1. 了解分布式缓存的架构及核心设计理念
2. 了解分布式缓存在AI/数据湖领域的主流应用场景和客户成功案例
高性能流式湖仓论坛
出品人:马年圣 蚂蚁集团 实时数仓架构师,数据技术专家
个人介绍:马年圣,毕业于河海大学,先后就职于网易、阿里、蚂蚁等互联网公司,当前工作重心在实时数据研发和架构,负责蚂蚁集团广告、决策等领域实时数据。
闵文俊 蚂蚁集团 技术专家
个人介绍:毕业于南京理工大学,毕业后一直从事大数据相关工作,2019~至今在蚂蚁集团从事实时计算引擎开发工作,目前主要负责蚂蚁流批一体和数据湖相关工作。
演讲题目:蚂蚁基于 Paimon 数据湖的应用
演讲提纲:
1. Paimon 数据湖场景的应用
2. Paimon 数据湖的优化
听众收益:
1. 了解数据湖如何在生产实践中为业务提效
2. 了解数据湖落地过程中的问题与挑战
陈梓麟 RisingWave Labs 内核研发工程师
个人介绍:本科毕业于中山大学软件工程专业,曾就职于阿里云从事分布式数据库PolarDB-X内核研发4年,现就职于RisingWave Labs从事流数据库RisingWave内核研发。主要工作方向:SQL查询优化器,分布式计算。
演讲题目:基于RisingWave构建流式湖仓
演讲提纲:
1. RisingWave 介绍和使用场景
2. 实时数据入湖 -- Iceberg 写
3. 历史数据批量导入 -- Iceberg 读
4. 核心技术内幕
5. 未来与展望
听众收益:
1. 如何以数据库体验来进行流处理开发
2. 如何利用对象存储降低流处理成本提升效益
3. 如何使用 RisingWave 进行实时数据入湖
4. 如何使用 RisingWave 查询湖仓中 Iceberg 表数据
陈卓宇 小红书 开发工程师
个人介绍:陈卓宇 小红书 开发工程师,Apache Paimon Contributor。
演讲题目:Paimon 架构下的数据湖探索
演讲提纲:
1. Paimon 是什么?
2. Paimon 适用场景
3. Paimon 架构设计
4. 数据入湖:讲述数据入湖的核心流程和基本实现原理
5. Primary Key 表的实现:讲述数据的分布、聚合表引擎实现原理
6. Paimon Tag 机制、最佳实践
7. 未来工作方向 load action、 外键打宽
听众收益:
1. Paimon 是什么?能干什么?
2. Paimon 架构设计
3. 讲述数据入湖的核心流程和基本实现逻辑
4. 讲述 Paimon PK 表数据的分布组织形式、聚合表引擎实现原理
5. 讲述 Paimon Tag 机制、最佳实践
湖仓一体架构论坛
出品人:张静 快手大数据平台架构师
个人介绍:张静,快手大数据平台架构师,Apache Flink/Calcite/HUDI Committer,11年大数据方向从业经验,曾就职于百度和阿里,专注于分布式计算引擎、SQL优化器和数据湖方向。
祝佳俊 网易严选 资深服务端开发
个人介绍:浙江大学硕士毕业后入职网易严选,主要负责数据治理、数据湖等相关平台的开发工作。
演讲题目:严选湖仓一体建设实践
演讲提纲:主要介绍严选如何使用 Iceberg 的湖仓一体的建设实践,主要包括:
1. 如何增强 Iceberg 时间旅行特性,满足严选业务场景,提升数据入仓效率
2. 如何使用 Iceberg 来缩短数据加工链路,提升产出效率
3. 实现并使用 Iceberg 的物化视图,提升数据时效性
4. 未来规划
听众收益:
1. 如何对 Iceberg 的时间旅行特性增强,支持查询精准时间快照数据?
2. 如何实现 Iceberg 的物化视图?
3. 如何使用 Iceberg 来降本增效?
徐昱 vivo 大数据工程师
个人介绍:毕业于南京邮电大学,计算机硕士学历。现就职于vivo互联网基础平台部,近几年一直负责底层计算组件优化等相关工作。当前负责vivo湖仓一体化相关组件及平台能力建设。
演讲题目:vivo 湖仓一体构建历程
演讲提纲:
1. 批流链路统一架构设计及收益
2. 数据湖组件能力拓展
3. 数据湖未来展望
听众收益:
1. 湖上增效降本业务实际场景运用
2. 数据湖组件相关更新、查询优化思路
3. 数仓到湖仓的转化思路
梁溪 腾讯 微信视频号 高级大数据工程师
个人介绍:2018年硕士毕业于电子科技大学,2019年加入腾讯,目前在视频号中心担任高级大数据工程师,主要负责视频号实时湖仓架构设计和开发迭代。
演讲题目:实时湖仓在视频号场景的应用实践
演讲提纲:
1. 背景介绍
2. 应用实践
3. 项目总结
4. 未来展望
听众收益:
1. 接入数据湖后,使用廉价的 hdfs 资源置换了诸如 kafka/redis 等 pass 服务所耗的资源
2. 基于流转批、MOR、merge into 技术实现批调度时延降低4倍以上,指标产出时延减少 3h 以上
3. 简化链路及统一代码,实现人力成本约节省30%以上,计算成本节省约15%
湖仓治理论坛
出品人:洪帅 京东 资深技术专家
个人介绍:目前负责京东零售营销运营体系的数据资产及数据产品建设,在数据平台技术架构、实时计算、数据集成、数据治理等领域具备丰富的实践经验。从京东数据体系内部成长起来的专家,积极推广数据湖技术在京东零售数据体系的落地,推动优化资源利用率低、弹性能力差、智能化程度低等问题探索及实践,提升数据的产出时效以及架构稳定性保障。
陈洪健 京东 大数据架构师
个人介绍:深耕大数据10年,2019年加入京东,主要负责OLAP优化、大数据传输工具生态、流批一体、SRE建设。
演讲题目:京东零售数据湖应用与实践
演讲提纲:
1. 流批一体技术选型
2. 大数据量多流关联
3. 存储和性能优化
4. OLAP 查询提速
5. 未来规划和展望
听众收益:听众将了解千亿量级流批数据关联处理过程和应用秒级查询。
湖仓最佳实践论坛
出品人:黄雪源 eBay 实时计算部门开发经理
个人介绍:黄雪源,eBay 大数据平台实时计算部门经理,领导团队构建实时计算解决方案,为支付、风控及广告等核心业务部门提供高可用的流计算和消息中间件服务,打造下一代的实时数据湖。曾在微软任职开发工程师及产品经理,致力于提升 Azure 的生态和开发体验,为开发者提供高效易用的开发工具。本硕毕业于南京大学软件工程系。
董丽婷 爱奇艺 高级研发工程师
个人介绍:2018年毕业于清华大学,毕业后加入爱奇艺广告团队,主要负责广告数据实时数仓建设。
演讲题目:爱奇艺广告数据湖实践
演讲提纲:
1. 背景介绍(爱奇艺广告数据的基本情况和特征)
2. 现状(当前架构以及遇到的难点痛点)
3. 数据湖相关应用场景
4. 未来规划
听众收益:
1. 如何通过数据湖构建实时数仓
2. 广告主相关等业务数据如何实时检索
3. 如何解决数据湖小文件等问题