现今,很多企业每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,无论是分析型场景、流批一体、增量数仓都得益于湖仓一体等数据湖技术的发展而变得越来越容易解决。3月11日,周六,09:00-17:00,DataFun联合数据湖领域的11位资深专家,共同策划出品了第一届"DataFunSummit2023:数据湖架构峰会",届时将邀请20余位来自国内外的一线数据湖专家从核心架构、性能优化、湖仓一体、最佳实践等方面带来数据湖的最新技术和内容实践经验分享,让大家了解专家们如何应对各类复杂的数据应用场景。
本次峰会现已全面开放报名,感兴趣的小伙伴欢迎识别下方二维码免费报名:
▌上午主题论坛:特性·难点·方法论·行业观察
随着大数据时代的到来,数据湖从概念产生到现在经过了10多年的发展,成为企业管理海量数据的重要工具和解决方案。数据湖能够汇集多种数据源,提供多维度的数据分析和深度挖掘,帮助企业做出科学决策并推动业务发展。数据湖的应用场景主要包括DB数据入仓/湖、近实时OLAP、近实时ETL、湖仓一体(Lakehouse)等方向。为了探讨数据湖的最新发展和实践经验,本次主题论坛邀请了华为云、阿里云、腾讯、火山引擎、信通院等知名企业的专家,将分享Lakehouse架构的实现经验、数据湖元数据和存储管理、Iceberg高级特性的应用、批流一体存储实践、数据湖与湖仓一体的行业观察等内容。
3月11日下午14:00-17:00,峰会将分为四个分论坛:核心架构、性能优化、湖仓一体、最佳实践。听众将从中了解到最前沿的技术和最佳实践经验,帮助企业了解并应用最新的数据湖技术,提高数据资产的价值。▌分论坛1:核心架构
论坛聚焦数据湖生态的核心系统的最新特性、功能迭代、性能优化等关键技术,围绕存储、计算、分析等领域方向邀请了国内各领域专家带来最新技术成果的分享。相信通过“核心架构”主题论坛的五位重磅嘉宾的分享,会和大家一起对数据湖生态技术的发展趋势、SparkSQL为代表的数据湖计算引擎的优化、数据湖存储系统技术选型、湖仓一体化新架构演化等关键工作点的思考碰撞出智慧的火花。
▌分论坛2:性能优化
Lakehouse架构的核心思想是通过提升数据湖的现有能力,使湖更加具有仓的属性,实现在数据湖内建仓的能力。从Hudi、iceberg、DeltaLake这个三个组件看,都从不同程度提升了仓的属性,比如基础特性:事务性、更新能力、Schema演进、数据查询等能力,但是由于各家落地架构有所区别,在性能上也会有所区别。在Lakehouse技术一经推出,业内各家企业快速引入,从各自不同的业务场景出发对技术平台提出了各种性能要求,例如:数据入湖写入和更新性能、交互查询性能等等。这次我们邀请了华为、阿里、网易、爱奇艺四家公司,分享结合自身业务特点对技术平台进行的性能优化方法。这些优化方法也会泛化到其他企业,帮助大家一起提升整体的平台性能。同时我们也欢迎更多的朋友来分享,一起推动Lakehouse技术的发展。
▌分论坛3:湖仓一体
随着DataBricks在2020年提出湖仓一体架构,业界在湖仓一体进入快速发展阶段, 多家大公司都已表示其数据平台转向了湖仓一体架构。湖仓一体的架构确实可以帮助企业实现真正存储共享, 避免数据在仓和湖之间移动, 减少数据冗余。同时,得益于湖仓一体的新关键组件 Iceberg,Hudi和Delta Lake的引入,释放了更多的大数据使用场景, 支持事务、支持多引擎,支持多种数据类型,打通了原来计算引擎必须和某种存储格式绑定的限制,甚至实现了流批一体的使用体验,大大的降低了运维和开发人员的压力。 今天我们邀请到了腾讯、B站、华为、网易以及当红炸子鸡创业公司镜舟科技的资深工程师分享关于他们在湖仓一体架构探索中的经验、包括如何进行湖仓一体架构的落地, 如何运营湖仓一体架构。
▌分论坛4:最佳实践
数据湖的概念已经提出多年,对应的一些关键组件例如: Iceberg、Hudi 和 Delta Lake 也逐步发展到基础功能相对完善的一个阶段,各个公司也开始也逐步引入这些新组件去支撑更多的业务,通过大数据满足赋能于更多的业务场景。今天我们邀请到了顺丰、bilibili、观远数据、涂鸦智能等企业的资深工程师分享关于他们在内部推进实施数据湖的最佳实践,在这里你可以了解到他们是如何通过数据湖技术支持业务的发展,了解到数据湖技术能够解决那些典型的业务场景,以及在这个过程中如何解决场景落地、运维等问题。
▌详细介绍
峰会主席团:
毛剑 bilibili 技术委员会主席
个人介绍:毛剑,目前就职于 bilibili、负责基础架构部&质量保障中心&C端技术中心总经理,同时兼任技术委员会主席,近十多年的服务端研发经验。擅长高性能、高可用的服务端研发,熟悉 Go 等语言。在B站7年时间内,参与了从巨石架构到微服务的完整转型,在内部推进了 Go 语言,以及微服务的发展;之后负责过工程效率,对于分布式增量编译,以及 CICD 有比较丰富的经验;19年负责公司数据平台,把离线、实时、OLAP 平台底层能力拉到了一线互联网公司的水平,现在集群规模超过EB级别。目前负责基础架构部&质量保障中心,专注于稳定性、成本、效率等工作,为B站提供稳定可靠的基础设施。
赵健博 快手 大数据计算与存储团队负责人
个人介绍:赵健博,大数据领域专家,快手大数据计算与存储团队的负责人,目前负责快手大数据调度、计算、以及非结构化存储领域系统的研发与应用。
峰会专家评审团:
陈玉兆 OneHouse Flink Hudi负责人,Apache Hudi PMC
个人介绍:西安电子科技大学本硕;2018 ~ 2022 阿里云开源大数据平台 Flink SQL Engine 开发:QO,QE;2019 ~ 至今 Apache Calcite PMC:SQL 解析,翻译,优化器内核;2020 ~ 至今 Apache Hudi PMC:主导 Flink Hudi 开发,布道宣传 Streaming Datalake 应用场景,运营 Hudi 中国社区,成果:100+ 公司落地,3600+ 用户;2022 ~ 至今 OneHouse:主导 Flink Hudi 的开发工作。
范文臣 Databricks 技术主管,Apache Spark PMC member
个人介绍:范文臣,Databricks 开源组技术主管,Apache Spark PMC member,Spark社区最活跃的贡献者之一。从2013年开始参与Spark的研发,2015年加入Databricks,目前主要负责Spark Core/SQL 的设计开发和开源社区管理。
马进 网易数帆 技术经理
个人介绍:2013年加入网易,先后负责了网易分布式数据库 DDB,分布式缓存,分布式事务协调器,数据库PAAS等项目;2018年开始负责集团内实时计算和相关平台搭建;2020年在内部孵化了湖仓一体项目 Arctic,该项目已于2022年8月开源,近两年带领团队持续专注在湖仓一体和大数据流批一体的方向上。
邵赛赛 腾讯大数据实时湖仓团队负责人,Apache Member
个人介绍:邵赛赛,腾讯大数据实时湖仓团队负责人,专家工程师,Apache基金会成员,Apache Spark/Inlong/Livy PMC成员,曾就职于Hortonworks,Intel,10年的大数据从业经验,专注于分布式流批计算引擎的研发和优化。
主持人:徐前进 腾讯 专家工程师,Apache Hudi Committer个人介绍:多年大数据工作经验,开源大数据组件 Flink、 Iceberg、Pulsar 等贡献者,Apache Calcite 和 Apache Hudi Committer。目前在腾讯从事数据湖存储相关的开发。个人介绍:快手大数据平台高级架构师,计算引擎团队负责人,开源项目 XLearning 的作者。主要研究领域为 Data/AI Infra 等。个人介绍:华为云大数据架构师,主要负责实时数据湖架构设计。出品人:陈俊杰 腾讯 TEG 数据平台部 资深研发工程师个人介绍:硕士毕业于南京理工大学,分别在 intel 大数据部门和腾讯 TEG 数据平台部从事大数据研发多年, 目前在腾讯 TEG 数据平台部负责实时湖仓平台研发,平台服务涵盖内部视频号、广告、安全等日均万亿级相关业务,也包含公有云 DLC, 私有云 TBDS 等产品。个人介绍:本科学历,曾在京东、腾讯工作,有9年大数据离线、实时开发的工作经验,目前在顺丰科技主要做实时计算和数据湖方向的工作。
峰会嘉宾:
个人介绍:华为云大数据架构师,主要负责实时数据湖架构设计。演讲题目:基于 Lakehouse 架构实现湖内建仓实践经验听众收益:湖内建仓的业务收益价值,湖内建仓的技术介绍,常见的落地方案。
个人介绍:负责阿里云数据湖构建 DLF 产品研发。演讲提纲:在云上使用对象存储构建数据湖已成为业界共识,与此同时,统一的 Catalog 元数据以及统一资源管理策略成为当前研究的重点,AWS Glue Catalog 和 Lake Formation、Databricks Unity Catalog、阿里云 DLF 都是较早推出的相关系统和产品,本次议题会介绍阿里云在数据湖统一 Catalog、统一数据权限和生命周期管理以及湖表优化策略管理上的实践。
个人介绍:硕士毕业于南京理工大学,分别在 intel 大数据部门和腾讯 TEG 数据平台部从事大数据研发多年, 目前在腾讯 TEG 数据平台部负责实时湖仓平台研发,平台服务涵盖内部视频号、广告、安全等日均万亿级相关业务,也包含公有云 DLC, 私有云 TBDS 等产品。1. 了解 Iceberg 社区最新高级特性与应用
刘彦美 中国信息通信研究院 云计算与大数据研究所 工程师个人介绍:中国信息通信研究院云计算与大数据研究所工程师,主要从事大数据领域的技术、产品、标准和产业研究工作。牵头编制《云原生数据湖》、《云原生湖仓一体数据平台》《云原生实时数仓技》等多项标准,编写并发布《数据平台供应商服务能力研究报告》。作为一线人员完成过阿里、华为、腾讯等大数据领域头部企业的数十款技术产品测试及分析研究。
个人介绍:硕士毕业于南京大学 PASA LAB 大数据实验室,就职于字节跳动数据引擎团队,目前专注于数据湖场景落地。陈明雨 Apache Doris PMC Member 个人介绍:陈明雨,前百度资深研发工程师,负责 Apache Doris 以及百度数据仓库 Palo(Doris 商业版本)的设计研发工作。8年分布式系统研发经验,一直专注于分布式可扩展分析型数据库领域,同时也是 Apache Doris 的 PMC 成员。演讲题目:Apache Doris 数据湖联邦分析特性揭秘演讲提纲:Apache Doris 是一款基于 MPP 架构的开源分析型数据库。依托其强大的并行处理能力和高性能算子,可以在海量数据集上提供亚秒级的交互式查询体验。而近年来,随着数据湖技术飞速发展,越来越多的企业开始依托数据湖技术构建其基础数据的存储架构,并利用数据湖提供的批流一体,事务隔离和数据更新能力,沉淀了大量企业数据。本次分享中将介绍如何基于 Apache Doris 对数据湖中的数据进行快速分析,以及 Doris 在多源数据联邦查询方面的功能和进展。1. Apache Doris 数据湖分析技术内幕2. 基于 Apache Doris 构建统一的多源数据分析系统3. Apache Doris 数据湖方向后续规划2. Doris 在 Lakehouse 方向上的规划
个人介绍:毕业于中国科学院大学,博士学历。曾任职于 360 系统部,担任离线计算组负责人。现任职于快手数据架构中心,负责 SQL 引擎研发和架构建设。演讲题目:Blaze:SparkSQL Native算子优化在快手的设计与实践2. 深入了解 Blaze 的算子翻译策略及内存管理等技术4. 如何在快手生产环境中对业务透明的前提下应用 Blaze 并取得收益
陈玉兆 OneHouse Flink Hudi负责人,Apache Hudi PMC个人介绍:西安电子科技大学本硕;2018 ~ 2022 阿里云开源大数据平台 Flink SQL Engine 开发:QO,QE;2019 ~ 至今 Apache Calcite PMC:SQL 解析,翻译,优化器内核;2020 ~ 至今 Apache Hudi PMC:主导 Flink Hudi 开发,布道宣传 Streaming Datalake 应用场景,运营 Hudi 中国社区,成果:100+ 公司落地,3600+ 用户;2022 ~ 至今 OneHouse:主导 Flink Hudi 的开发工作。听众收益:了解 Hudi 的基础知识,窥探 Hudi 的核心设计,展望 Hudi 的中期规划。
个人介绍:周克勇,负载 EMR Spark 引擎优化。个人介绍:熊佳树,负责数据湖元数据、权限及相关引擎优化工作。演讲题目:Apache Celeborn 和数据湖计算引擎云原生实践演讲提纲:Celeborn 是阿里云捐献给 Apache 的大数据开源项目,在存算分离架构中支持引擎 Shuffle 数据服务化存储,本地议题将会介绍 Celeborn 在支持 Spark 和 Flink 等数据湖计算引擎上最新进展,包括多引擎兼容适配、引擎在云原生场景下的性能优化以及云上部署的稳定性挑战等。1. Celeborn 如何提升 Shuffle 的性能和稳定性2. Celeborn 如何支持多引擎 (Spark, Flink, Tez)3. Celeborn 如何实现 Serverless
个人介绍:参与建设 JuiceFS 开源社区的主力队员。十年互联网行业从业经历,曾在知乎、即刻、小红书多个团队担任架构师职位,专注于分布式系统、大数据、AI 领域的技术研究。孟涛 华为云 高级工程师,Apache Hudi Committer个人介绍:大连理工大学硕士研究生,目前就职华为,华为大数据高级工程师 & Hudi 社区 Committer。演讲提纲:华为云基于 Hudi 构建实时数据湖平台查询性能优化。通过二级索引,元数据缓存等技术增强 Hudi 的点查性能,结合 Hetu(Presto)引擎实现秒级时延;同时在引擎侧引入 Hudi 分区级别统计增强,以及动态分区裁剪增强引擎复杂查询能力;最后我们针对 Hudi mor 表的查询的一些探索。
个人介绍:曾就职于美团大数据平台,负责开源计算引擎 Spark,机器学习平台;目前在阿里云 EMR,负责 DeltaLake、Hudi、Spark 等数据湖引擎开发和产品化。演讲提纲:Delta Lake、Hudi、Iceberg 等新一代湖仓存储系统带来了新的能力,但同时也提高了用户使用成本,特别是写入和查询等性能是很多人关心的问题。作为首个同时支持三类格式的云厂商,本次议题将剖析湖格式的核心设计,并介绍阿里云在湖仓存储系统上性能调优的思考和实践。
个人介绍:林豪,爱奇艺助理研究员,2015年硕士毕业于上海交通大学,目前领导爱奇艺大数据 OLAP 团队,提供数据湖、Trino、ClickHouse、Hive、智能 SQL 引擎 Pilot 等产品,满足业务对海量数据实时、灵活、高效地进行分析的需求。演讲题目:爱奇艺在 Iceberg 落地相关性能优化与实践1. Iceberg 在爱奇艺的落地场景,其业务价值2. 如何通过平台构建,简化业务实时入湖、离线入湖、实时查询等操作复杂度;3. 具体的性能优化措施,包括小文件优化,生命周期管理,查询性能优化等;
个人介绍:网易数帆软件工程师,主要从事实时计算引擎和 Arctic 数据湖的开发工作。演讲题目:Iceberg 实时湖仓数据分析性能优化演讲提纲:主要介绍 Iceberg 在做数据分析查询时在性能方面有哪些优化方向,以及 Arctic 在基于 Iceberg 之上做的一些提升性能的设计及方案及其提升效果。1. 了解 Iceberg 的数据查询原理及其优化方向。2. 了解 Arctic 在性能方面做的哪些工作,带来了怎样的收益。程广旭 腾讯 TEG 数据平台部 高级工程师,Apache HBase/InLong PMC个人介绍:腾讯大数据 OLAP 平台技术负责人,Apache HBase/InLong PMC 成员,有10年大数据相关工作经验,专注在 KV 存储及 OLAP 领域。演讲题目:天穹 SuperSQL 如何应对数据湖场景中的复杂多维分析2. 腾讯 StarRocks 查询数据湖性能优化
李锐 bilibili 资深开发工程师,Apache Flink/Hive Committer/PMC个人介绍:李锐,曾就职于 Intel,eBay,阿里巴巴等公司,主要从事大数据领域的工作。是 Apache Flink Committer 以及 Apache Hive PMC 成员。目前就职于 B 站基础架构部 OLAP 平台组,负责湖仓一体方向的研发。演讲题目:bilibili 基于 Iceberg 构建秒级响应湖仓一体平台的核心技术实践演讲提纲:分享B站基于 Iceberg 打造湖仓一体平台的技术实践。主要包含以下内容:1. 在 Iceberg 表上通过索引、预计算等方式进行查询加速2. 通过智能化服务对 Iceberg 表进行持续的优化和分析
赵恒 镜舟数据库产品负责人,StarRocks 社区 PMC个人介绍:镜舟数据库产品负责人。StarRocks 社区 PMC,引导并推动 StarRocks 成为全球领先的分析型数据库,曾就职于阿里云分布式存储 Tair。演讲题目:基于 StarRocks 进行湖仓融合的四种范式3. StarRocks 进行湖仓融合的四种创新方式2. 利用 StarRocks 进行湖仓融合的优势
个人介绍:周劲松,网易数帆平台研发专家,从事大数据与数据库方向开发工作经验7年,曾负责分库分表系统,数据传输系统研发工作,目前作为 Arctic 湖仓管理系统的项目负责人,在构建数据基础设施方面有着充分经验。演讲题目:基于 Apache Iceberg 的湖原生数仓 Arctic演讲提纲:随着湖仓一体技术的不断发展,企业内部开始尝试使用一套存储架构统一数据湖和数据仓库以达到降本增效的目标。Arctic 在 Apache Iceberg 等开源数据湖表格式之上构建了一套开箱即用的数据仓库,帮助业务快速完成架构升级。
演讲题目:Iceberg 在大规模湖仓批流一体建设中的实践介绍 Iceberg 在湖仓流批一体建设中的实践经验及心得,主要内容包括:1. Iceberg 在流场景下的自定义分区提交策略听众收益:了解 Iceberg 在大规模湖仓、流批一体建设中遇到的痛点问题及相关探索经验。个人介绍:本科学历,曾在京东、腾讯工作,有9年大数据离线、实时开发的工作经验,目前在顺丰科技主要做实时计算和数据湖方向的工作。演讲提纲:主要介绍 Hudi 数据湖在顺丰如何支撑业务落地应用和实践优化。
个人介绍:本硕毕业于上海交通大学,目前在哔哩哔哩实时团队,负责建设流式数据湖方向,包括 Flink/Hudi 的内核研发与优化、数据湖基建打造、生态链完善与平台化、以及场景接入与落地等。演讲题目:基于 Hudi+Flink 打造流式数据湖的落地实践演讲提纲:本次分享的内容是哔哩哔哩基于 Hudi+Flink 打造流式数据湖的落地实践,主要内容包括以下几个方面:首先,会介绍 B 站数仓历史架构,引入流式数据湖的初衷与愿景;其次,会重点介绍我们已探索并落地的场景案例,具体包括:实时一键入湖、日志数据分流、增量数仓打造、物化加速查询等方面,将给出痛点问题分析、解决方案以及最终收益评估。然后,会概述我们当前数据湖的架构,重点介绍批流架构融合过程中的优化,包括表服务托管与增强、分区归档以及数据回跑等方面。最后,是未来的一些工作展望。1. 如何基于 Hudi+Flink,打造端到端流式数据湖?2. 如何通过流式数据湖,解决若干典型业务场景的痛点?3. 在数据湖落地过程中,如何处理批流架构融合带来的突出问题?
个人介绍:本科和硕士毕业于东南大学;曾任职微策略、阿里巴巴,2018年6月加入观远,目前担任研发主管,负责 BI、和数据平台的研发工作。演讲题目:Delta Lake 在 BI+AI 产品中的实践演讲介绍:这次分享,我将会介绍观远数据将 Delta Lake 应用于 BI、AI 产品中的实践。主要内容包括:2. 分别从功能、性能、运维等方面介绍 Delta Lake 相关实践1. Delta Lake 的特性,以及如何应用在 BI、AI 产品中?2. 如何基于 Delta Lake 提供高效的查询服务?
个人介绍:从18年毕业至今一直从事大数据周边技术工作。主要负责大数据离线计算、组件运维以及最新技术的研究,能够根据公司业务场景设计与之匹配的架构产品并落地。擅长调度、数据湖、数据集成、数据开发、日志采集、cdc、生产环境的 trouble-shotting。积极分享,并获得csdn博客专家称号,开源hera离线分布式任务开发与调度系统,累计stars数800+🌟。演讲题目:基于 Hudi + SparkSQL + 调度的近实时计算探索演讲提纲:主要介绍怎么基于调度系统来实现 Hudi + Spark SQL 的近实时计算 ,以及在计算中我们遇到的一些问题和解决方案。1. 如何通过调度系统实现一种折中的近实时成本方案2. 如何使用 Spark SQL 读 Hudi 表进行快照读、增量读▌如何参与?