其他
现今,很多企业每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,无论是分析型场景、流批一体、增量数仓都得益于湖仓一体等数据湖技术的发展而变得越来越容易解决。3月11日,周六,09:00-17:00,DataFun联合数据湖领域的11位资深专家,共同策划出品了第一届"DataFunSummit2023:数据湖架构峰会",届时将邀请20余位来自国内外的一线数据湖专家从核心架构、性能优化、湖仓一体、最佳实践等方面带来数据湖的最新技术和内容实践经验分享,让大家了解专家们如何应对各类复杂的数据应用场景。本次峰会现已全面开放报名,感兴趣的小伙伴欢迎识别下方二维码免费报名:▌峰会日程本次峰会,各论坛的分享日程如下:▌上午主题论坛:特性·难点·方法论·行业观察随着大数据时代的到来,数据湖从概念产生到现在经过了10多年的发展,成为企业管理海量数据的重要工具和解决方案。数据湖能够汇集多种数据源,提供多维度的数据分析和深度挖掘,帮助企业做出科学决策并推动业务发展。数据湖的应用场景主要包括DB数据入仓/湖、近实时OLAP、近实时ETL、湖仓一体(Lakehouse)等方向。为了探讨数据湖的最新发展和实践经验,本次主题论坛邀请了华为云、阿里云、腾讯、火山引擎、信通院等知名企业的专家,将分享Lakehouse架构的实现经验、数据湖元数据和存储管理、Iceberg高级特性的应用、批流一体存储实践、数据湖与湖仓一体的行业观察等内容。▌下午分论坛3月11日下午14:00-17:00,峰会将分为四个分论坛:核心架构、性能优化、湖仓一体、最佳实践。听众将从中了解到最前沿的技术和最佳实践经验,帮助企业了解并应用最新的数据湖技术,提高数据资产的价值。▌分论坛1:核心架构论坛聚焦数据湖生态的核心系统的最新特性、功能迭代、性能优化等关键技术,围绕存储、计算、分析等领域方向邀请了国内各领域专家带来最新技术成果的分享。相信通过“核心架构”主题论坛的五位重磅嘉宾的分享,会和大家一起对数据湖生态技术的发展趋势、SparkSQL为代表的数据湖计算引擎的优化、数据湖存储系统技术选型、湖仓一体化新架构演化等关键工作点的思考碰撞出智慧的火花。▌分论坛2:性能优化Lakehouse架构的核心思想是通过提升数据湖的现有能力,使湖更加具有仓的属性,实现在数据湖内建仓的能力。从Hudi、iceberg、DeltaLake这个三个组件看,都从不同程度提升了仓的属性,比如基础特性:事务性、更新能力、Schema演进、数据查询等能力,但是由于各家落地架构有所区别,在性能上也会有所区别。在Lakehouse技术一经推出,业内各家企业快速引入,从各自不同的业务场景出发对技术平台提出了各种性能要求,例如:数据入湖写入和更新性能、交互查询性能等等。这次我们邀请了华为、阿里、网易、爱奇艺四家公司,分享结合自身业务特点对技术平台进行的性能优化方法。这些优化方法也会泛化到其他企业,帮助大家一起提升整体的平台性能。同时我们也欢迎更多的朋友来分享,一起推动Lakehouse技术的发展。▌分论坛3:湖仓一体随着DataBricks在2020年提出湖仓一体架构,业界在湖仓一体进入快速发展阶段,