查看原文
其他

2020 中国开源年会来啦,数据技术专场欢迎您

apachekylin 2022-04-23

Editor's Note

25日的专场上,Kyligence 张智超将分享「Apache Kylin 4:凤凰涅槃,浴火重生」,重点介绍 Kylin 4 架构升级的原理讲解与重大特性。点击文末「阅读原文」即可免费报名,可以观看活动直播哟~

The following article is from 开源社 Author 开源社

 点击上方“开源社”关注我们


       

| 编辑:李明康| 设计:冯艺怡| 责编:袁睿斌


引言


移动互联网、物联网时代的到来,使得数据量级呈几何级爆炸性增长, 百亿级数据处理已经不新鲜,数据量猛增也对大数据处理链条的各个环节提出了新的要求和挑战,这态势也使得国内的大数据技术得以崭露头角,出现了不少由国人主导的国际性项目。


大数据前沿到底发生了哪些变化,数据技术专场特别邀请了 12 位一线大咖来分享国内外最前沿的先进技术和全球的开源现状及趋势。由于疫情原因,非常欢迎大家直播时多多交流,也欢迎为开源献上一份自己的力量。







第二场 10月25日 13:30 开始 


Apache Kylin 4:凤凰涅槃,浴火重生

张智超

上海跬智信息 - 大数据架构师

             

 

讲师介绍:张智超目前就职于上海跬智信息技术有限公司(Kyligence)开源组,参与了Apache Kylin和Apache CarbonData等开源项目。

 

分享摘要:Apache Kylin 4.0 Alpha版本日前已经发布,它是Apache Kylin 4的第一个早期预览版本,是继Kylin 3之后的一个重大架构升级版本,采用Parquet这种真正的列式存储来代替HBase存储,提升文件扫描性能;同时重新实现了基于Spark的构建引擎和查询引擎,使得计算和存储分离变为可能,更加适应云原生的技术趋势。本次演讲嘉宾张智超将从架构升级,原理讲解,重大特性等几个方面来介绍Apache Kylin 4.0。

 

T3出行构建数据湖上低延迟数据管道的实践

杨华

T3 出行 - 大数据平台负责人

              


赵玉威

T3 出行 - 调度平台高级研发工程师


                   

 

讲师介绍:

杨华,T3 出行大数据平台负责人。Apache Hudi committer & PMC member。Apache Kylin committer 及 Flink Cube 引擎作者。Apache Flink 国内早期布道者及活跃贡献者。前腾讯高级工程师,曾主导 Flink 框架在腾讯从落地到支撑日均近 20 万亿消息的处理规模。
赵玉威,T3 出行调度平台高级研发工程师。

 

分享摘要:T3 出行是一家基于车联网驱动的网约车平台,拥有海量且丰富的数据源。为此在很早就基于Apache Hudi构建了企业级的数据湖。但数据湖从外界摄取的数据源绝大部分都是原始数据,而为了使原始数据变得更有业务价值和分析价值,T3出行 需要对数据进行ETL等进行脱敏。这时为了解决低延迟、高效的数据加工,最初引入了Easy Scheduler(DolphinScheduler前身),在使用过程中发现了不少问题。随着DolphinScheduler加入Apache孵化器进行孵化并快速迭代,T3出行也随之升级到了DolphinScheduler并围绕它打造了一个企业级的大数据调度管理平台。这次分享T3出行将会对基于Apache DolphinScheduler支撑数据湖上低延迟数据加工的实践进行介绍。


Apache DolphinScheduler是如何支撑每日十万级大数据任务调度的

代立冬

易观数科 - 大数据平台总监

 

             

 

讲师介绍:易观大数据平台总监 & Apache DolphinScheduler PPMC,负责每日数百亿条数据处理链条的流程规划,技术选型,技术攻关及人才梯队建设等工作。专注于数据领域研发数据平台架构10年,擅长于数据平台建设、集群性能调优、数据仓库建设,曾任多家大数据公司数据架构师。

 

分享摘要:本次分享首先会介绍DolphinScheduler(Incubating)社区的发展情况,接着介绍我们当时为何要重复造轮子再造大数据任务调度,DolphinScheduler整体的设计思想、考量以及DolphinScheduler的特性和能力,然后介绍DolphinScheduler架构的变迁过程。分享中我也会讲述我们在做大数据任务调度时遇到的挑战和积累下来的经验,也会介绍一些用户案例和使用场景及开源的历程。

 

从 ClickHouse 的名字来历说起

朱凯

远光软件 - 大数据/平台开发部 总经理

 

             

 

讲师介绍:开源爱好者,Apache DolphinScheduler Committer、ClickHouse Contributor,《ClickHouse原理解析与应用实践》、《企业级大数据平台构建:架构与实现》作者,公众号《ClickHouse的秘密基地》运营者,ClickHouse 布道者。

 

分享摘要:ClickHouse是一款开源的OLAP数据库,自2016年开源以来它一直保持着飞速的发展速度。其闪电般的查询性能和活跃的社区,让它成为目前业界公认的OLAP数据库黑马。这次分享将带大家快速领略ClickHouse的全貌特征,ClickHouse它是什么、它的核心功能有哪些以及它可以用在哪些场景。与此同时,朱凯也将和你一同分享2020年ClickHouse最令人期待的 top 5 新功能。 

 

Apache IoTDB:工业物联网数据库管理系统

黄向东

清华大学 - 助理研究员


             

 

讲师介绍:黄向东博士,清华大学软件学院助理研究员。研究方向为大数据系统架构与时间序列数据管理技术。他是Apache IoTDB项目的初始源码提交者之一,同时也是 Apache IoTDB 项目 VP。

 

分享摘要:工业物联网数据的主体是机器产生的时序数据,是工业互联网的原矿。与其他大数据不同,其具有高通量、低质量、弱模式、查询分析复杂等特点。Apache IoTDB 是从中国高校发起的,经过多年迭代,在多个工业生产系统中经过验证的新一代工业物联网数据库管理系统,目前已成为Apache顶级项目。本报告将详细介绍工业物联网中的挑战,Apache IoTDB的基本概念和特性,并简单介绍基于Apache IoTDB的相关实际案例,帮助听众了解如何基于Apache IoT生态,解决工业物联网数据应用需求。


 

PowerJob:新一代分布式任务调度与计算框架

滕佶祺

阿里巴巴 - 开发工程师

 

             

 

讲师介绍:毕业于浙江大学,目前是阿里巴巴集团的一名开发工程师,开源项目任务调度中间件 PowerJob 作者,在公司内部做过一些技术分享,这次尝试下更大的舞台。

 

分享摘要:PowerJob是新一代的任务调度中间件,旨在解决大型离线任务的调度与计算问题。PowerJob立足于当前繁杂的业务特性,在任务调度的基础上,创新性地提供工作流 workflow 和分布式任务计算 MapReduce 两大核心功能。本次演讲将会为大家揭秘 PowerJob 项目的起源、旨在解决的问题和背后的技术剖析。

 

彩蛋

会场还设有 QA抽奖 环节,奖品如抱枕、热火大数据书籍等赠送。数据技术专场 24 日特别邀请 Apache Doris PPMC 缪翎 女士主持(传说中一个明明可以靠颜值却偏偏拼才华的奇女子)!!!  

数据技术专场欢迎您,期待直播间与您相遇。

 

大会已开启报名,欢迎报名 !!!

 

报名方式


对 COSCon'20 内容感兴趣的你可以通过下方的链接或点击阅读原文进行报名,期待您的到来!

 

报名链接

 http://hdxu.cn/1l0R9


*原文来自公众号「开源社」,本文略有删减





往期推荐



欢迎大家点击阅读原文,进行报名    

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存