2020 中国开源年会来啦,数据技术专场欢迎您
Editor's Note
The following article is from 开源社 Author 开源社
点击上方“开源社”关注我们
引言
移动互联网、物联网时代的到来,使得数据量级呈几何级爆炸性增长, 百亿级数据处理已经不新鲜,数据量猛增也对大数据处理链条的各个环节提出了新的要求和挑战,这态势也使得国内的大数据技术得以崭露头角,出现了不少由国人主导的国际性项目。
大数据前沿到底发生了哪些变化,数据技术专场特别邀请了 12 位一线大咖来分享国内外最前沿的先进技术和全球的开源现状及趋势。由于疫情原因,非常欢迎大家直播时多多交流,也欢迎为开源献上一份自己的力量。
Apache Kylin 4:凤凰涅槃,浴火重生
张智超
上海跬智信息 - 大数据架构师
讲师介绍:张智超目前就职于上海跬智信息技术有限公司(Kyligence)开源组,参与了Apache Kylin和Apache CarbonData等开源项目。
分享摘要:Apache Kylin 4.0 Alpha版本日前已经发布,它是Apache Kylin 4的第一个早期预览版本,是继Kylin 3之后的一个重大架构升级版本,采用Parquet这种真正的列式存储来代替HBase存储,提升文件扫描性能;同时重新实现了基于Spark的构建引擎和查询引擎,使得计算和存储分离变为可能,更加适应云原生的技术趋势。本次演讲嘉宾张智超将从架构升级,原理讲解,重大特性等几个方面来介绍Apache Kylin 4.0。
T3出行构建数据湖上低延迟数据管道的实践
杨华
T3 出行 - 大数据平台负责人
赵玉威
T3 出行 - 调度平台高级研发工程师
讲师介绍:
分享摘要:T3 出行是一家基于车联网驱动的网约车平台,拥有海量且丰富的数据源。为此在很早就基于Apache Hudi构建了企业级的数据湖。但数据湖从外界摄取的数据源绝大部分都是原始数据,而为了使原始数据变得更有业务价值和分析价值,T3出行 需要对数据进行ETL等进行脱敏。这时为了解决低延迟、高效的数据加工,最初引入了Easy Scheduler(DolphinScheduler前身),在使用过程中发现了不少问题。随着DolphinScheduler加入Apache孵化器进行孵化并快速迭代,T3出行也随之升级到了DolphinScheduler并围绕它打造了一个企业级的大数据调度管理平台。这次分享T3出行将会对基于Apache DolphinScheduler支撑数据湖上低延迟数据加工的实践进行介绍。
Apache DolphinScheduler是如何支撑每日十万级大数据任务调度的
代立冬
易观数科 - 大数据平台总监
讲师介绍:易观大数据平台总监 & Apache DolphinScheduler PPMC,负责每日数百亿条数据处理链条的流程规划,技术选型,技术攻关及人才梯队建设等工作。专注于数据领域研发数据平台架构10年,擅长于数据平台建设、集群性能调优、数据仓库建设,曾任多家大数据公司数据架构师。
分享摘要:本次分享首先会介绍DolphinScheduler(Incubating)社区的发展情况,接着介绍我们当时为何要重复造轮子再造大数据任务调度,DolphinScheduler整体的设计思想、考量以及DolphinScheduler的特性和能力,然后介绍DolphinScheduler架构的变迁过程。分享中我也会讲述我们在做大数据任务调度时遇到的挑战和积累下来的经验,也会介绍一些用户案例和使用场景及开源的历程。
从 ClickHouse 的名字来历说起
朱凯
远光软件 - 大数据/平台开发部 总经理
讲师介绍:开源爱好者,Apache DolphinScheduler Committer、ClickHouse Contributor,《ClickHouse原理解析与应用实践》、《企业级大数据平台构建:架构与实现》作者,公众号《ClickHouse的秘密基地》运营者,ClickHouse 布道者。
分享摘要:ClickHouse是一款开源的OLAP数据库,自2016年开源以来它一直保持着飞速的发展速度。其闪电般的查询性能和活跃的社区,让它成为目前业界公认的OLAP数据库黑马。这次分享将带大家快速领略ClickHouse的全貌特征,ClickHouse它是什么、它的核心功能有哪些以及它可以用在哪些场景。与此同时,朱凯也将和你一同分享2020年ClickHouse最令人期待的 top 5 新功能。
Apache IoTDB:工业物联网数据库管理系统
黄向东
清华大学 - 助理研究员
讲师介绍:黄向东博士,清华大学软件学院助理研究员。研究方向为大数据系统架构与时间序列数据管理技术。他是Apache IoTDB项目的初始源码提交者之一,同时也是 Apache IoTDB 项目 VP。
分享摘要:工业物联网数据的主体是机器产生的时序数据,是工业互联网的原矿。与其他大数据不同,其具有高通量、低质量、弱模式、查询分析复杂等特点。Apache IoTDB 是从中国高校发起的,经过多年迭代,在多个工业生产系统中经过验证的新一代工业物联网数据库管理系统,目前已成为Apache顶级项目。本报告将详细介绍工业物联网中的挑战,Apache IoTDB的基本概念和特性,并简单介绍基于Apache IoTDB的相关实际案例,帮助听众了解如何基于Apache IoT生态,解决工业物联网数据应用需求。
PowerJob:新一代分布式任务调度与计算框架
滕佶祺
阿里巴巴 - 开发工程师
讲师介绍:毕业于浙江大学,目前是阿里巴巴集团的一名开发工程师,开源项目任务调度中间件 PowerJob 作者,在公司内部做过一些技术分享,这次尝试下更大的舞台。
分享摘要:PowerJob是新一代的任务调度中间件,旨在解决大型离线任务的调度与计算问题。PowerJob立足于当前繁杂的业务特性,在任务调度的基础上,创新性地提供工作流 workflow 和分布式任务计算 MapReduce 两大核心功能。本次演讲将会为大家揭秘 PowerJob 项目的起源、旨在解决的问题和背后的技术剖析。
会场还设有 QA 和 抽奖 环节,奖品如抱枕、热火大数据书籍等赠送。数据技术专场 24 日特别邀请 Apache Doris PPMC 缪翎 女士主持(传说中一个明明可以靠颜值却偏偏拼才华的奇女子)!!!
数据技术专场欢迎您,期待直播间与您相遇。
大会已开启报名,欢迎报名 !!!
对 COSCon'20 内容感兴趣的你可以通过下方的链接或点击阅读原文进行报名,期待您的到来!
报名链接
http://hdxu.cn/1l0R9
*原文来自公众号「开源社」,本文略有删减
往期推荐
往期推荐
欢迎大家点击阅读原文,进行报名!