查看原文
其他

CommunityOverCode Asia 专题介绍之 DataOps

ALC Beijing ALC Beijing
2024-09-11

前言

CommunityOverCode Asia 2023

近几年,DevOps 因其能够以更低成本更快提供更好的代码而备受追捧。其中,DataOps 作为一种新兴的数据管理方法,强调数据管理自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数据成产者与数据消费者的协同效率,以更好应对海量数据的爆发式增长给数据价值挖掘带来的一系列的挑战。

国际知名 IT 机构 Gartner 预测:“到 2025 年以 DataOps 实践和工具为指导的数据工程团队的工作效率将比不使用 DataOps 的团队高 10 倍。”因此,对企业而言,确保数据以高效和合规的方式使用,DataOps 正变得至关重要。

本次 CommunityOverCode Asia 2023(原 ApacheCon Asia)的 DataOps 专题,将给大家带来 Apache 相关项目的最新资讯,现在就一起来看看吧!

出品人

CommunityOverCode Asia 2023



左右滑动查看出品人

郭炜

CommunityOverCode Asia 2023


Apache 软件基金会 Member, Apache IPMC Member/Mentor。ClickHouse 华人社区创始人, Apache Dolphin Scheduler PMC Member,Apache SeaTunnel 导师,曾入选中国开源先锋 33 人,中国 2021 年开源杰出人物,现任中国通信学会开源技术委员会委员,中国计算协会开源发展委员会委员 。


郭炜先生毕业于北京大学,曾任易观 CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata 任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto, Alluxio,Hbase 等,是国内开源社区领军人物。


聂励峰

CommunityOverCode Asia 2023


Apache DolphinScheduler PMC Member、Apache SeaTunne PMC Member、ClickHouse 中国社区志愿者组长,AppCan 社区运营负责人,白鲸开源 COO,负责中国多个大数据开源社区工作。


专题介绍

CommunityOverCode Asia 2023


在 CommunityOverCode Asia 2023 的 DataOps 专题,该专题集中展示了 Apache 生态系统中一些最具创新性和尖端的项目。该专题汇聚了来自 Apache DolphinScheduler、Apache Airflow、Apache SeaTunnel、Apache Flume、Apache Sqoop、Apache Griffin、Apache Atlas 以及其他与 DataOps 相关的项目的领先专家和贡献者,探索数据操作、自动化和编排的最新进展。无论您是经验丰富的数据专业人员还是刚刚入门的新手,这个专题都为每个人提供了有价值的内容,包括数据管道、ETL、编排、数据质量、元数据等多个主题的会话。在 CommunityOverCode Asia 2023 上,加入我们一起深入探索 DataOps 领域的精彩世界。


议程亮点

CommunityOverCode Asia 2023


8 月 20 日 13:30 - 16:45


演讲议题:新一代数据集成平台 Apache SeaTunnel

分享时间:8 月 20 日 13:30 - 14:00

议题介绍:

Apache SeaTunnel 是一个批流一体数据同步工具,本次分享将分享数据集成以及数据集成领域常见的痛点,以及 Apache SeaTunnel 是如何解决这些问题并做到数据同步全场景支持,如何实现断点续传和数据一致性保障。同时会分享 ApacheSeaTunnel 未来的 roadmap,以及可视化 Web 的研发情况。

嘉宾介绍:

高俊丨白鲸开源架构师


10 年大数据方向研发经验,开源爱好者 Apache DolphinScheduler PMC,Apache SeaTunnel PMC



演讲议题:DataOps 在联通数科的实施构建数据研发运营一体化能力

分享时间:8 月 20 日 14:00 - 14:30

议题介绍:

联通使用接近 70 个 DolphinScheduler 节点调用 15000+Hadoop 平台进行相关任务调度和开发。本次分享中分享联通数科基于 DolphinScheduler 实现 DataOps 的实施过程,在实施过程中遇见的问题以及我们的解决方案。

嘉宾介绍:

王兴杰丨联通数字科技有限公司数据平台架构师


主要负责数据中台工具的集成,推动 DataOps 的实施与应用。目前是 Apache dolphinscheduler 的 committer



演讲议题:如何使用 Apache SeaTunnel 快速接入新数据源

分享时间:8 月 20 日 14:30 - 15:00

议题介绍:

Apache SeaTunnel 是一个快速同步多种数据源的开源项目,它可以对接 SaaS、数据库、Kafka、云数据库等,本次演讲会介绍在遇到新数据源的时候,如何开发新数据源接入 SeaTunnel,从而可以和 100 多种数据源对接。

1.介绍 SeaTunnel v2 架构 source/sink 的新接口
2.使用 SeaTunnel 接入新数据源的最佳实践
3.如何从 0 到 1 参与到 SeaTunnel 贡献
4.SeaTunnel 的未来展望与愿景

嘉宾介绍:
田超丨大数据开发工程师

Apache SeaTunnel PMC,开源爱好者,目前专注于数据集成领域



演讲议题:Apache DolphinScheduler 与云对象存储的对接与整合

分享时间:8 月 20 日 15:00 - 15:30

议题介绍:

对象存储是一种以非结构化格式存储和管理数据的技术,是数据湖场景下的理想存储方案。Apache DolphinScheduler 作为一个云原生大数据工作流调度平台,与当今主流的云对象存储(Amazon S3, Google Cloud Storage, Aliyun OSS等)都进行了对接与整合。本次演讲主要分享 Apache DolphinScheduler 在资源中心的文件存储和任务日志的远程存储两个场景下,如何与云对象存储进行对接与整合。

嘉宾介绍:
程鑫丨阿里云研发工程师

任职于阿里云 EMR 数据开发团队,基础平台研发工程师,硕士毕业于清华大学,Apache DolphinScheduler Committer。



演讲议题:阿里云 Apache DolphinScheduler 指标体系分享


分享时间:8 月 20 日 15:45 - 16:15


议题介绍:


介绍 Apache DolphinScheduler 指标体系,核心业务埋点等。分享如何通过指标监控保障 Apache DolphinScheduler 调度系统的稳定性,从而确保阿里云在 DolphinScheduler 上的任务稳定且快速跟踪。


嘉宾介绍:

高楚枫丨阿里云开发工程师


Apache DolphinScheduler Contributor,阿里云 EMR 数据开发团队工程师




演讲议题:数据集成技术在小米的应用与实践


分享时间:8 月 20 日 16:15 - 16:45


议题介绍:


在大数据领域,数据集成技术应用场景广泛,为异构数据系统提供便利的数据同步、共享、融合等解决方案。本次分享将深入探讨小米在数据集成技术方面的应用实践场景,包括内部的演进、自研中间件引擎能力,以及平台化的实践等方面的说明,共分为以下 3 个方面:


  • 数据集成服务现状介绍分享数据集成技术的演进路线、整体服务架构以及服务规模,从离线/实时同步场景、多源异构同步实现、链路异常容错、性能与稳定性方面遇到的问题与解决方案进行说明

  • 自研引擎能力剖析阐述流批一体实践、引擎任务编排模型,以及实践中的多项优化规则。从自研分布式引擎的实现原理、整体的技术能力与设计初衷进行说明

  • 平台化能力剖析数据质量与链路监控、异构数据平台融合,以及链路数据修正与资源预估等方面的能力。从平台化的角度出发,说明实际应用过程中,数据集成在引擎平台化过程中的实践。


嘉宾介绍:

郑钧元丨小米高级软件研发工程师


参与小米数据平台建设,有多年大数据开发经验,致力于分布式计算及数据集成技术领域建设。



专题议程

CommunityOverCode Asia 2023



作为 Apache 软件基金会(ASF)的官方全球系列大会,每年的 CommunityOverCode Asia 都吸引着来自全球各个层次的参与者、社区共同探索 "明天的技术"。8 月 18 日至 20 日,即将强势来袭的 CommunityOverCode Asia 2023 上,大家可以近距离感受来自 Apache 项目的最新发展和新兴创新。

继续滑动看下一个
ALC Beijing
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存