其他
字节跳动数据集成引擎 BitSail 开源架构演进和实践
导读 随着大数据的快速发展,在数据建设的过程中通常需要把数据从 A 系统导入 B 系统,我们称之为数据集成。数据集成是数据建设的基础,主要解决以后数据源间数据传输、加工和处理的问题。本文将介绍字节跳动数据集成引擎 BitSail 开源架构的演进和实践。
今天的介绍会围绕下面几点展开:1. BitSail 背景介绍
2. BitSail 新功能介绍
3. BitSail CDC 解决方案
4. 未来展望
5. Q&A
分享嘉宾|李畅 字节跳动 字节跳动大数据工程师
编辑整理|李同学
内容校对|李瑶
出品社区|DataFun
1. BitSail 数据集成业务场景
2. BitSail 的基础能力和业务案例
3. BitSail 演进历史
BitSail 新功能介绍
1. BitSail 数据同步架构
2. BitSail 代码结构
3. 多引擎架构
引擎基于可插拔设计,支持轻量化的分布式计算引擎; Connector 提供引擎无关的读写接口; 框架层与引擎解耦。
4. 数据处理架构演进
ETL 阶段,数据同步和加工揉在一起。 ELT 阶段,将数据同步和加工分开,使数据处理的过程分工更清晰。 EtLT 阶段,数据的实时性要求越来越高,因此需要在数据同步时也能做一些轻量化的处理。
5. 自动化测试引擎
BitSail CDC 解决方案
1. CDC 背景介绍
2. CDC 同步使用场景
对数据进行离线同步到 Hive 和 ClickHouse 等进行数仓建设,进行离线数据分析。 将数据同步到 Doris 和 StarRocks 等 MPP 数据库,支持实时看板等准实时分析。 将数据同步到如 ES 数据库进行在线搜索数据分析。
3. 离线整库同步解决方案
4. CDC 整库同步解决方案
第一阶段,CDC Batch(离线全量)阶段。该阶段进行全量数据导入,主要完成自动建表、一次性全量导入、全量任务调度。 第二阶段,增量实时任务阶段。首先通过 Debezium 采集源端 Binlog 日志,并统一数据格式,然后通过 Kafka 等消息队列提供给下游消费或直接同步到下游。 第三阶段,通过 Partition 分流器将单表数据融合。 第四阶段,通过 Sink 算子将 Change log 数据同步到下游系统。
5. CDC 整库同步解决的问题
7. CDC 整库同步运行页面
未来展望
Q&A
分享嘉宾
INTRODUCTION
李畅
字节跳动
字节跳动大数据工程师
专注大规模数据的分布式计算和传输领域,提供高效、可靠的全域数据集成解决方案;开源社区爱好者,BitSail 开源项目负责人之一。
往期推荐
点个在看你最好看