其他
基于 Flink CDC 的现代数据栈实践
1. 深入解读 Flink CDC 2.3 版本 2. 基于 Flink CDC 构建现代数据栈 3. 阿里云内部实践和改进 4. Demo & 未来规划
01
深入解读 Flink CDC 2.3 版本
1.1 Flink CDC
1.2 Flink CDC 2.3 基本介绍
1.3 Flink CDC 2.3 技术改进
支持了 Db2 数据源。
Oracle CDC 支持增量快照。
MongoDB CDC 支持增量快照。
MySQL CDC 支持指定位点。
MySQL CDC 性能优化。
OceanBase CDC 支持了 OceanBase 的全部数据类型。
兼容 Flink 1.15 & 1.16 两个大版本。
提供中文文档及视频教程支持。
1.4 Flink CDC 2.3 核心特性解读
新增 Db2 数据源支持。
MySQL CDC 稳定性提升。
Oracle CDC 支持增量快照读取。
MongoDB CDC 支持增量快照读取。
支持指定位点启动,包括 timestamp、binlog offset、binlog gtid、earliest-offset 这这几种方式来指定位点。
稳定性提升,包括自动获取服务器时区;支持全字符集;支持解析更宽容的默认值;边界条件下的数据一致性问题修复等改进。
分片算法优化,包括支持异步分片;支持自定义切分列;分片过程支持 Checkpoint。
性能提升,包括 JM 内存优化;TM 全量阶段内存优化;Binlog 读取性能优化。
02
基于 Flink CDC 构建现代数据栈
2.1 现代数据栈(Modern Data Stack)
2.2 现代数据栈组件
2.3 开源现代数据栈
2.4 基于 Flink CDC 的现代数据栈
03
阿里云内部实践和改进
3.1 常见业务场景的实践
3.2 常见业务场景的扩展和改进
04
Demo & 未来规划
4.1 Demo
■ Demo 演示
4.2 未来规划
支持 Batch 模式,优化全量阶段的读取性能。
支持限流配置,减少全量阶段对数据库的影响。
提供更丰富的监控指标,如已处理的表数量,不同类型变更记录的处理数量等。
后续也会持续提升 CDC Connector 的易用性和性能。如增量框架在全量阶段结束后的 reader 资源释放,更多的数据源应用增量快照框架等。
往期精选