Flink CDC 2.3 发布,持续优化性能,更多连接器支持增量快照,新增 Db2 支持
01
Flink CDC 简介
作为新一代的实时数据集成框架,Flink CDC 具有全增量一体化、无锁读取、并行读取、表结构变更自动同步、分布式架构等技术优势,同时社区提供了完整的文档支持 [2]。在 Flink CDC 开源的两年多时间里,社区成长迅速,目前 Flink CDC 社区已有 76 位贡献者,7 位 Maintainer,社区钉钉用户群超过 7800 人。
02
Flink CDC 2.3 概览
2.3 版本共有 49 位社区贡献者参与贡献,累计解决 126 个 issue,合并了 133 个 PR,贡献者们累计贡献了 170+ 提交。从代码分布上看,MySQL CDC, MongoDB CDC, Oracle CDC,增量快照框架(flink-cdc-base)模块以及文档模块均为用户带来了很多特性和改进。
新增 Db2 CDC 连接器, 解锁读取 Db2 数据库,支持全量和增量一体化同步。
MongoDB CDC,Oracle CDC 两大连接器均接入了增量快照框架,从而提供了无锁读取,并发读取和断点续传的能力。
MySQL CDC 连接器在 2.3 版本里进行了诸多性能优化和稳定性大改进,极大提升了生产稳定性和性能。
Flink CDC 2.2 版本兼容了 Flink 1.13 和 Flink 1.14,Flink CDC 2.3 在此基础上继续兼容了 Flink 1.15 & 1.16 大版本,从而兼容了 Flink 的四个大版本。这意味着 CDC 的 SQL connector 可以跑在不同的 Flink 集群上而无需任何修改,如果是 DataStream 用户也可以参考 SQL Connector 的打包方式,实现跨版本兼容。
OceanBase CDC 连接器支持将全部数据库类型对接到 Flink SQL,也就是说 OceanBase 所有类型的字段均支持同步。
MySQL CDC 和 OceanBase CDC 连接器提供中文文档,这可以更好地帮助到中文用户。
03
详解核心特性和重要改进
Flink CDC 2.3 版本带来了诸多重要的改进和特性,本文挑选最重要的四个进行深入解读。
3.1 新增 Db2 CDC 连接器
3.2 MongoDB CDC,Oracle CDC 连接器支持增量快照算法
3.3 MySQL CDC 连接器优化
作为社区最受用户关注的 MySQL CDC 连接器,2.3 版本中社区引入了诸多高级特性,极大地提升了性能和稳定性,具体包括:
3.3.1 支持指定位点启动
MySQL CDC 连接器支持从指定的位点启动作业。可以通过 timestamp,binlog offset 或 binlog gtid 的方式指定作业启动时的 binlog 具体位置,还支持设置为 earliest-offset 从最早的 binlog 位点启动作业。
3.3.2 分片算法优化
2.3 版本对全量阶段分片算法进行优化。将目前的同步分片改为异步进行,支持用户指定主键中某一列作为分片的切分列,并且分片过程支持 checkpoint,提升了全量读取阶段时因为同步分片阻塞导致的性能问题。
3.3.3 稳定性提升
3.3.4 性能提升
2.3 版本 MySQL CDC 重点优化了内存和读取性能,通过 JM 里的 meta 复用和 TM 中流式读取等改进降低了 JM 和 TM 的内存使用;同时通过优化 binlog 解析逻辑提升了 binlog 读取性能。
3.4 其他改进
Flink CDC 2.3 版本兼容了 Flink 1.13,1.14,1.15 和 1.16 四个大版本,极大地降低用户 Connector 的升级和运维成本。 OceanBase CDC 修复了时区问题,支持全类型对接到 Flink SQL,并提供了更多的配置项,支持更灵活的配置。如新增加 table-list 配置项,支持访问多张 OceanBase 数据表等。 MongoDB CDC 支持了更多的数据类型,优化了捕获表的筛选过程。 TiDB CDC 修复了全增量切换时数据丢失问题,支持读取时 region 切换。 Postgres CDC 支持 geometry 类型,开放了更多配置项,支持配置 changelog mode 来过滤发送的数据。 SqlServer CDC 支持了更多的版本,并对文档 [4]进行完善。
MySQL CDC 和 OceanBase CDC 连接器提供了中文文档 [5][6],此外还对 OceanBase CDC 连接器提供了视频教程 [7]。
04
未来规划
Flink CDC 开源社区的发展,得益于贡献者们的无私贡献和 Maintainer 成员的开源布道,更离不开广大 Flink CDC 用户群体的积极反馈和宣传布道,Flink CDC 社区将会继续做好开源社区建设。当前 Flink CDC 社区正在做 2.4 版本的规划 [8],也欢迎所有用户和贡献者参与反馈,在接下来的 2.4 版本,社区主要方向计划从下述四个方面展开:
数据源完善
可观测性提升
性能提升
易用性提升
致谢:
感谢所有为 Flink CDC 2.3 版本做出贡献的覃立辉、莫贤彬、rookiegao、He Wang 等 49 位社区贡献者,特别感谢社区的四位 Maintainer 成员阮航、孙家宝、龚中强和任庆盛为 2.3 版本发布所做的杰出工作。
阿里云实时计算 Flink 版提供更多企业级 Flink CDC 能力 [9],包括了分库分表合并、表结构变更同步、整库同步等重要功能,更好的支持了阿里云实时数仓 ODPS-Hologres 等产品,同时使用可无缝构建实时数据仓库。欢迎感兴趣的用户移步阿里云产品官网体验使用。
贡献者列表:
附录:
PC 端直播预约
建议前往 FFA 2022 大会官网预约直播
https://flink-forward.org.cn/
▼ 关注「Apache Flink」,获取更多技术干货 ▼