Pulsar Flink Connector 2.5.0 正式发布
经过不断地努力,社区成功发布 Pulsar Flink Connector 2.5.0 版本。Pulsar Flink Connector 集成了 Apache Pulsar 和 Apache Flink(数据处理引擎),允许 Apache Flink 向 Apache Pulsar 读写数据。
https://github.com/streamnative/pulsar-flink/tree/release-2.5.0
下面将详细介绍 Pulsar Flink Connector 2.5.0 引入的新特性,希望能够帮助大家更好地理解 Pulsar Flink Connector 。
背景
Flink 是一款快速发展的分布式计算引擎,在 1.11 版本中,支持以下新特性:
核心引擎引入了非对齐的 Checkpoint 机制。这一机制明显改善了 Flink 容错机制,它可以提高严重反压作业的 Checkpoint 速度。 提供一套新的 Source 接口。通过统一流和批作业 Source 的运行机制,支持常用的内部实现,如事件时间处理、watermark 生成和空闲并发检测。这套新的 Source 接口可以极大地降低开发新 Source 的复杂度。 Flink SQL 支持变动数据捕获(Change Data Capture,CDC)。它使 Flink 可以方便地通过像 Debezium 这类工具来翻译和消费数据库的变动日志。Table API 和 SQL 也有助于文件系统连接器支持更多用户场景和格式,从而支持将流式数据从 Pulsar 写入 Hive 等场景。 PyFlink 优化多个部分的性能,包括支持向量化的用户自定义函数(Python UDF)。这些改动使 Flink Python 接口可以与常用的 Python 库(如 Pandas 和 NumPy)进行相互操作,从而使 Flink 更适合数据处理与机器学习的场景。
Pulsar Flink Connector新特性详解
Flink 1.11 版本升级的幅度较大,一些公共 API 发生了增删,导致 Flink 1.9、Flink 1.11 的 Pulsar 连接器无法做到兼容。本次变更使项目分为两个模块,来支持不同版本的 Flink。BIGO 的陈航、吴展鹏童鞋为此特性付出了很大的努力。
支持 Flink 1.11 版本
新增 Flink-sql DDL 支持
更新 topic 分区策略,使消费更均匀
Flink 1.11 兼容 Pulsar schema
抽象 PulsarDeserializationSchema 接口,使用户可以自定义解码,获得更多源信息。
https://github.com/streamnative/pulsar-flink/pull/95
Flink Sink 实现中,Pulsar Schema 类型支持 JSON 。
https://github.com/streamnative/pulsar-flink/pull/116
PulsarCatalog 的实现变更为继承 GenericInMemoryCatalog。
https://github.com/streamnative/pulsar-flink/pull/91
为 Pulsar Schema 增加 Java 8 常用的 Instant、LocalDate、LocalTime、LocalDateTime 等类型支持。
有关实现的更多信息,请参见PR-7874。
https://github.com/apache/pulsar/pull/7874
总结
https://github.com/streamnative/pulsar-flink/issues
相关链接
Flink 1.11 新特性(Flink-China) Pulsar Flink Connector
https://github.com/streamnative/pulsar-flink/tree/release-2.5.0streamnative/pulsar-flink
https://github.com/streamnative/pulsar-flink/issues
👍 相关阅读