视频回顾 | Pulsar Summit Asia 2020 · 技术探究与生态:解析 Pulsar 组件,生态融合
关于 Apache Pulsar
Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。
当前已有众多国内外大型互联网和传统行业公司采用 Apache Pulsar,案例分布在人工智能、金融、电信运营商、直播与短视频、物联网、零售与电子商务、在线教育等多个行业,如美国有线电视网络巨头 Comcast、Yahoo!、腾讯、中国电信、中国移动、BIGO、VIPKID 等。
关于 Pulsar Summit
Pulsar Summit 是由 StreamNative 组织的 Apache Pulsar 社区年度盛会,它将分布在世界各地的 Apache Pulsar 项目 Contributor、Committer 和各企业 CTO/CIO、开发者、架构师、数据科学家,以及消息和流计算社区的精英召集在一起。Pulsar Summit Asia 旨在聚集亚洲地区 Pulsar 开发者和贡献者,促进 Apache Pulsar 在亚洲地区的发展。
Pulsar Summit Asia 2020 已于 11 月 28-29 日顺利举办。我们将陆续整理发布 Pulsar Summit Asia 2020 回顾视频,即使错过当日直播也能帮你了解精彩分享。今日推送 Pulsar Summit Asia 2020 技术探究与生态专场,敬请查收哟!
技术探究专场
技术探究:Apache Pulsar 的事务型事件流
丛搏
丛搏是 StreamNative 的软件工程师。在加入 StreamNative 之前,曾工作于智联招聘,负责智联招聘基于 Apache Pulsar 的事件平台开发工作,他对运维方向感兴趣。
视频介绍:Apache Pulsar 提供最高级别的消息分发保证“exactly-once”,通过 Idempotent Producer 在单个分区中实现产生。保证用户通过每个 Idempotent Producer 生成的每条消息都能实现 “exactly-once”语义,没有数据丢失。但是,当 producer 试图向多个分区发送消息时没有“原子性”保证。从 consumer 角度看,acknowledgment 是一项必要的操作,但这会导致消息重新分发,既而 consumer 收到重复的消息。Pulsar 仅保证了 consumer 的 “at-least-once” 消费。当我们用 Pulsar 构建关键应用服务(例如计费服务)时,就会遇到不便和复杂性。
Pulsar 在 2.7.0 版本中引入了对事务的支持,以简化使用 Apache Pulsar 和 Pulsar Function 打造可靠和故障容错服务的过程,其他流处理引擎目前只提供了 end-to-end exactly-once(端到端的“严格一次”)。本视频深入分享了 Pulsar transaction(Pulsar 事务)的技术细节,解析 Pulsar transaction 工作原理与机制。
基于 AWS 的基准测试过程与结果:Pulsar 与 Kafka 对比测试
李鹏辉
StreamNative 软件工程师,Apache Pulsar Committer/PMC 成员。李鹏辉曾任职智联招聘,期间他作为主要推动者将 Apache Pulsar 落地智联招聘。他的工作经历始终围绕消息系统和微服务,目前已全力投入到 Pulsar 的世界中。
视频介绍:Apache Pulsar 与 Kafka 是在流领域最引人关注的两个系统,大家也经常提到两个系统性能之类的话题。我们也很好奇,那就是如果放到同一硬件环境下,Pulsar 和 Kafka 各自表现究竟如何呢?因此,我们团队尝试在同一 AWS 环境下并花费大量时间完成了该测试。很感谢能有这个分享的机会,我将借此分享两个系统的基础测试结果,包括指导大家如何做自己的基准测试,以及在基准测试过程中我们遇到的相关问题。
本基准测试结果包括诸多方面,如有 write throughput(写吞吐)、tailing read throughput、catchup read throughput、publish latency 以及两个系统的 latency end-to-end latency(端到端延迟)。
KoP(Kafka on Pulsar) 工作原理解析:助力你从 Kafka 到 Pulsar
徐昀泽
2020.09 至今任职 StreamNative,担任软件工程师;2019.07 - 2020.08 任职奇虎 360,担任后端开发工程师
视频介绍:KoP(Kafka on Pulsar) 的诞生主要是希望在 Apache Pulsar 上原生支持 Kafka 协议。将 KoP 协议处理插件添加到现有 Pulsar 集群后,用户不用修改代码就可以将现有的 Kafka 应用程序和服务迁移到 Pulsar。这样,Kafka 应用程序就可以使用 Pulsar 的强大功能,例如利用 Pulsar 企业级多租户特性简化运营;避免数据搬迁,简化操作;利用 Apache BookKeeper 和分层存储持久保留事件流;利用 Pulsar Functions 进行无服务器化事件处理等等。在本视频,对 KoP 进行了简明介绍,也分享了 KoP 工作原理与使用技巧等等。
详解 Pulsar Function:基于 Go 语言的 Apache Pulsar 轻型计算框架
冉小龙
Go 语言爱好者,开源发烧友,Apache Pulsar Committer。目前在 StreamNative 任职高级软件工程师,是 Go Function、Pulsar Go 语言客户端和 Pulsarctl 项目的作者。
视频介绍:Apache Pulsar 是下一代云原生分布式消息流系统和实时处理平台。Pulsar Function 作为 Apache Pulsar 的计算组件,是消息和计算平台在无服务器架构(Serverless)方向重要集成与创新。在本视频,分享了如何基于 Go 语言构建 Pulsar Function。
Pulsar Manager:强大的 Apache Pulsar 界面管理工具
俄广宁
俄广宁是 Apache Pulsar Committer,也是 Apache Pulsar IO 和 Apache Pulsar Manager 的主要贡献者。他目前在 StreamNative 担任高级软件工程师,在云平台、云计算和大数据领域具备丰富经验。
视频介绍:Apache Pulsar Manager 是一款管理和监控 Pulsar 的 Web 图形化工具,一个 Pulsar Manager 可以监控管理多个 Pulsar 集群。在本视频,分享了为何以及如何安装、部署 Pulsar Manager,并给大家演示了 Pulsar Manager 运行 Demo。
在 Kubernetes 使用 dLocal 部署 Apache Pulsar 实践
郑泓超
郑泓超是 DaoCloud 高级存储工程师,在云原生存储方向具有丰富的经验。他将 Portworx 引入到了 SAIC 和海尔,他也是 Piraeus 云原生存储项目的贡献者。之前,他在 EMC 担任 ScaleIO 技术工程师。
视频介绍:Apache Pulsar 通常使用本地持久卷部署以获得最佳性能。但是,Pulsar Operator 自带的本地存储配置器只能进行静态配置。Daocloud dlocal 系统不仅可以执行动态配置,还提供池、容量管理以及对本地存储器进行报警。DaoCloud dlocal 适合在生产环境中运行 Pulsar,所以在本视频详细介绍了这一实践。
生态专场
Apache Pulsar + Flink:批流融合统一之路
翟佳
翟佳是 StreamNative 联合创始人兼 CTO,也是 Apache BookKeeper 和 Apache Pulsar 项目 PMC 成员。他不断为 Apache BookKeeper、Apache Pulsar 和 Apache DistributedLog 做出贡献。在 StreamNative 工作之前,翟佳曾在 Streamlio 担任核心工程师,在 EMC 北京担任首席工程师和技术负责人。他主要致力于分布式存储服务和大数据基础架构研究。
视频介绍:Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。尽管 Apache Flink 支持统一的批处理和流计算,但大多数流式存储系统均不支持它。Apache Pulsar 的独特设计与当前正在开发的一些新功能相结合,解决了这个问题。在本演讲视频中,介绍了批流融合带来的新特性,例如并行批处理读取使用批处理工作负载、Key_Shared 订阅等。
当 TiDB 遇见 Apache Pulsar:实时大数据场景下的联合解决方案
赵一霖
PingCAP 软件工程师
视频介绍:大数据时代,各类应用对消息解决方案的要求不仅仅是数据的流动,而是要在持续增长的服务和应用中传输海量数据,进行智能的处理和分析,帮助业务做出更加精准的决策。
TiDB 是一款由 PingCAP 开发的开源 NewSQL 数据库,定位于在线事务处理/在线分析处理的融合型数据库产品,实现了一键水平伸缩、强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。在 TiDB v4.0.4 版本中,TiCDC 开放数据协议可以与 Pulsar 实现无缝对接。Pulsar 与 TiDB 联合解决方案提供实时、高吞吐、稳定的数据输出,满足用户在大数据场景中对各类数据的应用与分析需求,广泛适用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等场景。借助 Pulsar 所具有的 GEO-Replication 功能,Pulsar 与 TiDB 联合解决方案可以为 TiCDC 的消费者带来地理位置无关的变更事件订阅能力。同时,Pulsar 集群的快速节点扩容、故障的快速恢复能力可以为 TiCDC 事件的消费方提供更优的数据实时性保障。在本次演讲视频中,分享了 Pulsar 与 TiDB 联合解决方案的系统架构、应用场景与实践案例等内容。
Apache APISIX 生态集成 Apache Pulsar:探索与规划
温铭
Apache APISIX VP,api7.ai 公司 CEO
视频介绍:Apache APISIX 是一个云原生的 API 网关项目,它与各种系统都有很好地集成,包括消息队列系统。在本演讲视频中,介绍了 Apache APISIX 如何与 Apache Pulsar 集成探索与规划。
实时 IoT 数据管理解决方案:Apache IoTDB 与 Apache Pulsar 之间的化学反应
黄向东
Apache IoTDB VP,清华大学助理研究员
视频介绍:在工业互联网应用中,机器设备上大量采集点不断产生高通量序列数据,有效管理这些数据是实现工业互联网应用的基础。Apache IoTDB 是一款专为海量工业物联网数据设计的数据库系统。本次演讲视频介绍了 Apache IoTDB 如何联合 Apache Pulsar,共同打造工业物联网数据实时管理与处理方案。
系列推荐
•视频回顾 | Pulsar Summit Asia 2020 · 主题演讲•视频回顾 | Pulsar Summit Asia 2020 · 场景案例(上)•视频回顾 | Pulsar Summit Asia 2020 · 场景案例(下)
点击「阅读原文」,关注 Pulsar Summit Asia 2020 演讲视频动态