AutoMQ 携手阿里云共同发布新一代云原生 Kafka,帮助得物有效压缩 85% Kafka 云支出!
3 月 9 日,“AutoMQ x 阿里云云原生创新论坛”在阿里巴巴西溪园区圆满落幕。本次论坛现场不仅重磅发布了新一代云原生 Kafka 产品(AutoMQ On-Prem 版),还邀请了来自得物的稳定生产负责人分享 AutoMQ 在生产场景中的应用实践,以及阿里云的资深专家为大家剖析多 AZ 块存储的原理。
现场吸引了众多技术爱好者参加,大家探讨氛围热烈。下面就让我们来回顾本次论坛的精彩内容。
活动现场照片
一、AutoMQ:加速云原生创新,助力大数据上云
AutoMQ 联合创始人 & CEO 王小瑞老师带来了主题为《AutoMQ:加速云原生创新,助力大数据上云》的技术分享,本次分享有以下几个核心观点:
Kafka 在数字化系统中具有举足轻重的生态地位,但长期困囿于四大生产痛点
● 云账单失控
Kafka 消耗大量的计算、存储资源,对于国外的云厂商还将收取跨 AZ 的复制流量费。对于企业来讲,Kafka 的 IT 成本占比越来越高。
● 扩缩容复杂度高
扩容 Kafka 集群风险极高,需要以复制的形式迁移分区,带来极高的稳定性风险。
● 冷读抢占 IOPS 和网络带宽
业务正常的数据回放需求将抢占宝贵的带宽和磁盘资源,影响数据写入的实时性。
● 多租户带来的“近邻干扰”问题
因缺乏弹性能力,企业往往通过多应用共享 Kafka 集群缓解成本问题,但随之带来了多租户共享下的一些「近邻干扰」问题。
诞生于 13 年前的 Kafka 是面向物理硬件设计的,与今天的云计算环境格格不入
在 IDC 环境,有着单机算力有限,通过预算制购买机器的鲜明特征,意味着计算资源很难水平或者垂直弹性,同时受到存算一体的局限性,Kafka 采用了经典的 Shared-Nothing 架构以提高在 IDC 环境的可扩展性。但今天,在云上,算力几乎无限,通过 API 按需创建计算资源,存储按量付费,同时存算天然分离,这些特征显著区别于 IDC 环境。
云服务将逐渐演进为多云原生架构,云托管(Cloud-Hosted)类型的云服务即将被淘汰
在互联网高速发展的时代,云计算厂商为了满足互联网企业的快速上云、弹性的需求,以最快的速度提供了一批「Cloud-Hosted」的云服务,帮助企业以 Rehost 的方式快速上云。以成本换效率的上云方式需要高速发展的业务来支撑,在今天降本的大环境下,以云原生,甚至多云原生重新设计的云服务相较于「Cloud-Hosted」的云服务将在弹性、成本、容量、效率等各方面有数量级的优势,云托管(Cloud-Hosted)类型的云服务即将被淘汰。
AutoMQ 全面的云原生技术栈,为 Kafka 带来了 10 倍的成本优势和百倍的效率提升
AutoMQ 的云原生架构是一个将云的能力发挥到极致的架构,首先通过将存储层完全替换为云原生存储,利用对象存储和 EBS 加速,提供了低延迟、高吞吐、低成本和容量无限的流存储服务。然后,受益于几乎无状态的云原生存储,计算节点可以充分利用 Serverless 技术按需使用计算资源,同时能撬动 Spot 实例带来的进一步降本。AutoMQ 创新的云原生架构达到了 10 倍的成本优化,百倍的弹性效率提升,100%兼容性认证等优势。
AutoMQ 联合创始人& CEO 王小瑞介绍 AutoMQ 产品
二、阿里云 x AutoMQ 联合发布:新一代云原生 Kafka
活动现场,阿里云产品生态发展部总经理赵林与 AutoMQ 联合创始人 & CEO 王小瑞联合发布了“新一代云原生 Kafka”。该产品以计算巢的方式正式入驻了阿里云云市场,感兴趣的企业可以一键生产云原生的 Kafka 集群:https://market.aliyun.com/products/55530001/cmgj00064902.html。
在随后的演讲中,赵林非常相信 AutoMQ 背后的技术团队凭借在消息中间件领域多年的积累,一定能为企业带来极具竞争力的新一代云原生中间件。同时,针对近期上云下云的一些观点争论,赵林也给出了自己的看法:
“阿里云拥有专业的存储、优秀的 ISV 和互联网客户。对于企业来说,更多地利用云服务是明智之选。”
作为产品生态发展部的总经理,赵林鼓励更多的创业厂商基于云去构建更有竞争力的 PaaS 和 SaaS 产品,阿里云会大力支持类似 AutoMQ 这样的企业在云上发展和迭代。
“阿里云是非常开放的,站在生态的角度,我们鼓励竞争,希望基于阿里云基础设施的产品能够繁荣发展。”
最后,AutoMQ 联合创始人 & CEO 王小瑞揭晓了产品价格,他表示云技术应该普惠,价格应像水电煤一样便宜。阿里云近期大幅降价,AutoMQ 充分利用云原生基础设施优势,相比友商账单下降 50% 以下,并以 7 折价格服务新客户,提供专业支持。
阿里云 x AutoMQ 联合发布:新一代云原生 Kafka
三、得物基于 AutoMQ 构建万亿级监控体系,有效压缩 85% 的云支出
得物稳定生产负责人郝豪老师首先分享了得物 SLA 从业界第四梯队做到持续业界第一梯队的历程,郝豪分享的经验引起了现场同学的共鸣。
坚持技术创新
这可能是得物能快速将 SLA 做到业界领先的原因,得物构建了端到端的可观测体系,推广蓝绿发布/同城双活架构,建设混沌工程基础设施,一直在坚持探索稳定性领域的先进技术。
聪明人一起下笨功夫
稳定性有其高大上的一面,也有需要埋头苦干的另一面,聪明人一起坚持做一件事情可能是得物稳定性的内涵,郝豪提到他在业务场景的治理上,告警规则的梳理上,持续做了 3 年,从 21 年到 23 年持续在投入,每一年都有不同的方向和目标。
提到 Kafka 在得物稳定性的应用场景,郝豪分享了在 23 年的双十一,因 Kafka 在高峰期间无法扩容,导致部分 Trace 相关的产品化能力被降级。同时,得物的业务一直处于快速发展,基本上每隔 3 个月数据就有很大的增长,也导致 Kafka 集群每隔 3 个月就需要扩容一次,每次扩容得折腾好几天,非常痛苦。为了应对突发的流量洪峰,快速扩缩容,得物在 23 年下半年的时候开始评估 AutoMQ,讲到这里,郝豪分享了得物引入 AutoMQ 的期望和一些思考。
要降本增效,不仅要降本,还要把业务的稳定性提高一个级别
引入 AutoMQ 是为了达到降本增效的目标,但企业对降本增效的理解不能片面化,首先如果企业降本把“效果”降下去了,那省下的成本会对业务带来更大的损伤,这对得物来讲是完全不能接受的。其次,降本要有数量级的差异,如果说只降低 10% 或者 20%,用一些传统的手段就能达到,比如缩短数据的生命周期,优化编解码等,但要做到数量级的降本,需要从架构上优化整个链路。
选择 AutoMQ,还有人效的考虑,得物不可能投入人力进行无效调研
这也反映了郝豪的工程师哲学,当一个新物种出现时,如何进行选型。郝豪有两个观点:
● 新的技术方案不能破坏现有业务的兼容性,要做到上层透明无感知。
● 技术方案不能过于复杂,要简单易于理解,得物没有办法投入大量人力去熟悉一个复杂的系统。
AutoMQ 100% Kafka 兼容的存算分离架构,以及将复杂度用云原生的方式进行卸载,这些理念正好符合得物的选型标准。最终,得物引入了 AutoMQ,以降低成本、提高系统稳定性和运维效率。通过对新系统特性的观察和分析,AutoMQ 匹配他们系统需求,并决定尝试引入并持续改进。
当在场的观众问到云计算到底为得物带来了什么核心价值,郝豪老师的观点幽默却也引人深思。
得物是阿里云上一个典型的互联网客户,对云的压榨还不够狠,没有像 AutoMQ 那样将云用到极致
得物稳定生产负责人郝豪老师分享
AutoMQ 在生产场景中的应用实践
四、云上企业级块存储的技术与最佳实践
在论坛的最后,阿里云高级技术专家张乐和存储产品专家陶毅进行了压轴分享,介绍了 ESSD 产品技术体系,ESSD 虽然以块设备的形式提供使用,但区别于本地盘,ESSD 已经是具备 99.995% 可用性和 12 个 9 持久性的云存储服务。除了在业务连续性、性能表现和业务便捷性等维度有显著提升外,ESSD 还提供了大量的产品化能力,包括:
● 容灾多活能力,以异步复制和同城冗余两种机制满足不同业务场景的容灾需求。
● 灵活的快照策略,同时满足一致性要求,且无损 IO 性能,还具备跨区域复制等产品能力。
● 多维度的弹性和共享能力,支持空间和性能的弹性扩容,以及 NVMe 共享访问,在一写多读和多写多读都有应用场景。
不难发现,ESSD 相较于本地盘是硬件和服务的区别,应用程序依赖 ESSD 提供的产品化能力,完全能构建满足多种业务场景的存储服务,提供差异化的可靠性、成本、以及容灾指标。
最后,张乐预告了阿里云即将发布的 Regional ESSD 产品系列,该产品基于盘古多 AZ 同城冗余数据分布和一致性读写技术,能容忍 AZ 级故障。同时,支持 Region 内 VM 跨可用区挂载以及多可用区 NVMe 共享挂载。阿里云也是国内第一家支持 Regional 级别的块设备的云厂商。AutoMQ 也将基于 Regional ESSD 构建多 AZ 的云原生 Kafka 技术架构,满足业务更高的可用性诉求。
阿里云的资深专家为大家剖析多 AZ 块存储的原理
现场精彩瞬间
现场技术爱好者们热情高涨,积极参与互动,与讲师们展开深入的讨论和交流。感谢大家的踊跃参与,也期待更多小伙伴参与下次活动!
资源分享
● 活动直播录屏在B站和视频号发布,详情请点击查看
END
关于我们
我们来自 Apache RocketMQ 和 Linux LVS 项目的核心团队,曾经见证并应对过消息队列基础设施在大型互联网公司和云计算公司的挑战。现在我们基于对象存储优先、存算分离、多云原生等技术理念,重新设计并实现了 Apache Kafka 和 Apache RocketMQ,带来高达 10 倍的成本优势和百倍的弹性效率提升。
🌟 GitHub:https://github.com/AutoMQ/automq-for-kafka
💻 官网:https://www.automq.com
👀 B站:AutoMQ官方账号
🔍 视频号:AutoMQ
👉 扫二维码
加入我们的社区群
关注我们,一起学习更多云原生技术干货!
👇点击下方阅读原文,前往 GitHub 了解体验!