查看原文
其他

CIPU落地专有云:是“小众需求”还是“机会之门”?

阿里云专有云团队 云布道师 2023-06-18

云布道师

2022 年 11 月,云栖大会主论坛,阿里巴巴集团副总裁、阿里云智能基础产品事业部负责人蒋江伟分享了阿里云专有云的一项新进展 —— CIPU 落地飞天企业版。在分析师峰会上,阿里巴巴集团研究员、阿里云专有云总经理刘国华也向分析师们详细介绍了 CIPU 在专有云商用的核心技术指标。
CIPU 落地专有云,简单的一句话,背后却是一个不简单的故事。

刘国华向分析师们介绍 CIPU 在专有云商用的核心技术指标

让阿里云骄傲的 CIPU

时间拉回到 5 个月前,2022 年 6 月阿里云峰会上,阿里云智能总裁张建锋献出“大招”,首次推出 CIPU 云基础设施处理器(Cloud Infrastructure Processing Units),这是一套为云而生的全新计算体系架构。
罗马不是一天建成,这一架构先从「神龙」开始,然后通过「洛神」解决网络性能瓶颈问题,最后「盘古」实现对存储资源的云化加速,是三大计算核心组件全面加速的成果。
云计算优势众多,但是虚拟化带来的资源损耗过大,一度是困扰云服务商的“卡脖子问题”。在 CPU 通用架构之下,云厂商在软件层面的优化早已走到尽头,于是转身开始从硬件侧攻克。在 2017 年 10 月,阿里云神龙横空出世,通过软硬一体化思路来解决虚拟化开销问题,比亚马逊 AWS 的 Nitro 架构早了一个月。

淮南为橘,淮北为枳?

CIPU 对于阿里云来说,是一个强有力的竞争门槛。早期的神龙架构通过将虚拟化损耗不断降低,在部分场景下甚至可以实现超越物理机的性能,帮助阿里云降本增效,在公共云的红海市场中,以技术加深了市场护城河。
在公共云上纵横披靡的 CIPU,是否适合专有云呢?虽然阿里云专有云一直和公共云技术架构同源,采用相同的飞天云计算操作系统,但是二者服务的客户群体却有很大区别。专有云作为一种部署形态,一般是政企大B 客户通过资产自持的方式,建立自己的云计算数据中心。
除了少数需要对外提供行业云服务的政企外,很多政企的云平台只需要面向内部提供平台侧服务,不需要面向外部提供租户侧服务。也就是说,资源反正都已经买回家了,虚拟化损耗问题虽然也是问题,但是远没有稳定、弹性、性能等问题重要。
阿里云的大招 CIPU,对于专有云,究竟是食之无味的鸡肋,还是能撬动政企市场的神之一手?

CIPU 一小步

核心应用上云的一大步

一项技术是否能够撬动市场,很大程度上取决于这项技术是否能切中客户的核心需求。
对于政企客户而言,他们对于云平台的痛点在哪里?为什么有些政企迟迟不将核心应用从传统架构迁移到自家的云平台?又是为什么,很多政企客户即使建了云,使用率也并不高?
两个字概括原因:运维
与公共云不同,在专有云的部署形态下,运维主体从云厂商迁移至政企自身。政企 CIO 要面临的核心课题,就是把 IT 基础设施运维好,能稳定支持业务的发布、变更和运行。而现在,政企需要同时维护好两套端到端完全不同的技术栈,这是非常困难的。特别是在运维压力最大的 IT 基础设施领域,传统专有硬件基础上的各种封闭系统,与软件化服务化 IaaS、DBaaS 等系统,在技术架构、运维方法、生态体系方面,差异巨大。这种割裂的方式,带来了很高的复杂性和挑战,也越来越难以持续。
这里可能会有疑问,为什么要维护两套技术栈呢?既然云计算是未来,为什么不把所有的业务都放在云上呢?
不是不想,而是太难。
过去 30 年,政企借助传统软硬一体、存算分离的集中式数据库架构,支持保障核心业务系统的建设和发展。之后,随着数字化转型大潮涌来,政企也在发展互联网型的创新业务,数据量急剧增多,数据库也逐渐从 Shared Mem/Disk 的集中式架构,向 Shared Nothing 分布式架构演变。
互联网型的创新业务往往是从 0 到 1 使用云原生的方式开发建设,没有历史包袱,上云步伐非常轻快。然而,还有大量的核心生产业务和传统业务,仍然停留在基于单台物理机本地盘的数据库中。如果要这些业务和互联网业务一样走向分布式架构,那就要求政企对大量应用架构配套进行分布式重构。
可是许多政企的传统应用负载积累了几十年,弹性扩展要求不高,大多是外采或外包定制开发,政企自己的软件开发运维人员很少,很难快速实现全面的云原生化重构。
如果没有好的解决方案,政企的大量传统业务就会迟迟停留在传统 IT 基础架构上,只有少量的互联网业务在云平台上运行。这就导致了上文所说的“运维两套技术栈”的难题。

政企客户不想大跃进

需要陪伴式一步一步前行

2B IT 市场的发展,不是一蹴而就的,而是陪伴式的。既然政企客户传统应用快速全面 PaaS 云原生重构不现实,那是不是可以有另一种解题思路,让客户只对传统应用做少量云就绪化改动,通过 IaaS 平迁的方式上云呢?
神龙+VPC 网络+全闪云盘的新一代软硬一体、存算分离架构,配合其上部署的、封装了分布式技术,对客户提供 100T 容量、100 万 QPS 的集中式大型数据库 PolarDB,就可以很好地满足这一要求,使政企不一定都要做云原生分布式改造,也能进行 IaaS 托管式平迁上云。
阿里云专有云首席架构师张晓丹,一直坚信 CIPU 对于政企客户的巨大价值。因为他认为,Back to basic,回归技术本源,云计算的核心本质是池化共享、按需服务、敏捷弹性。之前专有云上的各个云产品分散在各自的物理机上,无法形成共池,弹性也受损。如果能够借助 VPC 内存算分离的 ECS,把计算、存储、网络三大件分别池化服务化,再带动上层产品池化服务化,就能为云产品带来更好的按需服务敏捷弹性、与客户应用共池复用、最小交付部署起步、增加容灾备份企业特性等好处。但是,云产品全面上 ECS,也会带来存算分离时延大,相比物理机虚拟化开销更大的问题。
作为 CIPU 的前身,神龙软硬一体解决方案的技术本质,就是用软件定义硬件卸载的新一代软硬一体、存算分离架构,取代之前硬件定义系统集成的传统软硬一体、存算分离架构,让 ECS 存算分离架构容量吞吐量更大,单位成本更低,同时保证弹性,让用户能敏捷获取资源。
理论合理,回归现实,CIPU 在专有云的表现究竟如何?

走向政企之前

需要用事实和数据说话

政企客户需要了解实现的过程,看到真实的测试数据甚至实践案例,才可能对新技术产生信任。
2020 年,一场技术原型验证在阿里云团队默默开始了,张晓丹和架构师林泉一起选定了 3 个典型场景。尽管一开始的测试结果让所有人大失所望,好在转机很快到来,一项刚刚出炉的软件加速技术像是关键补给一样让 CIPU 的测试“鲤鱼跃龙门”,达到整体性价比刚好超越传统架构的及格水平。随着后续更新一代飞天神龙、硬件加速新技术的推出,CIPU 在专有云的整体性能和性价比也就像“开挂”了一样“一骑绝尘”,相对传统架构,在性价比上有了大幅的提升,在容量吞吐量上甚至有几倍的提升。
在家里表现优异还不够,还需要到客户的真实业务场景中接受考验。于是,阿里云和几家国有大行一同启动科研共创,基于金融客户真实的使用场景,以及大量的客户交流反馈,在两个月的实验之后,终于锁定了 CIPU 在专有云的落地场景。
2021 年的春天,阿里云专有云掌门人刘国华很明确地告诉团队,我们要在专有云的飞天企业版上,落地 CIPU。2022 年 5 月,CIPU 在飞天企业版正式发布,刘国华和他的团队,做到了。

CIPU,飞天企业版请你释放实力

CIPU 技术在专有云刚落地,就收到了国内某大型头部金融客户的需求,这一客户之前就在阿里云公共云上使用 CIPU,希望在专有云上也能实现同样的高性能和高稳定性。
结果让客户非常满意。数据库在专有云上部署的场景中,CIPU 不仅可以提供存算分离的弹性数据库架构,同时可显著提升云上数据库的性能。针对 PolarDB 和客户在 ECS 上自建数据库两个应用场景,典型使用场景的性能提升可达到 30%-50%,整体时延可降低 40%-50%。
在高性能之外,专有云 CIPU 对于政企客户另一大吸引力是拥有极致稳定的核心优势。很多金融客户对稳定性要求很高,甚至一些大型银行机构对数据库在云平台上的运行要求是“零毛刺”。之前使用传统虚拟化技术时,当并发量较高时会产生显著的资源争抢,导致数据库/云原生应用运行时性能不够稳定。通过 CIPU,飞天企业版可以实现数据库所在的计算实例与虚拟化内核之间的“0”资源争抢,完全消除因此带来的运行态毛刺。直观来说,就算进行上万笔交易,也不会有一笔交易被卡住。
目前,飞天企业版 CIPU 解决方案已经在某大型金融集团和国内某大行投入使用,从而拥有了大规模标准化交付的竞争力优势。这一方面得益于 CIPU 核心技术在公共云上的长期验证,方案被打磨得更加成熟,另一方面也得益于专有云不断提升的可运维和交付的产品化能力。

通往未来的必经之路,道阻且长

虽然 CIPU 在专有云上的实力不容质疑,但是依然受到了一些政企客户的怀疑。软硬一体使得政企担心被一家厂商绑定的风险,客户说:“我们不想用十年时间刚刚送走传统 IT 厂商,又来了一个可能再次绑定我们的阿里云”。
面对这些质疑,张晓丹一直在各种场合反复布道:软硬一体并不代表系统封闭。首先,CIPU 可以适配不同的服务器,并且向上也在开放适配数据库/大数据/PaaS 等多种解决方案,甚至客户可以自己采购类似硬件,自己设计开发 DIY 类似的架构(只是 ROI 不好)。在价格方面,CIPU 是透明的,这个成本占服务器总成本的比例小于对服务器总体容量性能的提升。这里,还没有算上时延大幅降低、企业级特性全面增强的红利。
此外,行业也有多供应商提供解决方案选择,是行业普遍认同的技术发展方向。客户还可以通过建设异构多云,防止供应商绑定,不会出现大机、小机独家垄断的局面。
一项新的技术,可能会受到市场的质疑,但是技术的发展趋势,不会就这样被打断。随着向上向下生态的不断拓展,CIPU 的优势会被不断累积放大。
软硬一体的道路,现在已经成为了行业共识。
这是一条通往未来的必经之路,可以预见的是依然很远很长,好在阿里云专有云,已经迈出了这一步。

机会之门,终究会为有准备的人打开

2022 年 11 月云栖大会专有云技术和应用实践论坛上,专有云产品负责人谢宁把飞天企业版的核心竞争力概括为“一体两翼”,其中“一体”就是指,专有云和公共云同根同源,充分利用公共云的技术红利。
而 CIPU 在专有云的落地,不仅是验证专有云竞争力的一个例子,还打开了未来更多可能性的大门。政企客户非常在意稳定,先进的技术可以在公共云上完成打磨变得成熟之后,落地专有云,以更好地服务政企。
刘国华在对内部述职的时候说到,他最欣慰的是,做专有云这几年来,没有让团队走弯路,没有让客户做小白鼠。也是因为一直以来,阿里云专有云平台的核心技术架构始终坚持与公共云保持一致,最大限度复用公共云技术研发实践红利,避免了产品技术路线分支可能的推倒重来,保持了产品技术架构稳定、平滑升级和持续发展。
而回顾整个 CIPU 落地专有云的始末,首席架构师张晓丹说他感觉最挑战的时刻,就是在项目开展最初,需要向各方反复宣讲未来的场景价值,取得广泛的共识。同时,也要引导大家,选择一起为未来投资。
如果一定要问是什么让大家凝聚起来,最终做成了这件事,那应该就是一种相信。
在阿里云,大家相信专有云是陪伴政企数智创新的同行者,必须坚定地投入专有云;专有云更相信,公共云是专有云背后的坚实依靠,只有不断充分释放公共云红利,才能更好地服务政企,拥有确定性的未来。
而未来的机会之门,终究会为有准备的人打开。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存