自研数据中心专用处理器,阿里云的“芯”逻辑是什么

创投新风向 2022-06-20 22:00 Posted on 广东

Image

  致读者:点击上方 “创投新风向 ” → 点击右上角“ ... ”→ 点选“设为星标 ★ ” 加上星标,就不会找不到我啦!

Image

国内云计算产业走到了新的十字路口:一方面,云厂商竞争愈加关注市场、订单、价格;此外,云计算技术正在进入下一代架构关键技术突破期

Image


文 | 吴俊宇 陈伊凡  
编辑 | 谢丽容


国内云计算市场经历过去几年高速增长之后,正在进入调整阶段。


目前,云厂商的收入增速在回调。与此同时,云计算技术正在进入下一代架构关键技术突破期。2020年之后,亚马逊AWS、微软Azure、英伟达、英特尔正在加速改造云计算基础设施设计方法,试图定义下一代云计算架构。比较通用的做法是,整合集群架构、改善算法与管理软件、定制芯片和硬件等,重塑基础设施。


今年年初,多位云厂商高管曾对《财经十一人》表示,国内云市场目前存在一些偏离健康轨道的现象。比如,过度关注市场、订单、价格竞争,忽略用技术创新引导客户需求。本土、海外环境在变化,国内云厂商走到了十字路口。


6月13日的2022年阿里云峰会上,阿里云智能总裁张建锋表示,阿里云今年最重要策略是“Back to Basic”,回归云计算技术本质,坚持技术“长征”。在关键阶段,阿里云试图为下代云架构提前布局。


阿里云在此时发布了一款自研的云数据中心专用处理器。这款处理器被称为CIPU(Cloud Infrastructure Processing Units 数据中心专用处理器)CIPU相对轻量级,并不是公众熟知的通用计算类芯片,而是专用于云计算数据中心的管控,可以综合调度CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit ,图形处理器)、存储硬盘、交换机等硬件。


理论上说,这款处理器会减少云厂商管理数据中心的损耗,让数据中心算力更强、网络更快,但算力成本不会明显提升。阿里云基础产品负责人蒋江伟在接受《财经十一人》等媒体采访时表示,该处理器已经在阿里云数据中心规模使用。但阿里云方面并未披露硬件方面的关键技术指标。


Image



Image

下一代云架构的路线之争


阿里云智能总裁张建锋表示,基于传统的以CPU为中心的体系架构已触及瓶颈。新一代的云计算要从数据中心内部做体系化创新,从以往的以CPU为中心的体系架构,进入以CIPU为中心的体系架构。


他解释,这款云数据中心专用处理器CIPU是阿里云的管控中心。向下接入数据中心的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器。


阿里云推出CIPU,部署下一代云架构,要先从海外云厂商、芯片厂商的动作谈起。


2020年后,海外云厂商、芯片厂商在加速设计下一代云计算基础设施的架构。新架构中搭载云操作系统的处理器从CPU变成了一个新的硬件处理器。这个硬件由软件定义、并对数据进行硬件加速。


为什么要这样做?本质原因是,CPU芯片不是为了搭载云操作系统而设计。CPU的优势是单核性能强,在指令性计算任务处理时,性能优异,但天生的数据吞吐能力小,遇到分布式大数据系统就要消耗30%到50%资源用于搬运数据。


随着数据密集型计算变多,海量数据在不同系统中搬运计算。这时,站在系统内部“十字路口”中心位置的管控CPU就变成了“坏掉的红绿灯”,数据拥堵导致性能下降。因此,需要引入新的芯片硬件,替换掉这个“红绿灯”,让数据流动通畅起来。


亚马逊的方案是Nitro。2020年亚马逊CTO沃纳·沃格斯公开撰文称,传统架构已经优化到了极限。沃格斯以AWS的客户场景举例,然而在传统架构下,仍然约30%的资源浪费到了算力、网络、存储的运营和调度管理上。这些资源没有为客户提供直接价值。


他提出的解决方案是,把大部分虚拟机管理程序迁移到专用硬件。早在2017年,亚马逊AWS就试图用Nitro系统取代上一代架构。相比于CPU芯片像“牛刀”,Nitro像是“手术刀”,可以精准解决云资源调度的问题。


在产品形态上看,Nitro既是硬件产品,也是软件系统。作为硬件,Nitro是个盒子。其中包括若干个硬件模块(操作系统芯片、安全芯片、网络加速模块等)。作为软件,Nitro是数据中心的管理模块,能直接调度监控计算、存储、网络等硬件资源。


阿里云基础产品负责人蒋江伟也强调,阿里云的CIPU和亚马逊AWS的Nitro定位类似。它既是硬件盒子,也是管控系统,对接飞天云操作系统。CIPU主要由专用芯片和控制器构成,形态像盒子或智能网卡,主要用于管理飞天云操作系统。


阿里云基础产品架构师黄瑞瑞则认为,这款CIPU针对阿里云的神龙计算平台、盘古存储平台、洛神网络平台、安全内核进行了深度的适配,会让阿里云的计算、存储、网络、安全性能有更好的表现。但阿里云的客户不会因为CIPU增加用云成本。


亚马逊AWS、阿里云这些云厂商在定制云架构的专用芯片时,芯片厂商也在同步推出相应的芯片,试图改造云基础设施。


2020年之后英特尔、英伟达等芯片巨头也在推出类似的数据中心产品。英特尔的IPU(Infrastructure Processing Units,基础设施处理器)和英伟达的DPU(Data Processing Unit,数据处理器),虽然技术路径南辕北辙,但目标都非常一致——设计一个新的管控处理器,替换掉CPU的管控职能。


网络处理器厂商博通也有相关动作,其知名产品是NPU(Network Processing Unit,网络处理器)。博通在今年6月收购云计算与虚拟化厂商VMware,其意图是以网络芯片定制能力切入,改造数据中心。


一位半导体专业技术人士对《财经十一人》表示,英特尔原本就是CPU巨头,推出IPU是满足数据密集型场景的高带宽需求。英伟达则希望用DPU连接GPU,进军数据中心市场,弥补短板。


一位云计算专业技术人士告诉我们,亚马逊AWS的Nitro、阿里云的CIPU、英特尔的IPU、英伟达的DPU各家定义和侧重不同,定制芯片的产品职能也有部分重合。但核心在于各家不会对外透露的产品设计,“这个硬件不同于其他,这个位置是软件和硬件的连接端口,要做到软硬件完美融合,才能是个好产品。”


阿里云表示,CIPU不会对外出售,因为这款产品是专门为飞天操作系统量身定制,做到了软硬一体的最佳融合。亚马逊的Nitro也仅用在自家数据中心。而作为硬件提供方的英特尔和英伟达,正在积极向其他云厂商推广自己的IPU和DPU产品。


“现在大家都在投入的阶段,谁也不信谁的,过几年才能打出个局面来。谁赢了就能定义未来的IT产业链。”这位专业人士说。



Image

成本和战略的考量


自研数据中心专用管控芯片看起来可行。接下来的问题是,成本和战略。


成本问题包括两个层面,一是云厂商自身成本,二是客户的用云成本。


如果云厂商向英伟达、英特尔采购专用的数据中心管控芯片,还要承担运营成本。此外,英伟达、英特尔提供的管控芯片仍无法完全满足云厂商的个性化需求。


对云厂商来说,自研该芯片理论上更划算。因为自研可满足个性化需求,且价格可接受,还能提升管理、优化功耗、减少云资源浪费。


海外媒体在2022年有测算,Nitro的硬件处理器成本只需数十美元,但单片CPU芯片成本是数百或数千美元。亚马逊AWS也曾公布,即使算上研发成本,Nitro定制芯片五年来的综合成本仍相比CPU芯片更低。


对云计算客户来说,他们有越来越多的数据密集型计算需求,需要价格不变的前提下,得到更高的性能。


以往Nitro定制芯片的实践结果是,云上的计算、存储、网络资源变得更快也更安全,还不必承担云厂商过去资源浪费带来的转嫁成本。阿里云基础产品架构师黄瑞瑞则对《财经十一人》表示,自研CIPU处理器不影响资源定价,对操作界面、应用开发也没有影响。


更关键的问题是战略。阿里云2020年后一直沿着“做深基础、做厚中台、做强生态、做好服务”的战略前行。“做深基础”的内涵是,做深云底座。以飞天操作系统向下延伸,定制芯片、数据库、路由器、交换机等硬件,基于阿里云的特点构建云基础设施。


在计算芯片领域,阿里云的策略是,基于“一云多芯”战略对X86、ARM、RISC-V等多种架构进行适配,兼容飞腾、鲲鹏、AMD、Ampere等多种CPU,形成标准形态的算力输出。即是围绕飞天操作系统做定制,既满足自身个性化需求,也强化自主可控能力。长期以来,阿里云一直在自研和战略紧密相关的芯片。如2020年发布的神龙DPU,2021年发布的服务器芯片倚天710。


此次发布的数据中心专用处理器CIPU是对阿里云核心技术布局的补足。强调“Back to Basic”,则是对“做深基础”的延续,也是对AWS等海外云厂商、芯片厂商改造云计算底层技术架构的回应。


过去十多年,云计算技术经历了两个发展阶段。


第一阶段是分布式和虚拟化技术替代了大型机、小型机,满足了当时企业业务扩展带来的算力弹性需求。


第二阶段出现了资源池化技术,通过把计算和存储进行分离,而后规模化编排和调度,形成了超大规模的计算和存储资源池。


技术的迭代自然促进了产业的更迭。过去三年,国内云计算产业走到了十字路口。一方面,云厂商竞争愈加关注市场、订单、价格。市场价格、商务关系上硬碰硬交战正在加剧低水平竞争。头部云厂商的收入增速普遍回调至20%-30%左右。


与此同时,在海外,云计算技术正在进入下一代架构关键技术突破期。国内云厂商的管理层开始调整业务,思考新增长路径,及重新自我定位。这个阶段更关注提高毛利率,强化核心竞争力,寻求健康可持续且有质量的增长。


阿里云是国内最大的云计算厂商。它的选择是,继续建设新的架构,从最底层的数据中心核心部件到最上层云原生软件,形成完整的自研技术体系。提升技术底层能力的价值一方面在于提升基础设施能力,强化产品竞争力。另一边,还要于优化成本结构。在未来还可以持续研发高附加值且代表产业发展方向的产品。


多位云厂商高管此前的观点是,云计算的本质是技术创新,中国企业需要理解全球市场的技术变革,而非在本土市场陷入内卷竞争。国内市场存在部分伪需求,容易在技术上把云厂商带入误区。云厂商在这种环境下,需要具备规则制定能力,还要保持克制的战略定力。


其中一位云厂商高管进一步解释,阿里云需要用技术能力牵引客户需求,确保自身在数字化市场的前瞻理解。事实上,亚马逊AWS和微软云的技术能力为其制定市场规则,获得客户关系中的主动权起到了重要作用。


阿里2022财年(即2021年3月-2022年3月)报告显示,阿里云在2022财年营收为746亿元,经调整EBITA利润为11亿元。阿里集团2022财年研发支出555亿元。该研发支出规模在2022年位居国内民营科技企业第二,仅次于华为,高于腾讯。


阿里云的新一轮“芯”战开始了,这一轮战役的核心意图是:试图在新的进展环境下强化技术投入,保持定力,确保战略主动权。

Image

全文完。更多精彩内容,请点击下面的名片,关注我们。ImageImageImage