查看原文
其他

下一代云计算基础设施架构与关键技术

The following article is from 信息安全与通信保密杂志社 Author Cismag

摘要

云计算不仅是一种商业模式,更加是软硬件技术集大成者,通过基础设施软硬件服务整合、资源高度集约,以更加灵活、可扩展的方式支持数字化业务的变革和创新。基于云计算市场趋势和业务需求的迭代更新,提出了下一代云计算基础设施架构,包括分布式的云网资源、通智融合的软硬件基础设施及异构管理及协同调度平台,并通过介绍各组件功能范围和关键要素,引出下一代云计算高效能、广分布和超大规模等特性。由于云计算新型基础设施层是下一代云计算技术创新的热点,从算力、运力和存力 3 方面分别介绍了云基础设施软硬件资源的关键技术,并分析了平台层的资源纳管和协同调度技术,最后对下一代云计算基础设施相关技术进行了展望。

云计算从诞生以来就是一种将计算、存储和网络资源以服务的形式对外提供的商业模式,是信息技术发展和服务模式创新的集中体现,得到客户和市场的高度认可。云计算已经成为数字经济发展不可或缺的基础设施,承载的应用包括传统互联网和移动互联网应用,涉及政府、交通等千行百业。云计算不仅是传统通用计算应用的数字化转型,而且包括智能计算等新型应用类型,特别是 AI 大模型的出现,对云服务能力提出了更高的要求。目前,计算机体系结构进入发展的黄金十年 ,体系结构的创新对云计算技术创新的影响正在显现,在多重因素驱动下,云计算的基础设施在架构、资源和管理等方面必将迎来一场新的技术革命。

1、云计算需求推动技术革新

信息化时代,云计算市场和业务层面的需求都推动云计算技术向前演进。在市场方面,云计算市场进入稳定增长阶段,市场竞争格局愈演愈烈,云行业巨头加速发展。在业务需求层面,以通用业务为主转变为通智网融合的新型多元业务模式,为云计算发展带来新需求。

1.1 云计算市场需求

从市场发展看,企业上云成为不可逆转的趋势。2023 年 7 月 6 日,国际数据公司(International Data Corporation,IDC)发布的《全球公共云服务半年度跟踪报告》显示,2022 年全球公共云服务市场收入总计达到 5 458 亿美元,比 2021 年猛增 22.9%。根据 Gartner 的预测,2023 年全球用户在公共云服务上的支出预计将增长 20.7%,总计将达到 5 918亿美元。从市场格局来看,云计算领域的国际竞争加剧,中美差距正逐渐拉大,亚马逊 AWS、微软云Azure 保持高速发展态势,市场份额占全球一半,谷歌云 2022 年所占的市场份额为 6.1%,超过了阿里云的 5.2%,取代阿里云成为全球第三大云厂商。

1.2 云计算业务需求

从业务发展来看,通算业务数量激增,智算、超算业务异军突起,网算业务特色发展 ,多元业务融合推动新型业务模式的出现,为云计算的计算规模、存储容量、网络连接、服务模式等方面带来新的需求。以工业互联网、元宇宙为代表的新型业务场景融合通算、智算、网算多元业务,具有通算实时处理、智算推理决策、云网融合生态构建多方位需求;政策引领企业深度上云用云,赋能传统企业数字化转型升级,企业数字化转型要求云基础设施具有快速响应、高可用性、高扩展性等特性;大模型推动智算业务高速发展,需要处理海量数据、大规模的参数训练,对算力、存储、网络等基础设施高性能、大容量、低带宽的需求日益增长;主流云商、运营商持续推动网络全面上云,催生云计算基础设施向通信行业深度定制化升级,需在基础设施层面彻底打破云和网的技术边界,构筑统一云网资源。

2、下一代云计算基础设施架构与特征

下一代云计算基础设施逐步走向技术融合体系化创新,延伸带动异构基础设施融合统管,向上赋能服务体系升级,构建产业智能的数字化新世界。遵循下一代云计算业务的需求变革,下一代云计算基础设施呈现出高效能、广分布和超大规模的特性。

2.1 体系架构

下一代云计算基础设施架构以分布式多云为核心,构建“一云多算”融合底座,依托异构资源统一管理、分布式任务协同框架,打造 AI 贯穿的新型服务体系,支撑以通算、智算、超算、网络融合业务的一体化承载,实现全链路业务的可用性保障。在总体架构上,保留传统云架构的分层体系;在云网资源建设上,强调多种类型资源池的分布式优化布局;在软、硬件资源层强调多样性,进一步划分为以 CPU 为主的通算基础设施和以 GPU 等 AI 加速芯片为主的智算基础设施。分布式云平台对多维异构资源进行统一纳管,并实现任务高效协同调度。在基础设施架构之上,云服务形态呈现通用化和智能化发展趋势,承载多元业务类型,提供丰富的产业数字化能力。下一代云计算基础设施架构如图 1所示。


图 1 下一代云计算基础设施架构

(1)分布式云网资源。

云资源池呈现分布式、多云、全域部署模式,以云为中心构建全国一张网。以地理空间划分,实现从中心、区域到边缘 3 层级覆盖能力 。分布式云网资源池如图 2 所示,中心云资源池部署在资源集中的热点区域,向超大规模集约化发展;区域云资源池满足热点业务,具有一定规模,同时兼具时延优势;边缘云资源池可建设在更靠近用户和数据生产源头的网络边缘,主要包括小型化云节点,解决用户侧边缘的定制化需求。多方云资源池混合部署,加强多云商资源池互联互通且互为增强,以算力资源交易的形式提供高效、去中心化、实时便捷的资源供给,实现全域基础设施能力覆盖。入云网络应具备高速泛在、天地一体的全连接能力 。除了网络和专线等基础接入能力,还应具备“5G+ 千兆光宽 +WiFi 6”的三千兆接入能力及协同卫星网络打造天地一体的差异化服务的能力。云间网络应具备高带宽、高质量特性,引入确定性网络、全光网络等技术,实现中心云与区域云、区域云与边缘云、边缘云与边缘云间的按需、可靠的高速互联。

图 2 分布式云网资源池

(2)通智融合基础设施。

通用计算基础设施主要指基于 CPU 芯片的服务器,在中心侧和边缘侧分布式部署,由全域覆盖的入云 / 云间网络拉通业务访问和数据获取,主要实现通用计算业务的资源供给。通用计算基础设施还包括以实现网络云化业务为代表的某些能力定制化增强的基础设施,提升不同业务场景下的基础设施的性能。智算基础设施基于 GPU、FPGA[9]、ASIC 等芯片,为 AI 应用提供所需算力服务、数据服务、算法服务的公共算力新型基础设施 ,通常表现为大规模、高性能、高可靠性的智算集群。使用大算力芯片及大容量内存等能力支撑模型训练、推理等计算密集型任务;使用高速、大容量的存储设备及存储技术,基于分布式架构实现高可用性和可扩展性。围绕远程直接内存访问(Remote Direct Memory Access,RDMA)构建高性能网络体系,其组网架构具备大规模、跳数最优的网络连接能力。基于端网协同和软硬融合构建高带宽、低延迟的无损网络。

(3)全局化管理调度。

多维度、异构资源统一管理,面向业务进行任务与基础设施资源的高效适配。通过对不同技术架构搭建的计算资源、网络资源和存储资源进行抽象,并将当前各类公有云、私有云平台的不同类型资源整合到统一的管理框架,实现全局异构资源统一纳管,能更好地应对业务负载对资源的多样化需求,发挥各类资源的特性和优势,提高整个系统的效能。面向大规模业务进行功能模块解耦,子任务间通过网络交互完成业务处理,分布式任务协同通过将上层子任务需求与底层基础设施资源进行适配,实现任务的精准实时、稳定高效调度和编排。任务调度策略根据资源管理层提供的资源状态信息和性能指标进行定制,推进任务需求动态调整资源的分配和使用,提升面向超大规模业务的资源管理调度能力。

(4)智能化服务模式。

上层以云服务形式承载包括数字化业务、智算业务、超算业务和网络业务在内的多元解决方案,将 AI 融入基础设施即服务(Infrastructure as a Service,IaaS)、平台即服务(Platform as a Service,PaaS)、软件即服务(Software as a Service,SaaS)层,实现数字化业务的全面升级 。扩展新应用场景下的模型即服务(Model as a Service,MaaS)新型服务模式,打通数据平台、深度学习训练框架、推理部署引擎和模型生产平台,实现从数据存储、标注到模型训练、生产、部署、测试的全链路、批量化过程。

2.2 核心特征

下一代云计算基础设施的核心特征为广分布、高效能和超大规模。

(1)广分布的云网资源。

依托分布式云架构,实现从服务商云资源池、用户本地云资源池到生产现场的近全域基础设施广覆盖;提供全面连接、高可靠网络保障,提供空天地海一体化的广连接;在不同地理位置资源池提供一致性服务,提供随时随地一键式云网资源供给。

(2)高效能的硬件资源供给。

基于绿色先进的多元算力,实现十倍以上计算性能的提升。构建集约高效的新型存储,提供数字化浪潮下的海量存储需求。推动系统级断网协同体系创新,构建十万级节点间的低耗高速互联网络。

(3)超大规模管理调度。

数据管控规模持续增加,提供 PB 级大数据体量的多模态数据管理调度;支撑复杂业务需求逻辑烦琐、交互频繁的模块化管理,实现面向复杂业务逻辑的管理调度;海量的数据和高复杂度的算法,驱动云平台实现百 E 级更大规模算力的统一管控。

3、下一代云计算基础设施关键技术

下一代云计算基础设施依托算力、存储、网络等方面的关键技术,推动云计算基础设施向高效能演进。在计算层面融合 AI 芯片,通过 RISC-V 指令集 统一多元异构计算架构提供云服务算力基石;在网络层面面向大规模、高带宽、低时延及高可靠的集群通信需求,构建基于 RDMA 的高性能智算中心网络体系;在存储层面,面向海量数据存储和并行处理需求,引入新型存储技术提供高速、高并发和低时延的读写性能,共筑高效能的硬件资源供给。

3.1 以 RISC-V 为导向的通智异构算力技术

智能化时代,AI 在各行业领域持续深化,应用场景也不断丰富,以科学计算和大模型为例,在传统的地震波模拟的科学计算场景下,对数值精度的要求极高,AI 大模型训练则适用于数值范围大、但数值精度要求相对较低的 16 位浮点类型,而 AI 大模型推理由于更关注推理速度等性能,则可以在更低的数值精度下进行处理。因此,愈加复杂多样的计算场景,为算力基础设施提出了多元化挑战。不同数值精度的计算需求,对于计算芯片架构要求也具有一定差异性。此外,摩尔定律带来的计算性能提升空间有限,通用 CPU 性能的持续提升呈现整体性加速放缓趋势,而 AI 加速应用带来计算量指数增长态势,远超摩尔定律带来的算力提升速度。

下一代算力将从以 CPU 为主的通用计算基础设施逐渐向 CPU、GPU、XPU 等异构算力融合方向发展,突破了传统计算芯片发展的惯性思维,不再强调系统中某一种类型计算芯片的核心地位,而是从系统层面优化性能、性价比等核心指标,体现综合的算力供给性能优势。现阶段 RISC-V 指令集由于其开源和可扩展特性,已被广泛用于开发 CPU、GPU 等通算、智算芯片,可有效解决当前 CPU 和GPU 因基于不同的指令集架构,造成的生态复杂、开发运维难度高等问题。下一步 RISC-V 将通算和智算基础设施在指令集层面进行统一,实现编程接口的统一,从而实现黄金十年的终极目标:采用统一指令集来实现 DSA 芯片和通用芯片,为上述应用开发提供统一编译环境和开发语言,支持 RISC-V指令集对“XPU”的多核异构融合,构建高性能 AI算力集群和高效能的算力底座。

3.2 面向全域互联的新型网络技术

海量数据流的产生和多元化的应用场景为智算产业带来了新的挑战,推动了算力基础设施服务器级单点处理向互联协作的演进,将同架构 / 跨架构、同地域 / 跨地域的算力节点大规模组网,形成下一代全域互联的新型网络架构。为了实现这些需求,智算中心内节点数量将大幅增长,从现在的十万台服务器增长到百万级互联,使得智算中心组网面临超大规模冲击。以大模型为代表的智算业务2025 年将向百万亿参数模型演进,存储介质 SSD的访问性能较传统 HDD 已有了百倍提升,在存储介质数据读取时间大幅降低的情况下,网络时延占比从原来的小于 5% 上升到 65%,意味着存储介质有一半以上的时间是空闲通信等待。如何降低通信时延,提升网络吞吐也是智算中心网络的关键挑战之一。

下一代数据中心网络将具备超高性能、超高可靠性及超大规模连接能力。现阶段新建智能计算中心网络通常使用 RDMA 网络协议来减少传输时延,提升网络吞吐,并逐步在规模、带宽、稳定性、时延 / 抖动及自动化能力方面不断优化提升。下一步基于 RDMA 的高性能智算中心网络体系,需要不断推进网络拓扑、网络设备、网络协议等方面的创新,加强在拥塞控制算法、软硬协同加速及 QP连接扩展等方面的能力突破,结合全光网络发展趋势,从而满足各类业务高并发、大带宽、高通信效率需求。

3.3 以数据为中心的新型存储技术

在智算业务浪潮的驱动下,数据成为第五大生产要素,围绕数据构建的基座必然发生变革,存力觉醒拉开新的篇章。在芯片层面,冯·诺依曼架构下计算和存储分离,计算单元从内存中读取数据,计算完成后返回内存,然而随着 AI 大模型的发展,这种架构中存储器的数据访问速度跟不上计算单元的数据处理速度,阻碍性能提升的“存储墙”问题严重。在集群层面,传统存算融合架构面临数据保存周期与服务器更新周期不匹配、性能可靠与资源利用率难以兼得、新型分布式应用的极简高效共享存储诉求和以 CPU 为中心的服务器架构导致数据密集型应用效率低下等问题,下一代云计算底座在存储容量利用、存力效率等方面面临挑战。

下一代以数据为中心的存储需要为云内海量数据分布式通信提供超高性能的读写支持和超大规模的连接能力。在智算时代崭新的发展阶段,数据存储堪称 AI 训练和推理应用的基石——既是加速多模态数据智能训练的核心平台,也是支撑海量终端智慧应用的基础设施。单芯片层面存储朝着存算一体方向演进,计算越来越靠近存储,减少不必要的数据搬运,直接存储单元参与逻辑计算提升算力,在单位面积不变的情况下规模化增加计算核心数,通过架构创新提供综合性能全面兼顾的芯片及板卡,为广泛的边缘 AI 业务提供服务。集群层面,随着 RDMA、CXL、NUVMe SSD 等新型硬件技术的发展,需要构建新型存算分离架构,以确保云和网、不同云存储域服务能够兼顾资源利用率、可靠性等核心诉求,彻底实现存算解耦,组建彼此相互独立的硬件资源池,实现细粒度的处理分工,使数据处理等 CPU 不擅长的任务被专用加速器替代,以实现能效比最优的组合。

4、下一代云计算平台关键技术

下一代云计算平台引入新型纳管、池化和调度技术解决大规模算力获取难度大、成本高、资源效率低的问题,赋能业务需求,促进超大规模的全局基础设施资源的智能协同调度。

4.1 跨类型跨架构的资源统一纳管

跨类型跨架构的资源统一纳管打破单机资源调度的物理边界,解决底层异构物理硬件间存在的流程接通、芯片互联和软件适配等差异化问题,构建高效、协调统一的异构算力资源池,更加便捷地实现资源有效配置和管理,降低建设和运营成本,快速满足用户多变的资源使用需求。在具体技术上,跨类型跨架构的资源统一纳管将重点考虑算网存资源抽象、异构资源池化、内存一致性池化和轻量级虚拟化等技术。

(1)算网存资源抽象。

算网存资源抽象技术通过将计算、存储、网络等资源进行合理抽象,屏蔽基础设施的物理特性和资源类型,可在同一应用场景下作为一种面向业务的产品被协同管理、编排、共享。用户只需关注业务自身来调整资源的配置,包括统一资源应用程序接口(Application Programming Interface,API)、资源模型转化、抽象资源库、异构资源适配等,打造多元产业生态。

(2)异构资源池化。

针对异构资源进行适配,包括异构硬件设备发现、计算资源的虚拟化和内存资源的虚拟化技术。纳管异构资源池,主要包括硬件设备发现后自动纳管、异构资源生命周期管理、近端与远端资源池的多层级智能调度、多租户多任务资源隔离,以及跨架构数据传输和转换等,共建多样性算力产业体系。

(3)内存一致性池化。

基于硬件内存一致性协议保证不同节点对内存数据的访问一致性,并基于虚拟化层软件协议构建节点间共享的内存集合,以实现内存分配和管理,提供高效的内存分配和回收机制,提升资源利用效率。

(4)轻量级虚拟化。

针对传统虚拟化无法满足边缘计算、云原生 Serverless、网络云化等场景需求的问题,研究容器、安全容器、轻量级虚拟机、应用程序级沙箱等技术,针对不同场景对安全和性能的个性化要求裁剪虚拟化层,实现应用快速启动和高密度部署。

4.2 面向业务感知的智能协同调度

面向业务感知的智能协同调度是连接上层多类型应用与底层物理设备的核心能力,能够满足上层不同类型应用对资源的多样化需求,从而使上层应用更高效、更便捷地利用底层资源。在具体技术上,面向业务感知的智能协同调度将重点考虑算力资源全局调度、自适应智能规划和调度策略和云网切片端到端一体化调度等技术。

(1)算力资源全局调度。

分布式云推动算力资源全局调度、智能协同,实现算力调度跨域融合,实现资源在云侧、边侧、终端侧高效分布和智能协同,逐步演变出基于云、边、端的分布式操作系统,面向业务需求实现跨地域、跨层级算力资源的互联互通,具备多层级算力资源的统一管理、智能调度、全局优化能力。

(2)自适应智能规划和调度策略。

由于百万级大规模异构资源中存在异构资源间的交互程度不高,匹配复杂度高,调整后均衡性难以保证,业务特性考虑不足等问题,因此资源的供给方式从提供固定规格计算资源的形式走向面向具体业务场景灵活调整资源使用量的方式。多种基于 AI 模型乃至大模型的学习方法可基于训练模型针对业务需求设计和生成自适应智能规划和调度策略,以提升大规模资源的调度优越性。针对业务特性研究资源配额、共享超分、负载均衡等资源调度策略,实现面向业务服务等级协议(Service Level Agreement,SLA)、 服 务 等 级 目 标(Service Level Objective,SLO)、 服 务 等 级 指 标(Services Level Indicator,SLI)的多级调度、拓扑感知调度、在离线业务混布等,从而最大化资源利用率。

(3)云网切片端到端一体化调度。

云网切片是在网络切片的基础上,充分考虑云资源的弹性、伸缩等特性,根据不同的业务所需的网络特征、不同的流量流向所产生的网络实时需求及云资源的动态变化情况,将云资源与网络资源进行协同一体化管理、调度与优化,实现云网资源的端到端统一、隔离预留、云网连接的自动化建立与优化、云网服务能力的自动化供给等。

5、结语

随着新一轮的市场推动和产业变革,云计算技术向下一代演进,催生构建下一代云计算目标体系架构。下一代云计算承载通算、智算、超算、网算多元业务类型,伴随云基础设施、云平台、云服务体系、云运维方面体系架构的创新,呈现出高效能、广分布、超大规模、智能敏捷和智能自治的新时代特征。以通智异构算力融合、全域互联新型网络、新型存储、资源统一纳管、智能协同调度为技术指引,促进云计算向新一代演进。



原文来源:信息安全与通信保密杂志社“投稿联系方式:010-82992251   sunzhonghao@cert.org.cn”

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存