查看原文
其他

阿里云周明:磐久,下一代云计算基础设施

阿里云基础设施 云布道师 2023-06-18

云布道师

今天,数据中心早已走入云计算时代。面对数字化转型、东数西算、双碳等可持续发展要求,如何定义下一代云计算基础设施?11 月 3 日,2022 云栖大会技术主论坛上,阿里巴巴集团副总裁、阿里云基础设施负责人周明给出了答案:下一代基础设施是 “ Cloud Infrastructure As A Computer (云基础设施即计算机) 的高性能基础设施 ”。

磐久基础设施小档案

 定义

什么是 Cloud Infrastructure As A Computer的高性能基础设施?

今天,阿里云已在全球四大洲 28 个国家和地区、85 个可用区、超过 2800 个网络节点,运营超过百万台服务器,如此大的规模深刻改变了 IT 硬件体系、数据中心、芯片以及整个产业链,推动传统基础设施向下一代云计算基础设施演进,从单机到集群到 Data Center,发展为“云基础设施即计算机”,支撑上层云产品向外输出各种应用能力。

 特点

  • 一体化的架构设计:底层是高性能基础设施资源,包括磐久数据中心、磐久服务器、磐久网络、磐久智维;中间层是数据中心、服务器、网络的一体化架构,高可用、低延迟的高性能网络架构 PredFabric,结合模块化、标准化的 Cube DC 数据中心架构以及服务器方升架构形成了一体化数据中心设计,实现数据中心利用率的全局最优。
  • 高性能:从曾经单机单服务器的高性能,到整个集群、整个数据中心都是高性能,这也是为什么磐久基础设施被定义为“高性能的基础设施”。
  • 系统:磐久基础设施不只是一台硬件设备,而是软硬结合的系统。硬件包括自研的磐久服务器、自研交换机、高性能网卡,系统平台包括智慧运维大脑、震旦异构平台等,提供随意弹性的能力和异构算力原生、网络可预期、智能化运营等服务能力。

阿里巴巴集团副总裁、阿里云基础设施负责人 周明
磐久高性能网络 PredFabric
尾时延显著降低 90%

面对近年来日益爆发的算力需求,简单粗暴的硬件堆砌已不可持续。虽然市面上许多 AI 硬件(包括 GPU、FPGA 等)的计算能力很强大,但当规模增长到一定程度时,网络性能便成了一个显著瓶颈,导致整体算力的下降。为此,阿里云基础设施推出低延时、高带宽、可线性扩展的“磐久高性能网络 PredFabric”,采用自研的 Solar-RDMA 高速网络协议,使处理器可以通过 load/store 指令访问其他任意服务器的内存,非常适合深度学习模型内神经网络的交互形态,相比传统模式故障自愈时间和长尾时延均可降低 90%。同时,结合网络协议硬件化、芯片化,使整体性能得到极大提升,延时最低可至 2 微秒,并实现高算力下网络规模的线性扩展。同时,将云服务器接入带宽提升一倍,达到了 1.6Tbps,再配合上层的自研融合通信库 ACCL,实现了在 AI 场景下的通信效率倍增,保障集群算力的线性输出,确保在大流量突发场景甚至部件异常的情况下,整个数据中心仍能保持稳定、高效的运转。

高性能计算能力:异构/池化/加速

磐久基础设施具备计算异构、资源池化和加速引擎三大计算能力。震旦异构编译技术和 vODLA 算力原生技术,支持跨多种 GPU 平滑迁移,动态伸缩自适应多种业务 SLA,面向算力编程,降低开发者门槛。异构通讯技术 ACCL 则结合自研硬件,可对大规模 AI 集群提供无拥塞、高性能的集群通讯能力,彻底消除网络拥塞,极致化网络通信效率,最大化分布式训练系统的扩展性。巨大的基础设施体量支撑了云产品资源弹性、网络弹性、流量弹性的能力,而硬核的基础设施能力则提供了池化能力。在资源池化技术上,通过内存扩展、内存共享和内存池化,提升计算和内存利用率。高性能网络方面,超低时延网络承载总线语义,可将硬件资源池规模扩大 10 倍。DC 级最大的挑战,就是性能,包括处理时间等,阿里云基础设施研发了软硬件结合的加速引擎,从高性能网络加速、到高性能网关、到存储的压缩和加解密、以及图片和视频的编解码技术,从而综合提升基础设施在网络、存储等领域的性能,优化用户体验。依托磐久高性能网络、磐久基础设施的高性能计算能力,今年 8 月底,高性能算力系统服务——灵骏智算产品正式亮相,基于阿里内部多年经验的积累,旨在以普惠、高效的计算服务,提高计算、训练效率,加速客户业务迭代。目前,该产品已在自动驾驶、基础科研、生物医药等领域提供服务。8 月 2 日,阿里云和小鹏汽车在乌兰察布合作建成中国最大自动驾驶智算中心“扶摇”,使模型训练提速 170 倍。

此外,磐久智维为基础设施全领域构建了全流程智能化、数字化、全域统一联动的超大规模基础设施运维体系,是磐久基础设施高效、稳定运行的重要保障。
绿色算力:可持续发展

在绿色低碳方面,周明表示,阿里云基础设施坚持投入节能技术的研发,自研单相浸没液冷技术,PUE 低至 1.09。2021 年云栖大会发布的磐久服务器采用新型散热、供电架构,单机能耗降低 10%,业界领先。同时,优化用能结构,积极推进数据中心使用清洁能源,在“2022 中国企业绿电交易排行榜”中蝉联科技行业第一。2022 年 1~9 月,阿里云五大数据中心交易使用清洁能源 10.2 亿千瓦时,减排二氧化碳 77.4 万吨,清洁能源使用比 50%+。在绿色运营上,数据中心能源 & 碳管理平台覆盖全球上百个数据中心,超百万台服务器,累计盘查超千万吨碳排放,为阿里云提供数字化碳足迹,为云上客户提供碳账单。
在 2030 年全面实现碳中和的承诺背景下,2022 年,阿里云五大数据中心都已引入清洁能源。“绿色是检验数据中心的黄金标准。”周明表示,阿里云将持续加强绿色自研技术创新投入,积极开展清洁能源电力交易,推动数据中心减碳增效。
云计算是各行各业走向数字化的重要基础设施,作为云计算的坚实技术底座,下一代的云计算基础设施——磐久基础设施是“Cloud Infrastructure As A Computer 的高性能基础设施”。阿里云基础设施将持续推动技术创新,以领先的技术能力为云计算提供绿色、稳定、高性价比的云资源,为了无法计算的价值!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存