OCP峰会Keynote:Intel和AMD都在谈UALink和Ultra Ethernet
目录
-OCP全球设备采购影响:2028年预计740亿美金
-AI硬件之争:从GPU芯片到集群
-为x86生态的未来携手
-被NVLINK和IB催生的技术:UALink和Ultra Ethernet
-微软Maia 100 AI芯片与OCP浮点格式规范
-Google数据中心机器人更换硬盘(视频)
2024 OCP Global Summit(开放计算项目全球峰会)于日前在美国落下帷幕,关注《企业存储技术》公众号时间长一点的朋友应该知道,每年这个时候我都在准备分享会议资料了。
比如去年的《2023 OCP Global Summit会议资料分享》,当然国内类似的组织我也有关注——《ODCC开放数据中心2024资料分享 (规范标准、白皮书等36份)》。
目前能下载到的本届OCP会议资料(Slide pdf)还只有Keynote部分。
2024 OCP Global Summit Keynote
链接: https://pan.baidu.com/s/13kVRDl3QVHTl_946uczUmw?pwd=yqjr
提取码: yqjr
大家也可以在关注本微信公众号之后,从后台对话框发消息 keynote24 来获取以上分享链接。
具体演讲主题如下。想要去油管上看视频的朋友,可以访问官网来源https://www.opencompute.org/events/past-events/2024-ocp-global-summit。
Keynotes(Chronological order)
Title | Speakers | ||
Welcome to OCP Global Summit | George Tchaparian (Ceo) - Open Compute Project Foundation (Ocp) | Video | Slides |
Powering the AI Future: Meta Vision for Open Systems for AI - presented by Meta | Omar Baldonado (Director Of Engineering- Network Infra) - Facebook | Video | Slides |
Fostering Collaboration: Designing Data Centers for Tomorrow's AI Workloads - presented by NVIDIA | Ian Buck (Vp Of Hyperscale And Hpc Computing) - Nvidia | Video | Slides |
PANEL: Scaling Interconnect and Memory for AI Clusters | Nigel Alvares
(Vp Global Marketing And Business Planning) - Marvell | Video | |
An Open-first Vision of the AI-driven Data Center - presented by Intel | Justin Hotard (Executive Vice President And General Manager Of The Data Center And Ai Group) - Intel | Video | Slides |
Accelerating AI: A Holistic- Open Approach - presented by AMD | Forrest Norrod (Executive Vice President And General Manager- Data Center Solutions Business Group) - Amd | Video | Slides |
GEICO's Year-Long Journey to Realizing the Impact of an OCP-Optimized Infrastructure | Sahid Jaffa
(Head Of Hardware And Storage Engineering) - Geico | Video | Slides |
PANEL: Towards an Open- Sustainable AI-Driven Data Center | Thomas Garvens
(VP Solutions) - Supermicro | Video | |
From Bottlenecks to Breakthroughs: Innovations in Data Center Infrastructure & Security - presented by Microsoft | Saurabh Dighe (Corporate Vp- Azure Strategic Planning And Architecture) - Microsoft | Video | Slides |
Sustainable Silicon to Intelligent Clouds: Building the Compute Infrastructure of the Future - presented by Google | Partha Ranganathan (Vp And Engineering Fellow) – Google | Video | Slides |
Keynote演讲主要是一些偏宏观、提纲挈领的东西。今天我也从中选取了一些有代表性的内容,简单做些点评。
OCP全球设备采购影响:2028年预计740亿美金
按照发言顺序,首先是OCP CEO的分享:
OCP在全球的影响——这个$74 Billion(740亿美金)的市场数字,应该是IDC预测的2028年。整个美洲的相关设备采购量占到了全球的一半,我也很高兴看到中国(PRC+HK)以23%位居“第二大经济体”。
接下来就是各大企业的分享。除了Keynote之外,上图中的1st和2nd Panel部分指的是Executive Sessions环节——这些视频也在我前面列的官网链接中放出来了。
AI硬件之争:从GPU芯片到集群
上图来自大会东道主Meta(Facebook)的分享。今年开始将AMD的MI300X用于AI推理(系统代号Grand Teton Inference)。
当然NVIDIA最新的GB200也没有少。上面代号Catalina的OpenRack V3整机架方案,支持140kW供电。Liquid Cooled(液冷)后面的“FLC”一词我有点没太看懂,不知是不是把DLC冷板敲错了?
接下来就是NVIDIA的分享:
NVIDIA宣布要把GB200 NVL72的设计贡献给OCP。上图列出了一些要点,比如
- 5000条NVLINK线缆;
- 计算Tray的尺寸:1U液冷;4 GPUs;
……
为x86生态的未来携手
如上图,在Intel的分享中我看到了Ultra Ethernet(超级以太网)和Ultra Accelerator Link(UALink),这2个AI互连技术我稍后再展开点讨论。
Intel的演讲ppt到了一半,画风突然一变如下——我想前两天许多读者朋友也看到新闻了。
Intel和AMD牵头组建x86 Ecosystem Advisory Group(x86生态系统咨询小组)。成员如下:
这个小组喊出的口号是:
This Is Our Future
Let's Define It Together!
被NVLINK和IB催生的技术:UALink和Ultra Ethernet
接下来是AMD的演讲:
AMD拿HPC高性能计算来举例。左边是美国橡树岭实验室2022年的Frontier超级计算机,采用了第三代EPYC CPU + Instinct MI250X GPU。右边则是今年劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory,LLNL)实验室的EI‘ Capitan,选用的Instinct MI300A则是Zen4 CPU+GPU Core的混合芯片,共享HBM3高速内存UMA的架构。
扩展阅读:在《Chiplet Summit 资料分享:展望10年后的GPU和HBM》中,我曾经讨论过一点MI300系列芯片的设计及后续展望。
在数据中心GPU集群,特别是现在需求增长的AI集群中,Scale-up(单机内部扩展)和Scale-out(多节点横向扩展)网络方面,NVIDIA有2项优势技术NVLINK和InfiniBand。这也是Intel和AMD等结盟搞Ultra Ethernet和UALink的原因。用于Scale-out的UEC基于当前的以太网发展而来;而UALink应该主要是AMD贡献了Infinity Fabric互连技术——即上图中写的xGMI。
借助UALink交换机网络,可以实现GPU/加速器节点在一个POD内一定规模的跨机箱互连。如上图,是不是有点NVLINK的架势?当然,目前我看到的Infinity Fabric应该还是与PCIe共享物理层,资料有限,不知后续UALink是否会出现多个PCIe 6.0 x16 lane绑定使用的情况?从Switch芯片方面,倒是可以基于PCIe Switch来开发的,这一点有点像CXL(但二者用途不同)。
参考信息:“在9月的2024 ODCC开放数据中心大会上,阿里云联合信通院、AMD等十余家业界伙伴发起AI网络互连开放生态ALS(ALink System)。ALS产业生态支持开放的国际主流UALink协议,旨在解决AI网络纵向扩展(Scale-Up)中的超高速、超大带宽等技术难题,为下一代智算网络打造开放的、统一的标准规范。”
AI和HPC集群更大规模Scale-out组网,当前除了IB之外,主要的通用技术就是基于以太网的RoCE。
上图截自我在《AMD EPYC 9005 (Zen 5&5c) 服务器CPU架构解读》分享过的发布会资料。AMD Pensando Pollara 400网卡宣称即将首个支持Ultra Ethernet。所谓“UEC Ready RDMA”就是为了解决当前RDMA(IB/RoCE)的不足。还是要留意这张ppt下方的小字——对比RoCEv2的6倍提升,应该是用到了可靠的多路径传输。
微软Maia 100 AI芯片与OCP浮点格式规范
在Microsoft的Keynote中,介绍了应用在Azure数据中心里的Maia 100——有点像Google自己流片TPU那种感觉。这里还提到了贡献给OCP的Microscaling Formats(MX)浮点精度格式规范,我们知道NVIDIA的Blackwell架构是较早开始支持FP4和FP6的。
https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf参与这个标准指定的还有AMD、Intel等。
上图是我从zartbot老师的文章《HotChip2024-Day2: AI加速器互联和云AI处理器》中看到的,Maia 100支持6bit、9bit和BF16精度计算。
AMD在10天前的发布会上预介绍了Instinct MI350(规划在2025年下半年),也将支持FP4和FP6数据格式。
Google数据中心机器人更换硬盘(视频)
按照Keynote发言顺序的最后一位来自Google,我想在这里放一段视频吧——好像每次他们秀出数据中心里的特写都挺有看点的。
OCP 24 Spotlights
Robotics
Enable DC operations to scale while ensuring health safety of technicians materials
movement rack
mover disk repair automation
扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流,可以加我的微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage
长按二维码可直接识别关注
历史文章汇总:http://www.toutiao.com/c/user/5821930387/
http://www.zhihu.com/column/huangliang
点击下方“阅读原文”,查看更多历史文章↓↓↓