全球超级计算大会(SC'23)回顾
上周,丹佛举办了SC'23高性能计算产业大会,这是规模最大的一次。今年的大会吸引了超过14000名与会者和438家参展商,打破了疫情前的纪录。整个会议给人一种黄金时代的感受,无论是与会者的广泛参与、技术方案的展示,还是整个社区的参与和互动,都让人感到兴奋和鼓舞。
Top500的大新闻 HPC和AI存储领域的新动态 专用GPU云的出现 其它技术点滴 AI对HPC社区的影响
Top500的大新闻
每年一度的Top500榜单揭晓总是SC大会的一项重要议程,无论人们对HPL(High-Performance Linpack)测试的看法如何,都备受关注。与往年不同,今年的榜单带来了两个令人振奋的惊喜。在SC'23季节开始之际,我们都在猜测去年六月交付的Aurora系统是否已经顺利安装并经过充分测试,能否在上榜时超越Frontier,成为第二台上榜的异构计算机。与此同时,没有人能预测到还会有一台私人企业拥有且盈利的计算机出现在500PF以上的超级计算机榜单上。然而,这两个系统都在前五名中取得了显著的成绩,引发了许多有趣的猜测。
新进的第二名:阿贡国家实验室的Aurora
Aurora异构计算机的历史可以追溯到2015年。最初设想为2018年交付的180PF超级计算机,它演变成了一台基于GPU的异构计算机,原定于2021年交付。然而,由于各种原因,交付时间推迟了两年,同时领导层也发生了一些变动。在Intel和Argonne面临是否在SC'23的Top500榜单上公布他们的HPL结果的抉择时,陷入了一些困境:
如果Aurora没有在SC'23的Top500榜单上露面,它将与ISC'24上的El Capitan竞争,并可能会被一台更新、更大的异构计算机同时发布所掩盖。
如果Aurora在SC'23的Top500榜单上以不完整的形式列出,它将无法如期作为#1系统首次亮相,并需要小心谨慎地叙述,以避免被视为失败的系统。
最终,Intel和Argonne选择了第二种路线,公布了一项HPL测试,只使用了Aurora总节点数的51.1%。人们普遍理解这次公布的分数并不意味着整个系统没有达到预期性能,而更多地反映了系统在全规模下仍然不够稳定。然而,对于如何将Aurora的HPL提交结果推广到整个系统,业界新闻中的标题颇为悲观,引发了广泛的困惑。585.34PF Rmax 在24.7MW功耗下的半系统清单是否意味着完整系统需要50MW才能达到一个仍然低于Frontier的Rmax?为什么效率(Rmax/Rpeak = 55%)这么低?
有趣的是,我与会者中大约一半认为Argonne应该等到ISC'24才公布完整系统的成绩,而另一半则认同在SC'23时公布Aurora的一半性能是更好的选择。显然,在这个问题上并没有明确的正确答案。我认为,在Top500提交截止日期和超级计算机的状态下,没有人能够责怪Argonne尽最大努力。通过与ALCF(阿贡国家实验室领先计算设施)的一些人交流,我得到的印象是他们的HPL运行是在时间紧迫的情况下进行的,存在影响性能的已知问题,而这些问题在短时间内无法修复。我们期待Aurora将在ISC'24时以完整规模准备就绪,并在那个舞台上大放异彩。
新进的第三名:Microsoft 的 Eagle
Top500榜单上另一个引人注目的新进入者是Microsoft的Eagle,一台出人意料的超级计算机,性能达到了561PF。与Aurora一样,它采用了以GPU为主的节点构建,与Aurora一样,HPL测试仅利用了完整系统的一部分(1800个节点)。与Aurora的不同之处在于,Microsoft没有公开披露Eagle的完整规模,而其以GPU为主的节点架构是专门为训练大型语言模型而设计的。
在Top500 BOF上,Prabhat Ram对Eagle进行了简短的介绍,强调该系统不是定制的、一次性的噱头机器。相反,它是由公开可用的ND H100 v5虚拟机构建的,采用了单个400G NDR InfiniBand胖树型结构。Microsoft在展台上展示了一个物理ND H100 v5节点。以下是其背面:
从上到下,可以看到它配备了八个E1.S NVMe SSD,支持2x 400G NDR InfiniBand的4x OSFP端口,一块Microsoft SmartNIC,以及大量的电源。从顶部的视图显示了HGX基板和风扇:
逻辑上,这个节点(以及在其上运行的ND H100 v5 VM)在很多方面都类似于NVIDIA DGX的参考架构。物理上,它是一台由Microsoft设计的风冷OCP服务器,Eagle的Top500运行使用了1800台这样的服务器。
抛开庞大的HPL数字不谈,Eagle登上Top500的出现对整个超级计算行业有着强大的影响。考虑以下几点。
Microsoft是一家盈利的上市企业,其成功最终取决于为股东创造多少利润。与那些历史上主导榜单以展示其在推动科学方面的至高无上地位的政府机构不同,Eagle的提交表明现在有了巨大的财务激励去构建用于训练大型语言模型的巨大超级计算机。这是超级计算的一个重大里程碑;直到目前为止,由私营行业构建的最大系统通常来自石油和天然气行业,并且它们通常规模在前十之下。
Eagle还建立在最新和最先进的技术上——NVIDIA的H100和NDR InfiniBand,而不是由国家实验室已经验证的上一代技术。SC'23是Hopper GPU首次出现在Top500榜单上的时刻,Eagle可能是地球上最大的H100和NDR InfiniBand的单一安装。这不仅表明,为了创造利润的研发,建立领先型的超级计算机在财务上是可行的,而且行业现在愿意冒险采用未经测试的技术来获取先发优势。
Eagle还向我们表明,将庞大的人工智能模型引入市场所能带来的潜在收益,足以购买构建半个ExaFLOP系统所需的所有基础设施,并雇佣必要的人才来推动这个相当于世界级超级计算机的项目。虽然美国政府始终可以获得DPAS评级以确保在人工智能公司之前获得GPU的使用权,但在雇佣熟练的个体来搭建庞大系统方面却没有DPAS评级。这让我不禁思考:如果Aurora是一台位于某个云数据中心的机器,而其投运阻碍了下一代GPT模型的开发,它是否能够在今年从Frontier夺得#1的位置?
这台由人工智能领域推动并投资的庞大系统出现在Top500上,也引发了一些关于美国政府角色的问题。如果私营行业现在有强烈的财务动力投资于领先级超级计算技术的发展,那么政府在超级计算行业中应该扮演什么角色?历史上,政府一直致力于培育先进的高性能计算技术,使其足够稳定以供商业买家使用。如今,国家实验室中的领先型超级计算机最终将转化为未来用于盈利活动的中档集群,如地震成像或计算辅助工程。如果人工智能行业现在正在承担培育和降低新的高性能计算技术风险的责任,也许政府现在需要专注于确保为人工智能开发和成熟的技术仍然能够用于解决科学问题。
HPC和AI存储领域的新动态
由于我职业生涯中很大一部分时间都在从事高性能计算存储工作,而现在我主要关注人工智能,所以应该不足为奇的是,我听到了很多关于人工智能和存储交汇的信息。人工智能仍然高居炒作周期的顶峰,因此几乎每个存储厂商和讨论都涉及到了一些与人工智能有关的话题,无论其是否真正相关。然而,有一些我认为值得注意的地方,人工智能和存储话题相互交汇。
人工智能存储回音室
我被许多记者、风险投资人,甚至是一些信任的同行问了很多关于存储技术的共同主题的问题:对于人工智能来说,哪种存储技术最让我兴奋?存储对人工智能的未来意味着什么?
我不会因为人们提出这样一个宽泛的问题而责怪他们,因为高性能计算/人工智能存储行业充斥着夸大的声音。例如,两家知名的存储厂商在他们的展台上声称他们的产品对人工智能有着令人振奋的效果。
这些照片显示,尽管普遍认为GPU和人工智能需要好的存储,但“好的存储”的具体定义却模糊不清,令人困惑。假设上述的营销策略(速度提升10倍!速度提升20倍!)对某些人是有效的,那么似乎存在一个市场机会,即通过以下两种方法来利用这种普遍存在的市场混淆:一是明确指出卡住所有人工智能工作负载的I/O问题是什么,二是展示你的存储产品在解决这个具体问题上具有出色的表现。
例如,MLPerf存储工作组最近发布了首个MLPerf存储基准测试。Argonne的Huiho Zheng(也是MLPerf存储基准测试基础DLIO工具的共同作者)在深度学习系统与加速器软硬件共同设计研讨会上,介绍了MLPerf存储基准测试如何复制模型训练的I/O特性。
当我看到这个前提时,我感到有些困惑——我的日常工作是开发新的存储产品,以满足大规模人工智能模型训练和推理的需求。我从来没有客户来找我,声称他们需要支持小的和稀疏I/O或随机访问。实际上,根据我的经验,训练大型语言模型面临的最大挑战是写入密集的检查点和微调,而不是读取密集的数据加载。直到几张幻灯片后,我才意识到这些要求可能来自哪里:
存储和加速器供应商都在定义和解决AI社区的I/O问题,这似乎是颠倒的——应该是从业者制定基准,而不是解决方案提供商吧?
通过与参会者交流、参观存储厂商的展台以及观看类似郑博士的演讲等,我认识到了在处理自己的生产AI工作负载时所面临的现实:实际上,人工智能并没有I/O性能问题,因此存储厂商正在努力确定他们在人工智能市场中的关联性。
在HDF5 BOF演讲中,我概述了LLM训练如何使用存储,他们的需求很容易通过一些本地存储和基本编程来满足。实际上,一个精通人工智能的从业者可以迅速地解决I/O问题,并转向更难的问题。他们没有理由购买一个复杂的Rube Goldberg存储系统,因为它仍然不能从根本上使他们摆脱不得不求助于本地硬盘来实现训练大语言模型所需的可扩展性。
所以,我毫不怀疑有些存储产品可以为某些特定的人工智能工作负载提供10倍或20倍的性能提升。而且,MLPerf存储可能是衡量这种20倍性能提升的卓越方式。但我经历的现实是,与最简单的方法相比,只需半天的编码就可以实现19倍的性能提升,而且每个AI从业者都已经知道并这样做。这就是为什么许多存储厂商在AI存储领域中努力寻求机会,但似乎没有一个能够真正脱颖而出。
这并不是说在高性能存储领域没有其它有趣的事情。如果我被问到最常见的问题是“人工智能的存储未来会是什么”,那么第二个最常见的问题就是“你对VAST和WEKA有什么看法?”
VAST和WEKA
这两家公司似乎都在做正确的事情,因为它们是许多会议参与者印象深刻的焦点,而且很可能让它们感到不悦的是,行业仍然将它们归为同一类别,即“有趣的并行存储系统,我们应该尝试一下”。然而,与其表达自己的观点(我非常重视这两家公司及其技术!),我将记录我观察到的一些情况。
在本周初,WEKA备受瞩目,因为他们在九月份取得了成为U2官方技术合作伙伴的重大胜利。他们的大型展台吸引了大量人群,其中包括一款热门的吉他英雄游戏和排行榜,而一尊超大的波诺雕像,可能正在尽情享受人们对WEKA的喜爱,镇守着其中一个座位区域。
他们的大部分营销活动都围绕加速人工智能和其它GPU工作负载展开,而我本周遇到的WEKA客户的反馈也证实了这一点。一位客户分享道,WEKA客户端在处理通常出现在生命科学工作负载中的难以处理的小文件工作负载方面表现出色,这一轶事也得到了纳入IO500 Production榜单的MSK癌症中心所拥有的非常快速的WEKA集群的证实。此外,人们还提到了WEKA对专用CPU核心和本地存储的需求,以提供最高性能;这与客户的可扩展性相结合,非常适用于较小的GPU节点集群。然而,我在云中没有遇到任何使用WEKA的人,因此我认为我收集到的反馈可能存在一些偏见,主要针对更传统、本地化的为传统HPC架构存储的方式。
而WEKA今年则更加突出其摇滚主题,VAST则再次大力推出了去年推出的那些令人难以抗拒的发光牛仔帽(我敢肯定他们在DDN展台的邻居绝对喜欢)。今年他们全力推动自己作为“数据平台”的新定位,尽管我没有听到任何人将VAST称为除文件系统之外的东西,但我发现最近购买了VAST系统或尝试过该系统的几乎随处可见。
然而,与去年不同的是,围绕VAST的客户情感并非都是积极的,我遇到了一些客户,他们将他们的售前接触描述为比一年前更为程式化。这并不奇怪;在业务扩大的过程中,不可能给予所有客户相同的优质服务。但这意味着VAST与HPC行业之间的蜜月期可能已经结束,他们将不得不在现在到SC'24之间的时间里专注于保持他们从发光牛仔帽中获得的动力的一贯执行力。
对于VAST来说,好消息是他们在过去的一年里完成了一些重要的订单,并带着客户和合作伙伴一同参加SC。本周初,他们与CoreWeave共同举办了一场盛大的活动,并在一场客户早餐会上与Lambda共同亮相,同时还突出了两位传统的本地化HPC客户(TACC和NREL)。
显然,VAST并未放弃本地化HPC市场,同时还在寻求与新兴GPU云服务商建立合作伙伴关系。这与WEKA显然更加专注于人工智能、GPU和云的方向形成鲜明对比。时间将告诉我们,哪种战略(如果有的话,或者两者兼而有之)将成为更好的方法。
DAOS
尽管商业买家明显对VAST和WEKA最感兴趣,但来自世界各地更复杂的高性能计算中心的人们今年也向我提出了一些关于DAOS的问题。
我通常都会参加DAOS用户组会议,因为这里总是聚集了高性能I/O研究领域的顶尖专家,但由于与我I/O教程的时间冲突,今年我不得不错过。幸运的是,DAOS在整个会议期间无处不在,我有充足的机会了解DAOS的最新消息。例如,查看今年PDSW2023的演讲阵容:
13场演讲中有三场是关于DAOS的,这比任何其它单一存储产品或项目都要多。DAOS在今年的IO500中也取得了巨大的成功,在生产存储系统列表中占据了前两名。
事实上,DAOS今年支持了每一个新的奖项获得者,现在在榜单上是仅次于Lustre的第二大存储系统。
为什么今年DAOS受到了如此广泛的关注呢?首先,Aurora终于上线并开始运行作业,虽然计算系统只运行了其能力的一半,但完整的DAOS系统(总计220PB,全部使用TLC NVMe)已经上线并运行。这一事实证明了DAOS的可扩展性,而许多并行存储系统(包括VAST和WEKA)并没有公开展示。由于DAOS是开源软件,而Aurora是一个开放科学系统,DAOS在规模上的所有优势都以一种除了Lustre之外的任何竞争存储系统都无法匹敌的方式向社区展示。
其次,Google Cloud在八月份通过启动基于DAOS的高性能并行文件服务Parallelstore,表达了对DAOS的强烈信心。尽管AWS和Azure已经选择Lustre来填补高性能文件服务的空白(通过FSx Lustre和Azure Managed Lustre),但GCP选择DAOS作为HPC和AI工作负载的高性能文件服务的基础,已经在该领域树立了一面旗帜。
Parallelstore目前仍处于私有预览阶段,详细信息有限,但GCP在主要存储会议上邀请了DAOS和Parallelstore的代表来介绍情况。据我了解,Parallelstore目前还处于早期阶段,旨在成为一个快速的临时层;它使用DRAM进行元数据存储,这意味着它依赖于跨服务器的纠删码以避免在单个服务器重新启动时丢失数据。如果整个集群同时宕机,没有恢复数据的方式。由于缺乏耐久性,它还不能入选IO500列表,但即将推出的基于NVMe的元数据功能(在上游DAOS中于2024年上半年推出)将是解决这一限制的长期方案。
最后,关于DAOS的第三个重要消息是DAOS基金会的成立。这一举措在本月初首次公布,属于Linux基金会旗下,由五位创始成员主导:
阿贡国家实验室(ANL),对DAOS产生了浓厚的兴趣,并考虑到了对DAOS的大量投资; Enakta Labs,一家从德国存储服务公司Croit中分拆出来的公司,该公司为DAOS贡献了特性开发; Google Cloud,将DAOS作为其Parallelstore服务的基础,对DAOS投入了大量精力; HPE,与阿贡实验室的DAOS部署有着共同的命运,并一直在为其贡献特性开发; Intel,其工程师主要作为Aurora计划的一部分开发了DAOS。
我认为Intel将DAOS交给这个新基金会的决定是一个积极的转变,使得DAOS成为更稳定的长期选择。如果Intel在完成对Aurora计划的责任后选择剥离DAOS,那么现在DAOS可以继续存在而不必分叉。DAOS基金会在某种程度上类似于OpenSFS(Lustre支持的非营利组织之一),因为它是一个厂商中立的组织,可以团结DAOS社区在其周围。
但与OpenSFS不同,DAOS基金会还将承担在Intel于2024年3月发布其最终版本(2.6版)之后发布DAOS的新版本的责任。DAOS基金会还将引导特性的优先级,但鉴于DAOS基金会不直接资助开发者,目前尚不清楚像Intel或Google Cloud这样的贡献者实际上是否受到基金会决策的影响。更可能的情况是,DAOS基金会将有权决定哪些特性将包含在下一个正式的DAOS版本中,而为DAOS贡献代码的开发人员仍将根据其雇主告诉他们的特性进行优先考虑。
那么,DAOS成为SC'23的焦点是否意味着它已经准备好投入实战了呢?
虽然Intel和阿贡可能会说是的,但社区似乎有着复杂的感受。考虑一下由LRZ的László Szűcs在DAOS存储社区BOF上呈现的这张幻灯片:
DAOS显然非常快速,可以在生产环境中扩展到数百PB,这一点得到了Aurora的IO500列表的证明。然而,这种性能伴随着目前强加给应用程序开发人员、终端用户和系统管理员的大量复杂性。László的幻灯片中列出的“机会”是那些在领先型HPC规模上运行的人可能会乐意做出的选择,但普通的HPC用户可能无法做出这些决策,并对容器类型和库接口做出明智的选择。
DAOS在PDSW(研究研讨会)上如此突出可能也强调了这一点。Adrian Jackson的Lighting Talk中呈现的这张幻灯片总结了两个不同维度上的复杂性:
他的研究结果显示,你在DAOS POSIX接口上的DAOS对象类和I/O库的选择可能会导致带宽的巨大差异。教导HPC用户如何从Lustre等并行文件系统中获得最佳性能已经足够困难;我无法想象这些用户会接受这样一个观点,即在生成数据时,他们应该关注使用哪个对象类。
另外,还有一篇相关的DAOS研究报告,由Greg Eisenhauer呈现,这是一篇我感到意外的全文论文,揭示了在使用不同的API连接到DAOS时性能差异有多大。这张幻灯片是众多幻灯片之一,突显了这一点:
我曾天真地以为选择本地用户空间API(键值或数组)对性能影响微乎其微,但Eisenhauer的报告显示情况并非如此。事实似乎是,尽管DAOS在处理非对齐写入时比Lustre更出色,但将数组对齐在大的2的幂边界上仍然具有显著的性能优势。
根据今年关于DAOS的技术演讲,原始问题——DAOS是否已经准备好投入实战——还不能简单地用是或否回答。虽然它提供的性能确实是同类中最好的,但目前要达到这种性能并不容易。那些已经在解决高价值问题方面付出巨大努力的团队可能会迎头赶上DAOS能提供的I/O性能。这些高价值问题包括训练下一代基础语言模型(LLM),而Google Cloud对DAOS的投注可能使其成为尽可能高效地训练这些模型的平台上增值的地方。然而,目前DAOS的复杂性可能仅限于最高层次的领先型HPC和AI的吸引力,我认为在DAOS能够让典型的暑期实习生欣赏到其全部价值之前还需要一些时间。
Infinia
在谈论WEKA、VAST和DAOS之前,如果不提及DDN全新的Infinia产品,那是不公平的。在SC'23之前发布的Infinia,一直备受HPC存储领域的期待。尽管大家对它寄予厚望,但在我的任何对话中都没有涉及到它。据我了解,DDN内部的Infinia工程团队与Whamcloud团队(即Lustre的开发者)是完全独立的,这或许是把双刃剑。积极的一面是,这确保了开源Lustre的开发工作不会在日常工程优先事项上与DDN的专有产品产生冲突。然而,消极的一面是,我仍然难以看到Infinia和Lustre如何避免争夺相同的业务。
目前来看,Infinia似乎更注重一些企业特性,如多租户和自动化操作,而Lustre则专注于为越来越广泛的工作负载提供最大性能。它们的发展道路可能最终会交叉,但那一天可能还遥远,而且Lustre已经深深扎根于HPC行业。
专用GPU云的出现
在探讨存储新趋势的同时,我对其它云服务商如何为大规模AI工作负载提供端到端解决方案也表示浓厚兴趣。今年,许多小型云服务商(CSP)首次在SC上亮相,其中许多都以提供NVIDIA H100 GPU服务为特色。这些公司大多数在几年前还不存在,或者过去专注于通用云服务,如虚拟私人服务器和托管WordPress站点等。因此,在HPC会议上突然看到它们的存在令人吃惊。在SC22和SC'23之间的时间里,这些小型CSP是如何在GPU超级计算机的部署方面变得如此专业的呢?我对这个问题也感到好奇。
我与一些小型云服务商(CSP)的代表进行了交谈,以了解他们提供的具体服务以及他们的运作方式与AWS、Azure和GCP有何不同。与定义一个标准的集群架构并提供多个副本以供任何愿意支付的人使用不同,这些小型CSP会根据客户的规格部署白盒GPU节点集群,并将其作为专用资源售卖,供固定期限使用。如果客户想要一些HGX H100与InfiniBand相互连接,也可以提供。如果他们想要RoCE,CSP将部署RoCE。对于存储,如果客户想要EXAScaler或Weka,他们也会进行相应的部署。
尽管这种模式更接近于传统的本地化集群部署,而不是典型的按使用付费的基础设施即服务提供,但客户仍然将这些GPU视为云资源。他们无需关心在幕后必须部署的基础设施,而当客户的合同期满时,他们的集群仍然归CSP所有。因此,CSP可以通过按使用付费的方式再销售相同的基础设施,或者将其重新用于另一位专用客户。通过拥有GPU并将其作为服务出售,这些CSP可以实施一些非传统的策略,比如使用GPU作为抵押品借贷资金以建设更多的数据中心。同时,NVIDIA可以以批发价格将GPU卖给这些CSP,一次性完成收入,让CSP负责确保在生产中得到维护并充分利用。
此外,客户从这些小型CSP获得的服务通常比从大型3个CSP(AWS、Azure和GCP)获得的服务更为基本。他们主要得到大型GPU节点和RDMA网络,但除此之外的托管服务是参差不齐的。
例如,其中一家小型CSP告诉我,他们的存储基础设施主要是基于数百PB的开源Ceph构建的。Ceph提供了云服务必需的最低限度的存储服务(对象、块和文件),但对于大规模模型训练来说可能还不够。因此,我在与这些小型CSP的所有者交谈时了解到,他们正在积极考虑如何为不断增长的基于GPU的工作负载提供存储选择,而这正是VAST和Weka可以发挥作用的地方。由于VAST和Weka都提供了稳健的S3和文件接口,因此两者都可能成为这些GPU云的首选存储服务。
正如我上面提到的,这些CSP的主要策略似乎是,如果像Ceph这样的解决方案不够好,他们将提供客户需要的专用并行存储服务。这种趋势,以及像VAST和Weka这样的公司对存储的日益关注,揭示了一些重要的趋势:
一些CSP在快速获取和部署大量GPU之前,似乎并未全面考虑端到端的用户体验。由于客户对GPU的极高需求,他们愿意与第三方存储厂商合作,或者自行负责选择首选的存储服务。
拥有大量GPU是必要的,但在GPU云服务领域,要提供具有竞争力的产品,还必须具备集成的高性能存储服务。
看起来许多专门提供GPU云服务的公司发现,通过与第三方存储厂商合作来解决高性能存储问题,比在开源软件(如Lustre或DAOS)之上构建和管理自己的服务更为成本效益。
我确实询问了一些这些较小CSP的整体推荐是什么。为什么我会选择GPU云X而不是他们直接竞争对手GPU云Y?回答主要有两个方向:
每GPU小时的成本低于竞争对手。
在将GPU开箱并投入生产方面,其速度超过了竞争对手。
其它技术点滴
在过去的一周里,我进行了许多有趣且深入的对话,注意到了一些不易归为其它类别的微妙主题。我非常想听听其他人是否也注意到了同样的情况,或者是否有更独到的观点。
APU(加速处理器)和超级芯片——它们真的那么有用吗?
在Eagle的一个8路HGX H100节点旁值班时,许多人向我咨询了对Grace Hopper超级芯片的看法。虽然我对GPU和AI不是专家,但上周我与在这个领域比我聪明的同事进行了一些讨论,以下是我了解到的一些信息:
Grace Hopper超级芯片(简称为GH100)是Summit架构的演变,它通过一个特殊的小部件将V100 GPU与CPU连接,该小部件将NVLink转换为Power9上的片上一致性协议,实现CPU缓存的一致性。通过GH100,维护CPU一致性的协议直接与ARM AMBA一致性协议兼容,这消除了Power9+V100路径中的一个障碍。此外,Grace还具有更强大的内存子系统和NoC(Network-on-Chip),使从GPU访问主机内存更为高效。
然而,AI工作负载是否真的需要每个H100 GPU的72个核心呢?这可能并非绝对必要。AI(以及HPC)需要一些高性能核心来处理应用程序执行的所有部分,这些部分是GPU不擅长的——例如,分歧的代码路径、指针追踪和I/O。在能够连接到GPU内存子系统的NOC上放置一些高性能的CPU核心为以巧妙的方式训练LLM(大型语言模型)提供了机会。
例如,简单地训练一个权重和激活均匀分散在主机内存和GPU内存上的LLM可能效果不佳,因为NVLink C2C的900 GB/s将成为许多计算的关键路径。然而,当从GPU内存中卸载某些张量的成本如此之低时,激活检查点等技术可能变得更加灵活。实际上,易于访问的主机内存的存在可能允许更有效地使用GPU内存,因为在训练期间隐藏在其它计算步骤下的传输张量所需的时间更容易。
Grace CPU与Hopper GPU的超额配对还允许GPU的开发速度独立于CPU的开发。即使饱和H100 GPU的工作负载可能不需要Grace CPU的所有72个核心,但H200或其它未来一代的GPU可以发展到Grace的功能,而无需修改整个超级芯片。
我没有机会与AMD的同事交流,以了解他们对MI300 APU的看法,但我想,他们的情况可能会更简单一些,因为他们的内存空间比NVIDIA的超级芯片设计更为平坦。这将使训练某些模型无疑更加简单,但也许留下的空间较少,难以进行可以将更多模型塞入给定HBM容量的复杂优化。我不是专家,如果有真正的专家能提供任何解释,我将非常乐意引用!
量子计算
量子计算多年来一直是SC领域的热门话题,但最近似乎正逐渐进入日常HPC设施领导者的考虑范围内。上周,我与一些人交谈,他们询问我对量子计算有何看法,因为他们已经意识到自己需要了解的知识比目前所掌握的要多。我必须承认,我与他们一样,并没有密切关注量子计算的进展。然而,我知道越来越多的人开始关注量子计算,他们是在CTO办公室工作,必须关注风险和机会而不仅仅是知识好奇的人。
虽然很难说SC'23上的量子计算技术是否有重大突破,但据我所知,仍有一大批由风险投资支持的初创公司正不断增加量子比特的数量。但今年可能标志着HPC设施开始思考自己在量子计算领域定位的第一年。并非每个人都需要量子计算机,甚至并非每个人都需要在员工中拥有量子计算研究员。但如果资助机构或首席执行官问到“你将如何利用量子计算?”时,每个人都应该准备好明确的观点。
NextSilicon
在HPC行业中,NextSilicon是引人注目的隐秘模式初创公司之一。在SC'23上首次亮相,他们推出了新型的Maverick加速器,并宣布了在Sandia National Lab的Vanguard II项目中取得的首个重大胜利。
NextSilicon独特之处在于,与几乎所有其它加速器初创公司不同,他们并没有试图在人工智能加速市场上与NVIDIA正面竞争。相反,他们创建了一个数据流加速器,专注于加速GPU特别擅长的具有挑战性的HPC工作负载,例如不规则算法和稀疏数据结构。他们将此硬件与一个高效的运行时配对,该运行时可以持续优化计算内核映射到加速器的可重构单元的方式,以在应用程序运行时逐渐提高加速器的吞吐量。
数据流加速器的概念一直吸引着人们的注意,因为它们是除制造越来越大的矢量之外提高计算吞吐量的唯一选择。挑战一直是这些加速器更像FPGA而不是通用处理器,需要类似的大量计算机科学专业知识才能使用得好。NextSilicon声称已经通过他们的运行时解决了这个问题,而且他们似乎正在雇佣真正有声望的HPC专业人才,以确保他们的加速器能够为HPC工作负载提供真正的价值。
I/O性能测试的发展
在IO500的BOF(Birds of a Feather,志同道合的人的聚会)中,我们深入讨论了如何向IOR和IO500添加新的基准测试模式,以更全面地展示工作负载。
更具体地说,关于是否包含4K随机读取测试的讨论一直在进行,而反对者对此最终采取了较为温和的态度。我一直认为使用IOPS作为文件系统性能的度量标准是愚蠢的,但4K随机IOPS确实为真实应用可能经历的性能建立了下限。由于IO500一直存在问题,不能完全代表文件系统在真实环境中的性能,添加运行完全合成的最坏情况工作负载的选项将使IO500能够定义围绕文件系统I/O性能下限和上限的完整边界框。
GWDG的Hendrik Nolte还提出了一些新的吸引人的IOR模式,接近更真实的工作负载场景。第一个是新的局部随机模式,其中数据在IOR段内随机化,但段是重复的:
与全局随机读取相比(这是IOR通常执行的操作),这更接近于不是大块同步的并行工作负载的表示;例如,NCBI BLAST使用线程池和工作共享来遍历文件,生成的I/O模式类似于这种新模式。
他还提到了一个提议,以类似fio当前工作方式的方式运行并发混合工作负载。与执行大块同步并行写入,然后执行大块同步并行读取不同,他的提议允许IOR并发执行读取和写入,更准确地反映多租户存储系统的状态。我实际上编写了一个框架来做到这一点,并使用IOR和elbencho来量化争用的影响,但在我能够发表之前,我离开了研究领域。我很高兴看到其他人认为追求这个想法是有价值的。
I/O性能测试领域的另一个值得关注的进展,是由Sven Breuner在“分析并行I/O”BOF中提出的。他详细描述了elbencho基准工具中新增的netbench模式。这个netbench模式的表现类似于iperf,因为它是一个网络级别的吞吐量测试。然而,作为elbencho的一部分,它可以生成在并行存储系统的客户端和服务器之间通常遇到的高带宽incasts和broadcasts。
这是一个令人惊叹的发展,因为这使elbencho成为调试整个并行存储系统数据路径的一站式工具。例如,如果想弄清楚为什么文件系统的端到端性能低于预期,可以使用elbencho分别测试网络层、对象或文件层、块层以及整体端到端路径,以找出哪一层性能较差。一些文件系统有专门的工具来执行相同的网络测试(例如IBM Spectrum Scale的nsdperf),但elbencho现在具有一个很好的通用方式,可以为任何并行存储系统生成这些网络模式。
AI对HPC社区的影响
尽管在之前的SC大会上AI已经扮演了突出的角色,但今年是我第一次注意到AI产业以一种奇怪的方式渗透到HPC社区。
例如,一群记者和媒体人员缠着我,开始问一些相当直接的问题,而我当时正在展台值班。与记者交谈并不是完全不寻常的事情,因为我一直支持行业新闻,但像我这样的从业者与记者之间的社会契约一直相当正式——提前安排电话,受邀在活动中演讲,类似的事情长期以来一直是常态。如果我进行公开采访,我是知道的。
但今年,似乎出现了一批新一代的年轻记者,他们与普通的展台访客并无二致。有些在我们聊天后才向我介绍自己是新闻工作者(好的),但有些却没有这样做(不好),这使我得出了一个结论:在与陌生人交谈之前检查姓名和从业机构,因为我不能再假设所有的展台访客都会本着善意的原则行事。
那么,何以会发生此种变化呢?我思考了三个可能的原因:
首先,我或许已经年长,如今有更多年轻的科技产业记者认为我值得对话,是因为在他们眼中我代表着老派HPC人士的经验与洞察。这种情况在我之前的HPC人士中并非少见,他们亦需要应对这种年龄带来的转变。
其次,如Substack等平台的流行,使得独立记者在经济上得以自给自足。任何人都可以在没有编辑监督的情况下成为记者,使得HPC社区的声音更为多元。
最后,对庞大的AI产业的关注也照亮了HPC产业。HPC和AI都建立在相同的基础技术上(如GPU、RDMA fabric、HBM等),因此AI记者现在有理由出现在HPC社区的活动中。然而,若非今年我首次被一些风险投资家紧追不放,我会认为这第三个原因稍显牵强。HPC从未像AI那样吸引风险投资的关注,因此我必须认为被问及某个初创公司技术的可行性是AI市场机会的直接结果。
虽然更广泛的与会者社群和更多的媒体报道是件好事,但AI聚焦媒体和风险投资者在SC社区的日益存在意味着我不能像过去那样坦率和开放。在一个(自身也有保密事项要保护的)公司工作并没有帮助,所以也许在与陌生人交谈时变得更为谨慎只是成熟过程中的一部分。
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解