HPC-AI市场报告:预计2024年市场将非常强劲
https://hyperionresearch.com/hpc-market-update-briefing-during-isc24-virtual/
根据Hyperion Research在2024年国际超级计算大会(ISC 2024)前发布的年度HPC市场更新报告,2023年HPC市场整体规模约为370亿美元。由于供应链问题和一些大型系统(如E级系统)的接受度放缓,市场表现相对平稳。报告指出,本地化服务器收入下降了2.7%,而与HPC相关的云端支出则显著增长。预计2024年本地化服务器销售将回升至约163亿美元。
Hyperion强调,HPC领域正积极导入AI技术,这迅速将HPC转变为混合HPC/AI领域。因此,Hyperion新增了一个扩展的AI追踪计划。在存储市场方面,其在HPC中一直表现强劲,2023年规模约为62亿美元,预计至2028年将增长至近100亿美元,年均增长率为9.3%。
Hyperion Research首席执行官Earl Joseph在评论市场趋势时表示:“2023年我们看到了大量订单,但实际接受度并未如预期般高。许多买方在决定购买什么以及在云端和本地化环境中如何分配预算时,需要更多时间考虑。这种趋势正在逐步显现,因此我们预计市场将有所增长。”他进一步指出:“同时,我们预计供应链问题以及E级(Exascale)计算系统的接受延迟仍将持续存在。尽管存在多个增长驱动因素,但也存在一些限制因素。我们正在平衡这些因素的影响,但预计2024年市场将非常强劲。”
需要注意的是,Hyperion所提到的云端数据仅指用户在云端进行与HPC相关工作的支出,并不包括云服务商在HPC基础设施上的投入。
Hyperion 2024年预测
随着用户将AI的重心从训练扩展到推理,云端HPC资源的利用率将加速增长。 尽管“速度和性能”仍是存储系统买方关注的核心因素,但数据存储解决方案的主要价值点和竞争优势将转向“数据平台”。 系统供应商在适应NVIDIA加速的GPU路线图节奏方面将面临比超大规模数据中心更大的挑战。 对采购本地化量子计算(QC)系统的兴趣将增加,但不会取代通过云端访问QC的方式。 由大型终端用户(而非传统HPC供应商)构建的HPC安装将变得更加普遍,特别是在高端AI计算工作负载方面。 RISC-V将继续获得认可,成为一种可行的处理器方案。 能源成本将更频繁地超过HPC性能提升的优势,部分场地将选择“够用”的速度以达成能源效率目标。 单一HPC基准测试的重要性将降低。 大型语言模型(LLM)框架将在LLM使用的总体趋势中占据重要地位。 生成式AI的增长将持续,但随着其适用性和限制逐渐清晰,应用增长率将趋于稳定。 基于Arm的处理器的应用将急剧上升,预计基于Arm的HPC系统收入将比前一年翻倍。
第三条(GPU加速的路线图)和第五条(所谓的“暗HPC”)特别引人关注。
Joseph表示:“GPU加速的路线图给系统供应商和用户带来了巨大挑战。NVIDIA的公告紧随其后的是AMD和Intel,它们将路线图节奏从18个月缩短至接近12个月,这意味着供应商每12个月就必须集成一种新型处理器。他指出,这些公司都拥有多种处理器类型,‘实际上意味着系统供应商几乎每季度都要在系统中集成一种新型处理器。供应商必须让他们的系统和软件适应更广泛的硬件多样性,这确实带来了一些巨大的挑战。’”
他提到,用户也被这种引入周期的加速所困扰。
“当你购买一个系统时,从招标、做出决策到订购和安装系统,整个流程需要花费时间——这很容易超过一年。当你启动系统时,技术可能已经落后了一两代。此外,系统价格大幅上涨。因此,用户必须花费更长时间来证明更高的支出是合理的,可能是4-5年甚至更长。在系统的整个生命周期中,你可能会轻易地落后三到四代领先技术。”Joseph说。
关于规模更大、对公众而言不那么显眼的HPC部署的兴起,他表示:“多年前,我们常见到这种标准做法,但在过去20多年里几乎消失了。现在,谷歌、微软、特斯拉以及中国的大型站点正在建立真正巨大的系统,使这种做法重新兴起。此外,他们还在为系统设计自己的处理器。所以这是市场上的全新复兴,尽管在我们的市场数据中并未显示,因为这些系统并非通过买卖交易获得。”
Joseph指出,HPC市场一直容易出现大幅波动,但现在变得更加难以预测。因此,Hyperion开始更频繁地更新其预测。以下是示例图表,一张展示了全球HPC服务器数据的历史波动,另一张则显示了Hyperion如何更频繁地调整其预测。
和几乎所有HPC市场观察员/顾问业界一样,Hyperion也在加强其AI业务。
“我很高兴地宣布一个新计划。我们扩展了整个AI项目和重点……基于我们过去10年追踪AI、大数据HPBA的经验,”Joseph说。他提到,将更频繁地识别关键问题,包括驱动因素和障碍、最佳实践案例,例如如何在硬件、架构、软件和新语言模型上做出权衡。
“为帮助我们做到这一点,我们正在创建一个AI专家顾问委员会。我们希望委员会能为我们提供建议和指导,告诉我们目前最关键的问题是什么。”他建议有兴趣的潜在参与者可以联系Hyperion。
Hyperion的Bob Sorensen提到了系统需求的变化,暗示在HPC中已不存在一刀切的架构;这可能是持续趋势的延伸,但随着AI工作负载与HPC的融合,这种趋势的增长速度更快。
分析师Mark Nossokoff回顾了HPC互连网络和存储领域,发现AI不断变化的工作流程需求正在改变买方对文件系统的偏好。
“许多文件系统原本是为传统的模拟-模拟工作负载而设计的,特别是那些涉及检查点/重启类型的项目。然而,AI工作负载提供了更广泛的配置方案,包括小块随机和大块顺序的访问方式,以及不同的访问频率需求。我们观察到,买方对文件系统的选择偏好正在发生转变。”他说道。
“我们正在进行一项研究和流程,以评估当前文件系统市场的情况,预计在未来几个月内会有结果。虽然传统文件系统仍然在使用,但我们注意到有一个新兴的文件系统类别正在崛起,这些系统由多个供应商推出,从一开始就针对AI和新的需求进行优化。此外,我们还看到了支持这些文件系统的更广泛的商业模式,例如Hammerspace、VAST,以及现在的VDURA(前身为Panasas)和Weka,它们都采用了软件解决方案作为主要的商业模式。”
Sorensen对量子计算市场进行了简要总结,Hyperion预测该市场明年将突破10亿美元大关。
“我们对这一相对激进的增长率充满信心,因为我们看到了供应方面的多个有利因素。首先,传统量子计算供应商的收入持续增长——这里的‘传统’指的是已经经营了两三年以上的公司。同时,我们也看到了许多新进入市场的玩家首次实现了收入。”Sorensen说。
用户兴趣也在增加。“对于加速关键计算任务的广泛兴趣正在不断增长,许多任务因传统HPC的成本复杂性、功耗增加等因素而受到限制。我们观察到,各种场景都在探索量子计算如何帮助解决一些最棘手的计算任务。同时,我们还看到了政府项目的持续支持,这不仅仅是为研发提供持续的资金支持,还包括政府采购量的增加,购置量子计算硬件,以便这些系统可供政府、商业乃至学术界的领先研究机构使用。因此,在供应和需求两方面,我们都看到了巨大的潜力。”
-----
整体HPC市场在2024年将呈现显著增长
预计2024年,本地化HPC服务器市场将达到约163亿美元,总本地化HPC支出将达到323亿美元。
但仍存在一些问题:
供应链问题愈发复杂(例如,GPU供应)。
E级(Exascale)系统的验收出现延迟。
本地化市场的低端部分持续面临挑战。
增长驱动因素包括:
新的应用场景,特别是在AI、大型语言模型(LLM)和生成式AI方面,为用户提供了众多新的研究领域。
世界各地的国家和公司继续认识到创新和投资研发的重要性,以推动社会进步、增加收入、降低成本并提高竞争力。
云计算在越来越多的HPC工作负载中展现出更大的价值。
AI训练和推理推动云HPC资源利用增长
随着用户将AI的重点从训练扩展到推理,云端HPC资源的利用将呈现加速增长态势。
Hyperion Research预测,HPC云利用的五年复合年增长率将达到20%,但目前这一数据尚未完全涵盖所有AI工作流程。
训练模型
通常需要大量计算资源
在每次训练运行期间接近完全利用率(例如,持续数天或数周)
用户和作业数量相对较少
推理
计算需求较低
每个作业的利用率较低,持续时间短(例如,微秒、毫秒级别)
用户和作业数量大幅增加
GPU发布加速对系统供应商的挑战
相较于超大规模数据中心,系统供应商在吸收NVIDIA加速发布的GPU路线图方面将遇到更大挑战。
NVIDIA将其GPU发布周期从18个月缩短至12个月,这可能导致灵活的供应商和服务提供商能够更频繁地向用户交付性能更高的解决方案。
用户和供应商将努力在多个发布周期中成功展示这一能力。
12个月的GPU发布周期也可能对生态系统造成一定压力。
其他GPU提供商将面临更大的竞争压力。
系统供应商需要调整其预算、优先级、规划、采购周期和流程,以更频繁地吸收和整合新技术。
最近将本地化HPC系统寿命从4年延长至5年或5.5年的用户可能会落后领先技术3到4代。
大型终端用户自建HPC/AI系统实例增多
大型终端用户而非传统HPC供应商建设的HPC安装将越来越普遍,尤其是针对高端AI计算工作负载的用户。
HPC终端用户和云服务商开发HPC的情况可能会增加,主要驱动因素是对特定工作负载HPC架构的需求不断增长,尤其是那些适合独特的、计算密集型的生成式AI工作负载。
近期实例:
Google
Microsoft(Eagle - 2023年11月Top500榜单第3名)
NVIDIA(EOS - 2023年11月Top500榜单第9名)
Tesla
大型中国的站点
同样值得注意的是,这些新的HPC系统有些是使用本地化开发的处理器(例如,Google的TPU v5P)构建的,既面向AI也面向传统的科学和工程工作负载。
能源成本在系统权衡中逐渐占据主导
随着一些站点为实现能源效率目标而选择“够用”的速度,能源成本在系统中的重要性将日益超过HPC性能提升。许多HPC站点已因最高性能计算处理器功耗需求的不断攀升而面临能源成本上升的困境。
大型AI训练模型的功率需求预计将以惊人的速度增长。
行业将更加注重在可负担性和性能之间找到务实的权衡和平衡。
特别是在能源成本高昂的地区,如欧洲和亚洲,将更加关注如何优化每单位能源消耗下的性能。
人工智能研究议程
全面审视先进人工智能计算的各个方面
硬件:
分析和评估不同处理器和GPU对各种计算密集型AI工作负载的适用性
架构:
探讨不同设计的优缺点
分析每种方法在应用类型、作业规模、数据类型和权衡方面的最佳适配
确定云计算的最佳适用场景
软件:
分析和评估终端用户的软件环境、软件基础设施、应用程序、工具、基础模型等
新兴趋势:
跟踪和评估前沿应用场景、新模型、新方法等
HPC/AI存储需求持续增长
各行业和垂直领域对存储的需求不断增长
存储已成为HPC/AI领域中增长最快的元素
存储占据本地HPC支出的约21%,并且这一比例仍在上升
AI相关的需求和要求对存储支出的影响仍在发展中,但预计将进一步推动存储支出的增长
数据平台成为存储价值的焦点
虽然“速度和带宽”对于存储系统买方来说依然重要,但数据存储解决方案的主要价值点和竞争优势将逐渐转向“数据平台”。
每代存储系统在带宽、吞吐量和延迟性能改进方面的稳定提升已成为基本要求。
速度和带宽已不再是衡量存储系统价值的唯一标准,数据的价值才是核心。
长期来看,存储系统的业务成功将由数据平台驱动:
在性能可靠的基础上,随时随地为用户提供所需数据。
赋予用户从输入到科学、工程和业务工作负载中的数据中挖掘价值的能力。
文件系统格局的变革
AI工作负载对传统HPC文件系统提出了挑战。
传统HPC模型/仿真开发的现有文件系统正受到以AI为设计初衷的现代文件系统的挑战。
计算密集型 vs. 数据密集型
IO配置文件(大块顺序 vs. 小块随机)
访问方法(文件 vs. 块 vs. 对象)
访问频率(热数据 vs. 归档数据 vs. 冷数据)
部署位置(集中数据中心 vs. 云端 vs. 边缘计算)
当前文件系统的应用偏好:
传统:BeeGFS, Lustre, NFS, OneFS, PanFS, Spectrum Scale
新兴:Hammerspace, VAST, Weka
软件业务模型支持更广泛的解决方案选择,如Hammerspace, VAST, VDURA(前称Panasas), Weka等。
结论
2023年HPC总体增长平稳
2023年本地服务器市场表现不佳,下降了2.7%,主要受到供应链问题、E级(Exascale)系统验收延迟以及云计算更广泛应用的影响。
预计2024年将是一个强劲的增长年,GPU、云、AI/ML/DL/LLM等领域将迎来高增长。同时,新技术也将大量涌现:
生成式AI和LLM正在推动新的增长浪潮。
处理器、AI硬件和软件、内存、新存储方法等也将不断涌现。
存储领域可能会因AI、大数据和对更大数据集的需求而迎来显著增长。
供应链问题仍然存在,电力和人才问题也日益受到关注。
需要解决HPC领域的多样性问题。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)