Hyperion HPC-AI 市场报告(网络会议)
CEO
我们每季度跟踪全球传统HPC、AI、机器学习、深度学习、云存储、互连软件的所有销售情况,还涉及电力和冷却问题、建筑施工和供应链问题,任何与科学技术计算或各类先进计算技术相关的内容,我们都会关注。
2023年整体HPC市场保持平稳,云部分的市场支出增长良好,而本地部分则有所缩减,因此当考虑到所有部分时,市场规模大约为每年370亿美元。
具体来看,本地服务器、超级计算机、部门级和工作组级的市场下降了2.7%,主要原因是供应链问题和一些大型超算设备的验收延迟,这些问题在市场中仍然存在。我们希望很多在2023年未完成的接受工作将在2024年实现。
除了这些类别外,我们还应业界的要求提出了新的类别,更好地代表当前市场的表现。由于GPU、CPU和系统本身的成本急剧上升,机器的平均价格也在上涨。因此,我们设计了这些新类别。
现在来看2023年供应商市场份额和不同垂直买家细分市场的情况。HPE继续保持市场领导地位,联想和浪潮的市场份额都超过十亿美元。从不同的垂直或行业领域来看,有几个细分市场的规模超过十亿美元,甚至有一个细分市场超过三十亿美元,显示出市场的显著增长,这是一个积极的信号。
我们预计HPC云市场将在2024年实现强劲增长,这主要是由于所有AI技术和应用场景的推动,但传统的HPC应用场景也在推动增长。云服务商在使云更加友好、更易使用和更适合运行HPC应用程序方面做得非常出色,因此我们将未来五年的增长预测率提高到21%以上。
现在看看整体HPC市场,包括本地和云市场,我们也预计2024年将实现强劲增长。所有AI和相关的新技术,如机器学习、深度学习、大语言模型和生成式AI,目前在市场上都表现得非常强劲。2023年我们看到了很多订单,但验收的数量没有我们预期的那么多,我们认为许多买家在决定购买什么、花多少钱以及云和本地之间的分配时花了更长的时间,这种发展趋势正在市场中发挥作用。因此,我们预计这里将出现显著增长,同时,我们仍然预计供应链问题和超算验收的延迟将贯穿整个时期。因此,虽然有许多增长驱动因素,但也存在一些制约因素,我们正在努力平衡这些因素,但我们预计2024年市场将会有非常强劲的增长。
这是我们对本地HPC服务器的五年预测,使用传统的类别:超级计算机、部门级和工作组级。可以看到,高端市场的增长最快,接近9.7%,几乎达到10%,而我们预计整体市场将增长略超过8%。
在这个行业中,我总是喜欢展示市场的过山车效应,我的意思是我们通常有几年的强劲增长,然后是一年或两年的下降,然后是强劲增长,反复循环,这主要受技术、经济和其它问题的影响。这是从2005年开始的市场回顾。
现在看看更广泛的本地市场,包括附加存储、中间件、应用软件和维修服务,2023年市场规模约为300亿美元,我们预计到2028年将增长到接近440亿美元,因此我们预计这里将出现约8%的显著增长。
在这个表格中,这是我们对市场中超算和近超算领导者采购的预测和估计,目前我们正在跟踪超过45个系统,总价值超过130亿美元。
我们经常被问到我们的预测有多准确,以及它们是如何变化的。在COVID-19之前,我们的预测非常紧密且准确,但COVID-19引起了市场的各种问题和动态变化。例如,我们预计供应链问题将持续几年,而不是拖延更长时间,但目前拖延的原因是对高端GPU的需求非常大,因此这是一种好现象,而不是COVID-19的影响。这表示自2021年1月以来的许多预测,你可以看到,由于供应链的延迟,我们将时间推迟了。
那么市场中的高增长领域有哪些呢?首先是本地HPC服务器,预计其增长约为8%;存储增长将更快,目前预计超过9%,但由于所有AI技术和对大数据、更大数据集的需求,以及模拟生成更大的数据集,其增长可能远高于我们的预测。GPU目前预计每年增长约177%,这是指GPU处理器的增长,如果再加上价格标签的增加,增长率将显著更高。下一个层次是运行HPC和AI工作负载的云,我们预计未来五年其年复合增长率约为21%,这从一个非常可观的基数开始,有大量收入。在本地AI专注的服务器方面,我们预计未来五年年复合增长率超过30%,因此增长率非常强劲。
我们对2024年的几项预测。这里有11项预测,我只会重点介绍其中几项。
首先,AI训练和推理正在加速云资源的利用,以运行HPC和AI工作负载,因此我们提高了这一领域的预测。训练模型通常需要独特的硬件,目前市场上有各种新型硬件和软件,如果你的数据中心没有安装最先进的GPU,可能需要8到12个月才能安装一个系统。所以,如果你想开始使用它进行实验或在实际应用场景中使用,云是唯一的选择,这对云的增长率非常有帮助。接下来的大问题是,一旦你训练了模型并搞清楚了如何操作,推理可能需要更多的资源,而且可能需要不同于目前安装的资源,这也是我们预计云使用率将大幅上升的领域。
我们的第三个预测是GPU路线图的加速对系统供应商和用户带来了严重问题。NVIDIA宣布将其路线图的周期从18个月缩短到更接近12个月,紧随其后的还有AMD和Intel。这意味着供应商每12个月就必须整合一种新型处理器。而NVIDIA、AMD和Intel都有多种处理器类型,所以几乎每季度都有新的处理器类型需要整合进他们的系统。此外,市场上可用的处理器类型也越来越多,供应商必须使其系统和软件能够在更多样化的硬件上运行,这对研发、工程和测试带来了巨大的压力。
对于用户来说,这种压力也很大。对于许多用户来说,购买系统需要一定的时间来进行RFP和决策,然后下订单并安装系统,这可能轻松超过一年。所以,当你启动系统时,你可能已经落后了一两代的技术。正如我提到的,系统的价格正在急剧增长,因此用户必须保留更长时间才能证明他们所花费的更高金额是合理的,可能是四年或五年,在某些情况下甚至更长。因此,在系统的使用寿命内,你可能会轻松落后于领先技术三到四代,这给当前的系统带来了很大的压力。
我们的第五个预测是,越来越多的大型用户正在建立自己的系统。许多年前,我们看到这种情况是一种标准做法,但在过去的20年左右,这种情况确实消失了,现在它正在重新兴起。谷歌、微软、NVIDIA、特斯拉以及中国的大型数据中心都在建造真正庞大的系统,此外,他们正在考虑为系统设计自己的处理器,这是市场上全新的复苏,尽管它没有出现在我们的市场数据中,因为还没有从买方到卖方销售系统。
我们的第七个预测也非常值得关注,在过去一年半到两年的调查中,我们发现市场发生了巨大变化,这是由能源成本增加引起的。世界各地的许多地方能源成本在大约12到14个月内增加了2倍以上,我们看到一些站点并非在美国,而是在美国以外,他们在权衡利弊时,与其追求最大性能,不如追求更少的性能,但更节能。这是一个巨大的变化,因为购买标准的优先级。
我们也看到了一些非常值得关注的新解决方案,以解决市场的问题。例如,如果你购买了一个峰值为5兆瓦的机器,并且仔细地随着时间的推移分析了你的工作负载,你可能会发现你从未达到过5兆瓦的峰值,你可能只在三兆瓦左右运行。那么你应该做的是不安装额外的两兆瓦,不支付电费等等,但仅安装的成本非常高,如果你有一两个作业可能峰值超过三兆瓦,那么这些作业可以运行的时间可能会长一些,因此你的周转时间会缩短一些,但总体而言,如果仔细分析你的数据中心,就可以节省大量的安装成本和运行成本。
(HPC、AI、量子计算和云计算)
让我们谈谈HPC领域正在发生的重大变化,一个不变的事实是,HPC中唯一不变的就是变化,我们现在看到的是多个发展,显著改变了整个HPC格局。我们看到机器学习、深度学习和生成式AI等应用是近期的颠覆者,引起了广泛关注,潜力巨大,但其在科学和工程界的最终增值效果存在许多不确定性,而这正是未来HPC的基础。
我们看到边缘计算带来了计算的机会,特别是支持实时决策的概念,即数据和分析需要在短时间内完成,以便做出快速的分析决策,适用于各种应用。我们看到云服务商及其与HPC相关的影响,因为它们不仅在解决对访问HPC特定虚拟机实例感兴趣的广泛用户群方面发挥作用,还在考虑裸金属提供和其它云服务商可以介入整个HPC环境的方式。我们看到最终用户在权衡本地和云端、私有和混合云方面感到困惑,他们要选择哪种方案,对于他们特定的工作负载来说,什么是最经济、性能最佳的解决方案?我们看到暗HPC即将来临,一些组织正在组装自己的个人计算系统,这些系统最终不会出现在传统的HPC收入流中,或者像Facebook、特斯拉、OpenAI和微软这样的组织,他们正在考虑为自己的内部目的构建HPC,这些目的并不需要我们过去40年左右所熟悉的传统HPC系统供应商。我们当然也看到了量子计算在未来取得进展。这再次强调了在未来装备现代HPC中心的决策中需要考虑的另一个因素,但我们不能否认的是,传统的模拟仿真在所有这些中仍然是一个关键因素。
正如我们所说的,没有一种大小适合所有HPC系统,在反映这一多样化决策过程的同时,由于它们必须处理各种工作负载,这些决策变得更加复杂。这种工作负载的多样性要求架构的多样性,基本上,准确地描述工作负载至关重要,简单的基准测试已经不再足够。实际上,你可以辩论说,Top500榜单因为它是如此普遍,但在测量方面又如此有限,所以实际上可能对这个行业有害,因为如果你优化Top500,很有可能最终你得到的系统并不适合很好地处理一些你最重要的应用程序。
幸运的是,我们有技术方案可以应对这种不断演变的环境,有一些在向更灵活的异构设计转变的本地趋势,多个硬件分区的例子,比如明年在德国的Euro HPC站点中的Jupiter系统,我们看到了更多基于云的方案,正如我之前提到的更多的镜像类型、裸金属方案、CSP HPC即服务,这是我们看到的Microsoft和UK Met支持的一种本地替代方案,有一个由Microsoft监控系统的UK Met系统,我们看到了实验性的新型硬件访问,容器的使用,所有这些都真正允许最终用户调整最优硬件和软件解决方案,以满足他们最重要的工作负载,我们看到了一系列针对底层计算的方案,比如处理器、x86、ARM、RISC-V等不同类型的超级芯片,还有Nvidia Grace Hopper、AMD MI300等一系列加速器,这些都来自主要厂商如Nvidia和AMD,但也有很多AI专门的初创企业,试图调整、完善和定制AI芯片来满足特定的工作负载。
高性能计算(HPC)用例特性 / 用例 | 建模/仿真 | 大数据/数据科学 | 人工智能:大型语言模型 | 基于云的HPC |
数据格式 | 64位浮点数格式 | 64位浮点数或整数数据格式 | 低精度、混合精度或AI专用精度格式 | 格式多样 |
一般代码特性 | 并行和串行代码的混合 | 主要为适合集群架构的并行代码 | 分布式并行代码,紧密耦合的计算引擎 | 适合小型串行或大型任务并行代码,松散集群系统 |
处理器和加速器配置 | 高核数CPU,基于GPU的支持/增强CPU计算 | 高GPU数量,CPU管理数据流 | 强调GPU或相关AI专用加速器,强GPU-GPU交互 | 灵活的节点配置,包括CPU/GPU/加速器,支持虚拟和裸金属方案 |
数据存储 | 一致的、统一的存储格式,通常具有大文件大小和一致的存储访问模式 | 多种数据存储格式:文本、半结构化数据、结构化数据、二进制数据,随机数据访问模式 | 大量小型只读文件,训练期间多次重读,高数据重用率 | 支持多实例的不同存储配置,可以地理分布 |
作业特性 | 小数据输入,计算密集型,大数据输出 | 大数据输入,高速数据处理,小数据输出 | 显著的总浮点运算数,大数据输入,矩阵运算密集型 | 广泛的作业规格可通过虚拟和裸金属方案解决 |
典型软件 | C++,Fortran,MPI | Python、Java、R、Scala、MATLAB | BERT、GPT、Megatron-Turing | Docker、Fargate、Kubernetes |
数据特性 | 程序准确性依赖于经验验证/确认过程 | 可验证数据,具有强统计基础 | 依赖现有训练数据的可用性/有效性 | 数据的物理位置影响数据大小、访问、性能和成本 |
这张图只是对不同工作负载需要不同解决方案的情况进行了简单概述。对我来说,一些值得关注的事情是,模拟仿真中的机器数据格式,主要是64位浮点大数据、64位浮点或整数、大型语言模型、低混合或AI特定精度格式,有时可能是两位精度、四位精度等,基于云的HPC则是一切皆有可能,在虚拟环境中,所以可以看到有的工作负载类型真的可以影响到你所考虑的数据格式等基本内容。
如果我们看看远离经典世界发生的事情,我们看看量子计算领域正在发生的事情,这是未来很多HPC用户面临的另一个决策点,具体而言,他们主要关注的是,如何加速他们现有的性能能力,这对使用经典硬件来说并不容易,因为复杂性,由于物理极限,如摩尔定律以及功耗和一般困难,在获得符合工作负载要求的经典系统方面。量子是人们正在关注的东西,他们渴望探索量子能够为他们带来的新算法和新性能优势。
我们看到了大量对与HPC相关的大型语言模型活动的浓厚兴趣。这是一份我们从多个HPC中心收集的、正在研究大型语言模型以应用于科学和工程领域的列表。我们询问了这些组织,他们内部正在进行的具体活动是什么。如你所见,最热门的项目在于探索集成LLM所能带来的潜在性能增强范围。值得一提的是,接近60%的组织表示他们正在开展此类活动,但预计在未来12个月内,这一比例将下降至48%。换句话说,虽然探索活动可能会有所减少,但测试和评估大型语言模型在工作负载中集成的工作正呈现出显著的增长。我们发现了一些新兴活动,比如建立有限的LLM试点项目,甚至运行支持LLM的生产级工作负载。因此,组织已经开始探寻大型语言模型未来可能带来的优势和一些潜在的性能提升。
这真正体现了对最终用户来说,有着众多机会的集合。要驾驭这些机会的集合,意味着你可以以极具竞争力的价格获得一些高性能的系统。但如果你疏忽了,未能准确描述你的工作负载,并实施了不符合这些工作负载要求的硬件和软件组合,你可能会投入大量资金,而获得的性能却远不如一个更为优化、性能更高的高效解决方案所能带来的。这确实值得深思。
存储和互连技术
Research Director
你可能会认出去年的这张幻灯片,讨论了当前HPC市场的复杂挑战,这不是父辈们的HPC。
当加入AI时会发生什么?这会给混乱和交通拥堵带来什么影响?它进一步增加了复杂性。当将新的LLMs、SLMs、多模态生成与传统的研究、工程和科学工作负载一起运行在这些机器上时,会出现什么情况。
我们将在本节中重点关注存储和互连。
首先是存储预测,我们预计在2023年到2028年的五年预测期间,存储的年复合增长率(CAGR)将达到9.3%,从2023年的略高于60亿美元增长到2028年的近98亿美元。这是HPC领域增长最快的元素,在更广泛的HPC市场领域内,AI相关需求的影响反映在这一增长中。我们认为,随着需求的不断发展,未来的增长潜力将会更加可观。
我们来看看用户对解决方案的需求。历史上,用户一直非常注重速度和传输,尽管这仍然是硬性要求,但更高的需求正逐渐转向数据平台。目前,许多供应商都在讨论数据平台,并推出能够满足用户需求的解决方案。用户希望他们的数据能在他们指定的时间、地点,以他们期望的价格和所需的安全性来获取。跨维度访问数据的主要目标不仅仅是获取数据,更是能够利用数据进行处理、分析,并从建模、仿真或训练、推理等需求中推导出有价值的信息。
在文件系统领域,AI工作流程正在对传统的HPC文件系统进行压力测试。虽然许多现有的文件系统是为传统的模拟仿真工作负载开发的,特别是针对检查点重启类的项目,但AI工作负载提供了更广泛的数据文件访问模式,包括小块随机访问和大块顺序访问,以及不同的访问方法和频率,对所需数据类型的访问也更为多样。
这些变化导致了文件系统使用偏好的转变。我们正在进行一项研究,总结了当前文件系统的应用情况,并将在未来几个月内公布结果。尽管传统文件系统仍在继续使用,但已有一批新兴的文件系统涌现,这些系统由几家供应商推出,从一开始就专注于AI,并致力于解决上述问题。此外,我们还看到更广泛的商业模式在支持这些文件系统,从Hammerspace、VAST到现在的VDURA(之前为Panasas),它们都提供软件解决方案作为主要的商业模式。
在网络方面,网络的要求变得更加复杂,特别是在观察网络层次结构时。从数据中心到多数据中心级别,我们不再仅仅关注数据中心之间的连接,而是深入探究数据中心内部,那里有各式各样的节点及其内部元素。这里的连接主要是为了概念性说明,不一定完全反映架构的实际情况。从集群层面来看,存在独立的网络,比如计算网络和存储网络,或者也有机会看到连接一切的收敛网络,这些网络驱动着特定的需求和价格点。当我们进一步深入到机架和货架级别时,会发现又是一种不同层次的网络结构,它们对连接和性能有着各种需求,包括带宽和延迟。GPU、CPU和AI之间,以及IO与内存之间的连接,又构成了另一组独特的需求,针对这些需求,我们有多样化的网络选择。
进一步深入并放大观察,我们会看到芯片组系统正在芯片级别进行开发和设计。这些系统具有不同的连接方式,包括更加紧密和近距离的连接,以及各异的功率、延迟和性能需求。因此,当所有这些因素综合在一起时,它们共同构成了一个复杂的环境,对各个层级产生了深远的影响。以太网技术也在不断进步,这得益于其广泛的应用、多用途的特性以及多供应商提供的支持。同时,协议也在不断地发展和演变,更加适应不同应用场景和配置文件的需求。尽管这一切都在持续演变,并且预计将继续发展,但一个明显的趋势是供应商希望拥有更多的选择,无论是在可选技术上,还是在提供这些技术的供应商上。
在未来,该领域有着广阔的探索空间。我们确实期望速度和数据传输速率能继续保持当前的增速,甚至可能进一步加速。数据平台将持续演进并优化,以满足AI工作负载的需求,同时解决与位置相关的问题,无论是本地、云端还是边缘。在商业模式方面,我们也观察到越来越多的趋势是转向仅软件类型的解决方案。
此外,我们预见会有新的标准应运而生,以应对新的现实挑战,并为生态系统中的架构师和系统设计师提供更多选择。这些选择不仅涵盖更广泛的集群内部连接,还包括在芯片组级别的UCIe等潜在选项。
AI
Analyst
我们真的认为AI是高级计算的一个新类别,HPC用户正在以非常高的速度应用和整合这项技术。目前,LLMs受到了大多数关注,约90%的HPC用户最近接受调查时表示当前或计划使用某种方式的AI方法来处理其工作负载。AI方法正在向现有硬件(如先进处理器和加速器)、互连、数据访问、软件需求、新类型的数据管理队列工具、开发工具等方面引入新的需求,这些都是非常重要的。而且对专业知识的需求、研究以及对采购策略及其影响的全面了解,以及对AI工具的维护和故障排除也是非常重要的,因为它们被整合并开始在工作流程中进行工作。当然,还有一些法规考虑因素必须考虑和遵守,比如数据溯源、隐私和法律考虑因素等。
快速概括一下LLM和HPC交集需求,特别是在训练和使用这些大型模型方面,计算,特别是对于更大的训练会话,绝对的浮点运算数量有着相当大的需求。但是,对于像微调这样的较小训练,也存在相当大的计算需求。当然,与此相关的是数据集的大小和质量,数据集的大小是一个非常重要的元素,特别是在更大的训练和数据方面。数据集的大小、数据的准确性、标记质量等,在构建高效的模型方面非常重要。模型的大小也是一个考虑因素,通常参数越多,模型对其输入和上下文的理解就越微妙。此外,尤其是随着使用率的增加,集成是评估AI工具价值的一个重要组成部分,以及其生命周期的效率,从基础开发、构建到微调程序,通常是间歇性或持续进行的,以及将其整合到现有工作负载中。
简单来说,LLM需要独特的HPC能力。为了对训练和LLM的需求进行一点背景说明,这里展示了Flop消耗随时间的变化情况。在2010年前,Flop需求每21.3个月翻倍一次,而现在每5.6个月翻倍一次,这突显了满足这些需求需要创新的需求。
最近,我们对利用LLM的HPC用户进行了一项调查,他们认为LLM是当前和计划中的HPC活动的重要生产力增强器,特别是在工作负载管理和数据分析等领域。然而,由于硬件成本高,如GPU和其它加速器,以及工作负载特定的以AI为中心的加速器类型,这种应用可能会受到限制。目前,开源是访问LLM软件最受欢迎的方案,调查受访者认为,正如我之前提到的,LLM专业知识在支持这些模型的一般生命周期方面非常重要,从其基础开发、构建、微调程序(通常是间歇性或持续的)到整合到现有工作负载,最终支持后端的推理操作。
这里是我们的一些预测的简报,我们预计,浅蓝色线条代表传统的以HPC为中心的服务器,只是一个注释,当我们说AI集中或传统的以HPC为中心时,门槛是50%,所以如果一个系统的50%或更多或超过50%的工作负载是AI,那么它被视为AI集中的HPC服务器,在接下来的2023到2028年里,我们预计AI集中的服务器将大幅增长,正如我们在这里看到的,与传统的以HPC为中心的服务器相比,后者在这段时间里呈现出停滞甚至下降的趋势,我们预计AI集中的HPC服务器在收入方面将在2028或2029年超过这些传统的以HPC为中心的服务器,我们的预测会经常更新,但对我们来说,这是一个非常显著的改变和趋势,必须予以承认,正如你可以看到的,总数也预计会受到这种AI趋势的提振。
最近由Rio进行了一项LLM分析,该分析基本上比较了富岳机器(一种CPU传统HPC架构)和微软与OpenAI合作的开放AI系统(一种以AI训练为中心的GPU架构)的效果,比较了训练GPT 3.5所需的要求,在开放AI系统中需要9天的总时钟时间,而在富岳系统中需要320天,这真的突显了训练这些模型所需的独特硬件和架构需求,以及工作负载类型与最终运行它的系统之间的密切对齐。这是一个巨大的市场力量和一个创新领域,可以满足这种新工作负载类型的不断变化和增长的需求。
总之,AI是一个极具增长潜力的领域,我们视其为一种变革性技术,它将重塑HPC在高级计算中的定位。
总结
CEO
2023年对于整体HPC而言,增长相对平稳,而现场服务器市场则呈现下滑趋势。供应链问题持续存在,同时我们也面临着巨大的扩展接受度挑战。预计2024年将是一个强劲增长的一年,随着GPU、云计算、AI和大型语言模型等众多高增长领域的涌现,我们对这些不同领域中的新技术充满期待。
在存储方面,预计将有主要增长,这主要受到AI和大数据需求的推动。然而,对于供应链的担忧仍然存在,同时,对HPC中心的功耗需求以及人才问题的担忧也在不断增加。当然,HPC目前确实需要解决这些问题,但我想进一步深入讨论。
HPC专业知识的短缺继续成为一个严重问题。我们的HPC人员队伍正在缩小,而系统复杂性却大幅增加,这需要行业内更多的专家来应对。此外,还有一个值得关注的趋势,即大型云服务商正在积极聘请行业内的专家,这导致我们的人员队伍不仅缩小,而且正在老龄化。
这一趋势将促使未来的HPC用户在易用性、选择便利性和优化便利性等方面提出更高的要求。为了满足这些需求,HPC行业需要不断创新和改进。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)