查看原文
其他

Nvidia H100 GPU:供应与需求

匡萃彪 AI范儿 2023-08-22


这篇文章探讨了GPU的供需情况,特别是Nvidia H100s。



简介




截至2023年8月,人工智能可能会受到GPU供应的瓶颈制约。


“AI繁荣被低估的一个原因是GPU/TPU短缺。这种短缺导致产品推出和模型训练方面存在各种限制,但这些并不明显。相反,我们只看到Nvidia价格飙升。一旦供应满足需求,事情将加速发展。”


— Adam D’Angelo, Quora、Poe.com CEO、前Facebook CTO

这些是对GPU供应和需求以及人工智能最重要的首席执行官和公司


真的存在瓶颈吗?

伊隆·马斯克表示:“与药物相比,目前获得GPU要困难得多。”


Sam Altman表示,OpenAI受限于GPU,并且这延迟了他们的短期计划(微调、专用容量、32k上下文窗口、多模态)。


小规模和大规模云提供商的大规模H100集群容量已经用尽。

“目前每个人都希望Nvidia能够生产更多A/H100。” 

- 云服务提供商高管的消息

“我们GPU短缺得厉害,用户使用我们的产品越少越好。”


“我们希望他们使用得少一些,因为我们没有足够的GPU。”


OpenAI首席执行官Sam Altman

这是一个很好的宣传语来提醒世界用户有多么喜爱你的产品,但OpenAI确实需要更多的GPU。


对于Azure/Microsoft:


他们在GPU上对员工实行速率限制。他们必须像1970年代的大学主机一样排队等待。我认为OpenAI目前正在占用所有资源。


CoreWeave的交易是为了扩充他们的GPU基础设施。

- 匿名人士

简而言之:是的,H100 GPU供应短缺。我听说寻求数百或数千个H100的公司,Azure和GCP已经没有足够的容量,而AWS也接近用尽。


“容量用尽”是基于Nvidia给他们的分配。


关于瓶颈我们想知道什么?

  • 是什么导致了这一状况(需求量、供应量)

  • 它会持续多久

  • 什么会帮助解决这个问题


对 H100 显卡的需求




瓶颈原因 - 需求

  • 具体而言,人们想购买什么而无法购买?

  • 他们需要多少这些显卡?

  • 为什么不能使用其他型号的显卡?

  • 有哪些不同的产品名称?

  • 公司在哪里购买它们,价格是多少?


谁需要 H100 显卡?

“似乎每个人和他们的狗都在购买显卡” - 埃隆·马斯克

谁需要/拥有 1000+ 个 H100 或 A100 显卡?

  • 开展 LLM 训练的初创公司

    • OpenAI(通过 Azure)、Anthropic、Inflection(通过 Azure 和 CoreWeave)、Mistral AI

  • 云服务提供商(CSPs)

    • 三巨头:Azure、GCP、AWS

    • 其他公共云提供商:Oracle

    • 像 CoreWeave、Lambda 这样的较大私有云

  • 其他大型公司

    • 特斯拉


谁需要/拥有 100+ 个 H100 或 A100 显卡?

开展重要的开源模型微调的初创公司。


高端显卡主要用于什么?

对于使用 CoreWeave、Lambda 等私有云的公司,几乎全部用于 LLM 和一些扩散模型的工作。其中一部分是对现有模型的微调,但主要是一些正在从头开始构建新模型的新兴初创公司。它们签订了价值 1000 万到 5000 万美元的合同,用几百到几千个GPU完成。


对于只使用少量显卡的按需 H100 用户,仍然可能有超过 50% 的使用与 LLM 相关的需求。


现在,私有云开始看到来自本应选择默认大型云供应商的企业的需求,但目前所有供应商都无法满足。


大型 AI 实验室在推理和训练方面更受限制?

这取决于他们的产品推广情况!Sam Altman 表示,如果不得不选择,OpenAI 宁愿拥有更多的推理能力,但 OpenAI 在推理和训练方面仍受限制。


人们需要哪些型号的GPU?

主要是 H100 显卡。为什么?因为对于 LLM 来说,它是推理和训练速度最快的(对于推理而言,H100 通常也是性价比最高的)。


具体来说:8 个 GPU 的 HGX H100 SXM 服务器。


我的分析是,从性能角度来看,运行相同工作时使用 H100 比较便宜。如果你能找到使用过的 V100,它们也是很好的选择,但目前很难找到。


- 匿名用户

老实说,我不确定是否 [H100 是性价比最高的]。对于训练来说,A100 和 H100 的性价比看起来差不多。对于推理,我们发现 A10G 的性能已经足够,并且价格更便宜。


- 私有云高管

[对于 A10G 的性能足够] 这个说法曾经是对的。但是对于我们现在看到很多使用的 falcon 40b 和 llama2 70b 来说,不再是真的。我们需要 A100 来处理这些工作,确切地说,需要两个 A100 来处理。因此,推理中的互连速度很重要。


- 另一位私有云高管


LLM 初创公司最常见的需求是什么?

对于训练 LLM 来说:H100 和 3.2Tb/s 的 InfiniBand。


公司对 LLM 训练和推理有什么要求?

对于训练,他们倾向于选择 H100,对于推理,更多关注性价比。


对于 H100 和 A100 来说,仍然是性价比的问题,但通常更喜欢 H100,因为它们可以在更多的 GPU 上进行更好的扩展,并且提供更快的训练时间。对于初创公司来说,模型的速度、压缩时间以及上线、训练或改进模型的速度非常关键。

对于多节点训练,所有的请求都要求使用A100或H100与InfiniBand网络连接。我们只看到非A/H100的请求是用于推理,其中工作负载为单个GPU或单个节点。

- 私有云高管


LLM 训练需要什么要素?

  • 内存带宽

  • FLOPS(张量核心或等效矩阵乘法单元)

  • 缓存和缓存延迟

  • 其他功能,如 FP8 计算

  • 计算性能(与 cuda 核心数量相关)

  • 互连速度(例如 InfiniBand)

H100 显卡之所以优于 A100 显卡,部分原因是较低的缓存延迟和 FP8 计算能力。

H100 之所以受欢迎,是因为其效率最高,最多可以高达 3 倍,但成本只增加了 1.5 到 2 倍。考虑到整个系统的成本,H100 的性价比更高(如果考虑整个系统的性能,可能是 4-5 倍的性价比)。


— 深度学习研究员

训练和运营LLM还有哪些其他费用?

  • 显卡是最昂贵的单个组件,但还有其他成本。

  • 系统内存和 NVMe SSD 也很昂贵。

  • InfiniBand 网络费用高昂。

  • 运行集群的总成本中的 10-15% 可能用于电力和托管费用(电力、数据中心建筑费用、土地费用、人员费用) - 大致平均分配,电力可能占 5-8%,其他托管费用占 5-10%(土地、建筑、人员费用)。


主要成本在于网络和可靠的数据中心。由于网络限制和不可靠的硬件,AWS 很难使用。


— 深度学习研究员


GPUDirect 有什么作用?

GPUDirect 不是关键要求,但可能会有所帮助。


我不会说它是非常关键的,但它确实对性能有影响。这取决于瓶颈在哪里。对于某些体系结构/软件实现来说,瓶颈不一定是网络,但如果是 GPUDirect 可以提高 10-20% 的性能,这对于昂贵的训练运行来说是相当显著的。


话虽如此,GPUDirect RDMA 现在几乎无处不在,几乎可以认为是支持的标准。我认为对于非 InfiniBand 网络来说,支持可能没有那么强。但大多数为神经网络训练优化的 GPU 集群都采用 Infiniband 网络/卡。性能更重要的因素可能是 NVLink,因为它比 Infiniband 更少见,但只有在采用特定并行策略时才是关键。


因此,强大的网络和 GPUDirect 等功能使您可以懒散一些,可以保证原始软件的性能更好。但如果您关心成本或者已经拥有的基础设施,这不是严格要求。


— 深度学习研究员

LLM 公司为什么不使用 AMD 显卡?

理论上,公司可以购买大量 AMD 显卡,但让一切运转起来需要时间。即使只需 2 个月,这段开发时间可能意味着比竞争对手晚一步进入市场。所以 CUDA 目前是 NVIDIA 的保护壕垒。


- 私有云高管


我怀疑 2 个月的时间是一个数量级的差异,可能不是一个有意义的区别,可以参考 https://www.mosaicml.com/blog/amd-mi250


- 机器学习工程师


谁会冒险部署 10000 个 AMD 显卡或 10000 个随机初创公司的芯片?那几乎是一个 3 亿美元的投资。


- 私有云高管

MosaicML/MI250 - 有人询问过 AMD 的可用性吗?似乎 AMD 的产量不多,可能只满足了 Frontier 的需求,现在 TSMC 的 CoWoS 容量被 NVIDIA 占用了。MI250 可能是一个可行的选择,但目前无法获得。


- 退休半导体行业专业人士


H100 和 A100 的速度相比,H100 快多少?

对于 16 位推理,H100 大约快 3.5 倍,对于 16 位训练,H100 大约快 2.3 倍。

这里有更多阅读资料:

- https://blogs.nvidia.com/blog/2022/03/22/h100-transformer-engine/

- https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

- https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/


每个人都会想要从 A100 升级到 H100 吗?

大多数人会想购买 H100 并将其用于训练和推理,并将其 A100 主要用于推理。但是,由于成本、容量、使用新硬件并设置它的风险以及现有软件已经针对 A100 进行了优化,一些人可能会犹豫不决是否切换。

是的,几年后,A100 会变成现在的 V100。我目前不知道有谁在 V100 上进行 LLM 训练,因为性能受限。但它们仍然用于推理和其他工作负载。类似地,随着越来越多的 AI 公司将工作负载转移到 H100,A100 的定价也会下降,但总会有需求,尤其是用于推理。


- 私有云高管


我认为一些筹集了大笔资金的初创公司可能最终会倒闭,然后市场上会有很多 A100。


- (另一位)私有云高管


随着时间的推移,人们会搬迁,A100s将更多用于推理。


那 V100 呢?更高 VRAM(显存)的显卡对于大型模型更好,所以先进的团队更喜欢 H100 或 A100。

不使用 V100 的主要原因是缺少 brainfloat16(bfloat16,BF16)数据类型。如果没有这个数据类型,很难轻松地训练模型。OPT 和 BLOOM 的性能不佳主要归因于没有这种数据类型(OPT 是在 float16 下进行训练的,BLOOM 的原型主要在 fp16 下完成的,而这不能推广到在 bf16 下进行的训练运行)


- 深度学习研究员

H100、GH200、DGX GH200、HGX H100 和 DGX H100 之间有什么区别?

  • H100 = 1 个 H100 显卡

  • HGX H100 = Nvidia 服务器参考平台,OEM 厂商用它来构建 4-GPU 或 8-GPU 服务器。由 Supermicro 等第三方 OEM 厂商制造。

  • DGX H100 = 官方的 Nvidia H100 服务器,内装 8 个 H100 显卡。Nvidia 是唯一的供应商。

  • GH200 = 1 个 H100 显卡加上 1 个 Grace CPU。

  • DGX GH200 = 256 个 GH200,预计在 2023 年底推出。很可能只由 Nvidia 提供。


还有 MGX,针对大型云公司。


这些中哪个会最受欢迎?

大多数公司会购买 8-GPU HGX H100,而不是 DGX H100 或 4-GPU HGX H100 服务器。


这些显卡的价格是多少?

1 个 DGX H100(SXM),内含 8 个 H100 显卡,价格为 46 万美元,包含所需的支持。46 万美元中的 10 万美元是必需的支持费用。规格如下。初创公司可以获得 Inception 折扣,折扣约为 5 万美元,可用于最多 8 个 DGX H100 盒子,总计 64 个 H100 显卡。

1x HGX H100 (SXM)带有8个H100 GPU的价格在30万美元到38万美元之间,取决于规格(网络、存储、内存、CPU)以及销售商和支持水平的利润。在该价格范围中,包括支持的高端价格是36万美元到38万美元,如果规格与DGX H100完全相同的话,你可以预期这个价格。


1x HGX H100 (PCIe)带有8个H100 GPU的价格约为30万美元,包括支持,价格也取决于规格。


PCIe卡的市场价格约为3万美元到3.2万美元。


SXM卡实际上并不作为单卡销售,所以很难给出那里的定价。通常只作为4-GPU和8-GPU服务器销售。


大约70-80%的需求是SXM H100,其余是PCIe H100。由于前几个月只有PCIe卡可用,SXM H100的需求正在上升。考虑到大多数公司购买8-GPU HGX H100(SXM),每8个H100的总花费约为36万美元至38万美元,其中包括其他服务器组件。


DGX GH200(需要提醒的是,它包含256个GH200,每个GH200包含1个H100 GPU和1个Grace CPU)的成本可能在1500万美元到2500万美元之间,但这只是猜测,不是基于价格表的数据。


需要多少GPU?

  • GPT-4可能在10000到25000个A100上进行了训练。

  • Meta拥有约21000个A100,Tesla拥有约7000个A100,Stability AI拥有约5000个A100。

  • Falcon-40B是使用384个A100进行训练的。

  • Inflection为其GPT-3.5等效模型使用了3500个H100。


根据Elon的说法,GPT-5可能需要30000到50000个H100。Morgan Stanley在2023年2月表示,GPT-5将使用25000个GPU,但他们也表示该项目已于2023年2月开始训练,而Sam Altman在2023年5月表示,该项目尚未开始训练,因此MS的信息可能已过时。


GCP大约有25000个H100,Azure可能有10000到40000个H100。Oracle应该类似。Azure的大部分容量都提供给了OpenAI。


CoreWeave大约有35000到40000个H100,虽然还没有启用,但是根据预订数量估算的。


大多数初创公司订购多少个H100?

对于LLMs:微调需要几十个或几百个。对于训练,需要数千个。


公司可能需要多少个H100?

OpenAI可能需要5万个。Inflection需要2.2万个。Meta可能需要2.5万个(我听说实际上Meta可能需要10万个或更多)。大型云可能每个需要3万个(Azure、Google Cloud、AWS和Oracle)。Lambda、CoreWeave和其他私有云可能总共需要10万个。这只是大致估算,其中一些是对云和最终租用云的客户进行了重复计数。但这总共大约是43.2万个H100。每个大约3.5万美元的价格,总价值约为150亿美元。这还不包括中国公司如字节跳动(TikTok)、百度和腾讯等公司,他们需要大量H800。


还有一些金融公司正在部署数百个A100或H100,并将扩展到数千个A/H100,比如Jane Street、JP Morgan、Two Sigma、Citadel等公司。


与Nvidia的数据中心收入相比如何?

2023年2月至4月的数据中心收入为42.8亿美元。2023年5月至7月的数据中心收入可能达到80亿美元,假设该季度更高的指引主要是由于数据中心收入增长而不是其他领域。


因此,供应短缺可能需要一段时间才能解决。但同时,我的估算可能大大夸大了,许多公司现在不会立即购买H100,他们会随着时间推移进行升级。此外,Nvidia正在积极提升生产能力。

看起来可能会实现。考虑到每个人都在进行大规模的H100部署,400000个H100似乎并不难以达到。


-私有云高管


摘要:H100需求

在进入下一部分时,需要记住的主要问题是,大多数大型云服务提供商(Azure、AWS、GCP,以及Oracle)和私有云(CoreWeave、Lambda等)都需要更多的H100,而供应不足。大多数大型AI产品公司也需要更多的H100。


通常,他们需要具有SXM卡的8-GPU HGX H100服务器,这些服务器根据规格和支持价格约为30万美元至40万美元每个8-GPU服务器。可能有几十万个H100 GPU的超额需求(价值150亿美元以上)。在供应有限的情况下,Nvidia可以纯粹提高价格以找到清晰的价格,他们正在采取这样的做法。但重要的是要知道,最终H100的分配取决于Nvidia更喜欢把分配权给谁。



H100 GPU供应情况




是什么导致了瓶颈-供应


  • 生产一方面的瓶颈在哪里?

  • 哪些组件?

  • 谁生产它们?



谁制造H100?

TSMC(台积电)。


Nvidia能否在H100生产中使用其他芯片制造厂?

实际上并不行,至少目前还不行。他们过去曾与三星合作。但在H100和其他5nm GPU上,他们只使用TSMC。暗示是三星目前无法满足他们对尖端GPU的需求。他们可能会在未来与英特尔合作,并再次与三星合作开发尖端产品,但在短期内这些合作不会帮助H100供应危机。


不同的TSMC节点之间有什么关系?

TSMC 5nm系列:


  • N5

    • 4N可以作为N5的增强版本或低于N5P

    • N5P

      • 4N可以作为N5P的增强版本或低于N5的增强版本

  • N4

  • N4P


H100是在哪个TSMC节点上制造的?

TSMC 4N。这是为Nvidia定制的特殊节点,它位于5nm系列中,虽然不是真正的4nm,但是比5nm增强了一些。


还有谁在使用这个节点?

之前是苹果,但他们主要转向了N3,并保留了大部分N3的产能。高通和AMD是其他主要的N5家族客户。


A100使用哪个TSMC节点?

N7


正常情况下提前多长时间预订晶圆产能?

不确定,可能是12个月以上。

这适用于TSM及其大客户,他们一起进行规划,这就是为什么TSM/NVDA可能低估了他们的需求。


-匿名


生产需要多长时间(生产、封装、测试)?

从开始生产一个H100到该H100准备好出售给客户大约需要6个月(据一次交谈估算,希望能得到确认)。


瓶颈在哪里?

晶圆启动不是TSMC的瓶颈。前面提到过,CoWoS(三维堆叠)封装是TSMC的瓶颈。


-退休的半导体行业专业人士


H100内存

什么影响了GPU的内存带宽?

内存类型、内存总线宽度和内存时钟速度。

主要是HBM(High Bandwidth Memory)。生产它是一场噩梦。供应也主要受限于HBM的生产困难。一旦有了HBM,设计就会自然而然地跟随。


-深度学习研究员

H100使用什么内存?

在H100 SXM上,使用的是HBM3.28,在H100 PCIe上,实际上是HBM2e.29。


谁制造H100上的内存?

总线宽度和时钟速度是由Nvidia设计作为GPU架构的一部分。


对于HBM3内存本身,我认为Nvidia主要使用SK Hynix。不确定Nvidia是否在H100上使用来自三星的内存,我认为H100上没有使用来自Micron的内存。


在HBM3方面,SK Hynix生产最多,然后是三星,然后是Micron。似乎SK Hynix已经提高了产能,但Nvidia仍希望他们能够生产更多,而三星和Micron尚未成功提高产能。


制造GPU时还使用了什么其他材料?

请注意,其中一些材料比其他材料受到的限制更大。


  • 金属元素:这些是GPU生产中必不可少的。它们包括:

    • 铜:由于其高导电性,用于创建电气连接。

    • 钽:由于其高电荷存储能力,通常用于电容器。

    • 金:由于其耐腐蚀性,用于高质量镀层和连接器。

    • 铝:通常用于散热器,帮助散热。

    • 镍:通常用于连接器的涂层,因为它具有抗腐蚀性。

    • 锡:用于将组件焊接在一起。

    • 铟:用于导热界面材料,因为它具有良好的导热性。

    • 钯:用于某些类型的电容器和半导体器件。

  • 硅(金属loid):这是半导体器件制造的主要材料。

  • 稀土元素:它们在GPU的各个部分中使用,因为具有独特的性质。

  • 其他金属和化学物质:在生产的各个阶段使用这些材料,从创建硅晶圆到最终GPU组装。

  • 基板:这些是GPU组件安装的材料。

  • 封装材料:用于封装和保护GPU芯片。

  • 焊球和键合线:用于将GPU芯片连接到基板和其他组件。

  • 被动元件:包括电容器和电阻器,对GPU的运行至关重要。

  • 印刷电路板(PCB):这是安装GPU所有组件的板子。它为组件之间提供电气连接。

  • 热导材料:用于改善芯片和散热器之间的导热。

  • 半导体制造设备:包括光刻机、蚀刻设备、离子注入设备等。

  • 无尘室设施:这对于GPU的生产是必要的,以防止硅晶圆和其他组件的污染。

  • 测试和质量控制设备:用于确保GPU符合所需的性能和可靠性标准。

  • 软件和固件:这对于控制GPU的操作和与其他计算机系统进行接口很重要。

  • 包装和运输材料:这是将最终产品以良好状态交付给客户所必需的。

  • 软件工具:计算机辅助设计(CAD)和仿真的软件工具在设计GPU结构和测试功能时非常重要。

  • 能源消耗:由于使用了高精度机械,制造GPU芯片的生产过程需要大量电力。

  • 废物管理:GPU的生产会产生废物,必须妥善管理和处理,因为使用的许多材料可能对环境有害。

  • 测试容量:验证功能和性能的定制/特殊测试设备。

  • 芯片封装:将硅晶圆组装成可以在更大系统中使用的组件封装。



展望和预测





Nvidia的说法是什么?

Nvidia透露他们在今年下半年有更多的供应,但除此之外他们没有说更多的细节,也没有提供具体的数量。


“我们目前正在为本季度的供应努力,但我们还采购了大量供应,将用于下半年。”


“我们相信下半年的供应将大大超过上半年。”


- Nvidia首席财务官Colette Kress在2023年2月至4月的财报电话会议上


接下来会发生什么?

我认为我们目前可能存在一种自我强化的循环,其中稀缺性导致GPU容量被视为壕沟,进而导致更多的GPU囤积,加剧了稀缺性。


- 私有云执行官

何时会有H100的继任者?

根据历史的Nvidia架构发布时间,可能要等到2024年末(2024年中期至2025年初)才会宣布。


在那之前,H100将是Nvidia的顶级GPU。(GH200和DGX GH200不算在内,它们不是纯粹的GPU,它们都使用H100作为GPU)


会有更高VRAM的H100吗?

可能会有液冷的120GB H100。


短缺将何时结束?

我与一个团队交谈时,他们提到他们的产品基本上已经售罄,直到2023年年底。



采购H100 GPU




谁在销售H100s?

像戴尔、惠普、联想、超微和量子等OEM(原始设备制造商)都在销售H100s和HGX H100s。


而当你需要InfiniBand时,你需要直接与Mellanox在Nvidia合作。


因此,像CoreWeave和Lambda这样的GPU云服务商从OEM购买然后租给初创公司。


超大规模云服务商(Azure、GCP、AWS、Oracle)直接与Nvidia合作,但通常也与OEM合作。


甚至对于DGX,你仍将通过OEM进行购买。你可以与Nvidia交流,但你将通过OEM购买。你不会直接向Nvidia下订单。


交货期如何?

8-GPU HGX服务器的交货期很差,4-GPU HGX服务器的交货期还不错。每个人都想要8-GPU服务器!


如果一个初创公司今天下订单,何时能获得SSH访问权限?

这将是一个分批部署。假设是一个5000个GPU的订单。他们可能在4-5个月内获得2000个或4000个,然后在总共6个月左右获得剩余的GPU。


初创公司是从OEM和经销商那里购买的吗?

不完全是。初创公司通常会去像Oracle这样的大云服务商租用服务器,或者去Lambda和CoreWeave这样的私有云服务商,或者去与OEM和数据中心合作的供应商,比如FluidStack。


初创公司何时建立自己的数据中心,何时进行托管?

建立数据中心时,需要考虑的因素有建设数据中心的时间、是否有硬件方面的人员和经验,以及资本支出。

租用和托管服务器要简单得多。如果你想要建立自己的数据中心,你必须在你的位置铺设一条黑暗光纤线连接到互联网,每公里花费1万美元。大部分的基础设施在互联网泡沫时期已经建成和支付了。现在你可以简单地租用,而且非常便宜。


- 私有云执行官


从租赁到自有的范围是:按需云(纯租赁使用云服务)、保留云、托管(购买服务器,与供应商合作托管和管理服务器)、自助托管(购买和自行托管服务器)。


需要大量H100数量的初创公司通常会选择保留云或托管。


大云服务商的情况如何?

人们普遍认为Oracle的基础设施不如前三个云服务商可靠。作为交换,Oracle提供更多的技术支持和时间。

百分之百的,是一个不太满意的顾客来源,哈哈


- 私有云执行官

我认为[Oracle]的网络性能更好


- (另一位)私有云执行官


一般来说,初创公司会选择提供最佳支持、价格和容量的云服务商。


大型云服务商之间的主要区别是:


  • 网络性能(AWS和谷歌云在采用InfiniBand方面较慢,因为他们有自己的方法,尽管大多数寻求大规模A100/H100集群的初创公司都希望采用InfiniBand)

  • 可用性(Azure的H100s大部分都供应给OpenAI。GCP在获得H100方面遇到困难。)


Nvidia似乎倾向于将更多的资源分配给那些不会与他们直接竞争的云服务商。(这只是猜测,并非硬性事实。)所有三大云服务商都在研发机器学习芯片,但AWS和谷歌的Nvidia替代品已经面市并占据了原本可能流向Nvidia的市场份额。

纯属猜测,但我同意Nvidia可能出于这个原因喜欢Oracle


- 私有云执行官

一些大型云服务商的定价优于其他云服务商。正如一位私有云执行官所指出的那样,“在AWS / Azure上,A100的价格比GCP高得多。”

Oracle告诉我他们今年晚些时候会上线“数万个H100”。他们夸耀着他们与Nvidia的特殊关系。


但是,当涉及定价时,他们比其他人高得多。他们没有告诉我H100的价格,但是对于A100 80GB,他们给了我近4美元/小时的报价,几乎是GCP给出的同样硬件和同样承诺的报价的两倍。


- 匿名者


小一些的云服务商在定价方面更具竞争力,但在某些情况下,一些大型云服务商可能会通过不寻常的交易方式换取股权。


它可能是这样的:Oracle和Azure > GCP和AWS在与Nvidia的关系方面。但这只是猜测。


Oracle是首批推出A100的,他们与Nvidia合作托管了一个基于NVIDIA的集群。Nvidia也是Azure的客户。


哪个大型云服务商的网络性能最好?

Azure、CoreWeave和Lambda都使用InfiniBand。Oracle的网络性能不错,是3200 Gbps的以太网,比Infin


iBand大约慢15-20%,适用于高参数数量的LLM训练等场景。AWS和GCP的网络性能不如上述云服务商。


哪些大云服务商被企业使用?

根据约15个企业的私有数据,全部15个企业都使用AWS、GCP或Azure,没有使用Oracle。


大多数企业会继续使用现有的云服务商。拥有供应的绝望的初创公司将前往供应充足的地方。


关于DGX云,Nvidia与谁合作?

“NVIDIA正与领先的云服务提供商合作,托管DGX Cloud基础设施,首先是Oracle云基础设施(OCI)”- 你与Nvidia销售团队交流,但你通过现有的云服务提供商租用它(首先是与Oracle合作,然后是与Azure合作,然后是与谷歌云合作,不与AWS合作)。


Jensen在上次财报电话会议上说:“理想的混合比例是10%的Nvidia DGX Cloud和90%的云服务提供商的云”。


大云服务商何时推出H100预览?

CoreWeave最先推出。Nvidia给予他们更早的供应,可能是为了加强大型云服务商之间的竞争(而且Nvidia是投资者)。


Azure在3月13日宣布H100可以进行预览。


Oracle在3月21日宣布H100有限供应。


Lambda Labs在3月21日宣布H100将于4月初添加。


AWS在3月21日宣布H100将在几周后提供预览。


Google Cloud在5月10日宣布H100开始私人预览。


哪些公司使用哪些云服务商?

  • OpenAI:Azure。

  • Inflection:Azure和CoreWeave。

  • Anthropic:AWS和Google Cloud。

  • Cohere:AWS。

  • Hugging Face:AWS。

  • Stability AI:CoreWeave和AWS。

  • Character.ai:Google Cloud。

  • X.ai:Oracle。

  • Nvidia:Azure。


公司或云服务提供商如何获得更多GPU?

最终的瓶颈在于从Nvidia获得分配。


Nvidia分配是如何工作的?

他们有一个每个客户的分配。但是例如,Azure说“嘿,我们希望有10,000个H100全部由Inflection使用”,与Azure说“嘿,我们希望有10,000个H100用于Azure的云”是不同的-Nvidia关心最终客户是谁,因此如果Nvidia对最终客户感到兴奋,云服务商可能会为特定的最终客户获得额外的分配。Nvidia还希望尽可能了解那个最终客户。他们更喜欢品牌知名度好的客户或具有强大背景的初创公司。


是的,这似乎是事实。NVIDIA喜欢确保GPU资源供应给崭露头角的AI公司(其中许多公司与他们有密切关系)。请看Inflection——一个他们投资的AI公司——在CoreWeave上测试庞大的H100集群,他们也是投资者。


- 私有云执行官


如果一个云服务商给Nvidia带来一个最终客户,并表示他们准备购买xxxx个H100s,如果Nvidia对那个最终客户感到兴奋,他们通常会提供分配,这实际上会增加Nvidia分配给该云的总容量,因为它不会计入Nvidia最初分配给该云的容量。


这是一个独特的情况,因为Nvidia为私有云提供了大量分配:CoreWeave的H100s比GCP的更多。


Nvidia不愿意向那些试图直接与他们竞争的公司提供大量分配(AWS Inferentia和Tranium,Google TPUs,Azure Project Athena)。


但最终,如果你在Nvidia面前提出购买订单和付款,并承诺更大的交易和更多的预付款,并显示出你的风险承受能力较低,那么你将获得比其他人更多的分配。


总结




目前,我们的限制在于GPU。尽管Sam Altman表示我们可能已经到了“巨型模型即将结束的时代”,但实际上,情况既有泡沫的一面,也有非泡沫的一面,这取决于你看的角度。一些公司,比如OpenAI,拥有像ChatGPT这样深受市场欢迎的产品,但却无法获得足够的GPU。其他公司则购买或预留GPU容量,以便将来可以访问,或者用于训练不太可能获得市场认可的较大的AI模型。


Nvidia目前是绿色GPU王者。


追踪GPU供需的旅程

具有最强大市场适应性的LLM产品是ChatGPT。以下是ChatGPT对GPU需求的影响故事:


  • 用户喜欢ChatGPT,它可能每年产生5亿美元以上的循环收入。

  • ChatGPT运行在GPT-4和GPT-3.5的API上。

  • GPT-4和GPT-3.5的API需要大量GPU来运行,而OpenAI希望为ChatGPT和其API推出更多功能,但由于没有足够的GPU,他们无法实现这一目标。

  • 他们通过Microsoft/Azure购买大量Nvidia GPU,特别是他们最需要的Nvidia H100 GPU。

  • 为了生产H100 SXM GPU,Nvidia使用TSMC进行制造,并使用TSMC的CoWoS封装技术以及主要来自SK Hynix的HBM3。


OpenAI并不是唯一需要GPU的公司(但他们是最需要GPU的市场适应性最强的公司)。其他公司也希望训练大型AI模型。其中一些用例是合理的,但有些更多是受炒作影响的,不太可能获得市场认可。这推动了需求增加。此外,一些公司担心将来无法获得GPU,所以即使他们现在不需要,他们也在现在下订单。所以这里有一些“对供应短缺的预期造成了更多的供应短缺”的情况。


GPU需求的另一个主要贡献者来自希望创建新的LLM的公司。以下是与公司希望构建新的LLM相关的GPU需求故事:


  • 公司高管或创始人知道在AI领域有很大的机会。也许他们是希望在自己的数据上训练LLM并在外部使用或出售访问权限的企业,或者他们是希望构建LLM并出售访问权限的初创公司。

  • 他们知道他们需要GPU来训练大型模型。

  • 他们与一些大云服务商(Azure、谷歌云、AWS)的一些人交谈,试图获得许多H100s。

  • 他们发现无法从大云服务商获得大量分配,而且一些大云服务商的网络设置也不理想。因此,他们去与其他提供商如CoreWeave、Oracle、Lambda、FluidStack等交谈。如果他们想自己购买GPU并拥有它们,也许他们还会与OEM和Nvidia交谈。

  • 最终,他们获得了大量GPU。

  • 现在,他们试图获得市场认可。显然,这条路径并不是最好的 - 请记住,OpenAI通过更小的模型获得市场认可,然后将其扩展。但是,为了获得市场认可,你现在必须比OpenAI的模型在用户的用例上表现更好,因此一开始你将需要比OpenAI起初使用的更多GPU。


预计至少到2023年底,H100的供应短缺将影响到数百台或数千台的部署。到2023年底,情况会更加明朗,但目前看来,这种短缺可能会持续到2024年的一段时间。

GPU供需之旅




END



扫码加入读者群,

和作者及时互动,

和同行学习交流。


点这里👇关注我,记得标星哦~‍‍‍


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存