查看原文
其他

GPU云:成本优势剖析

常华Andy Andy730
2025-01-01

内容概要

纯GPU云公司激增现象:过去一年中,纯GPU云公司数量急剧增加,已有多家公司提出股权或债务提案。
动机:
  • 从软件角度看,与通用云相比,GPU云更容易实现,因为无需担心高级数据库服务、块存储、多租户安全保证等问题。
  • GPU云工作负载相对同质,需求较少的可选方案,且通常需要长期承诺,因此供应商数量增加。
  • CPU服务器与GPU服务器的TCO构成差异导致了新供应商增长。GPU的TCO主要由资本成本主导。
资本成本主导:
  • 资本是进入障碍,而不是物理基础设施。
  • GPU服务器的资本成本远高于托管成本,成为新供应商增加的主要原因之一。
托管成本:
  • 大型云服务商通过优化数据中心设计和运营降低托管成本,而大多数托管数据中心的PUE值通常较高。
  • GPU云设施的PUE值远高于大型云服务商,这增加了CPU服务器的托管成本,但在GPU服务器的整体方案中托管成本相对较低。
利润空间:
  • GPU云服务商的利润空间较大,一些云服务商以高价对用户进行剥削。



---【以下为正文】---

在过去的一年中,“纯GPU云”公司的数量急剧增加。这并非危言耸听。超过十几家不同公司的股权或债务提案已摆到我们的桌面上,甚至可能还有更多我们尚未接触到的。随着交易流量终于放缓,我们有必要更深入地审视这种经济现象。

首先要快速解决的一个问题是新一波云计算大规模涌入的动机。尽管面临着一系列独特的基础设施挑战,但从软件角度来看,与通用云相比,GPU云要容易得多。第三方纯GPU云无需担心高级数据库服务、块存储、多租户安全保证、各种第三方服务提供商的API,甚至在许多情况下,虚拟化都不再重要。


一个引人注目的例子是在AWS中,云开发工具几乎变得不再重要,当然,除了一些领先的模型之外。尽管AWS喜欢吹嘘他们的SageMaker平台是一个出色的工具,可以让客户在云中创建、训练和部署模型,但实际情况却是,“纸上谈兵”远不如实践。亚马逊在Titan项目中使用Nvidia的Nemo框架来替代Sagemaker,这是一个明显的例证,表明了云计算中“增值”软件的微不足道。虽然Nemo和Sagemaker并非完全相似,但这却清楚地表明了云服务商提供的“增值”软件的价值。

此外,尽管标准云在计算、存储、RAM和网络方面需要极其灵活和可交换的能力,但由于GPU云工作负载的相对同质性,所需可选方案要少得多。服务器通常需要长期承诺,而H100几乎适用于所有现代场景,包括LLM训练和高容量LLM/扩散推理。终端用户的基础设施选择主要取决于需要多少GPU。当然,需要确保拥有高性能网络,但对于大多数用户来说,相对于GPU,网络支出并不是一个重大问题,因为它们的成本微不足道。

对于除了最大的用户之外的所有用户来说,现有数据的位置在训练和推理过程中甚至都不那么重要,因为出口成本微不足道。数据可以转换和传输,而高性能存储对于云服务商来说并不难从Pure、Weka、Vast等处购买,因为与AI基础设施的成本相比,存储构成了非常小的部分。

即使我们不考虑GPU云在除了与Nvidia的密切合作关系外缺乏护城河的现实,新进入供应商急剧增加的真正驱动力是托管数据中心环境中CPU服务器与GPU服务器的TCO构成。CPU服务器的TCO受到更多重要因素的影响需要平衡,而由于Nvidia的高利润率,GPU的TCO主要由资本成本主导。

换句话说,资本是唯一真正的进入障碍,而不是物理基础设施,所以新进入者的数量如此之多并不令人意外。

在CPU服务器的情况下,托管成本和资本成本的数量级相当接近,其中托管成本为每月220美元,资本成本为每月301美元。然而,在GPU服务器的情况下,资本成本(每月7025美元)显著超过了托管成本(每月1871美元),这凸显了第三方云服务存在的核心原因。

像谷歌、亚马逊、微软这样的超大规模云服务商,通过不断优化数据中心的设计和运营,可以显著降低其托管成本。以PUE为例,这是一个衡量数据中心总能耗与计算设备实际使用能耗之间比例的指标。为了降低PUE值,数据中心需要在冷却和电力传输等方面下功夫。而谷歌、亚马逊和微软在这些方面的表现都非常出色,因此它们的PUE值接近理想状态1。

大多数托管数据中心的PUE值通常高于1.4,这意味着大约有40%的额外能耗用于冷却和电力传输。即使是最新型的GPU云设施,其PUE值也只能达到1.25左右,这仍然远高于那些因规模优势而能够更经济地构建数据中心的大型云服务商。对于CPU服务器而言,这种差异至关重要,因为托管数据中心增加的托管成本在TCO中占很大比例。然而,在GPU服务器的情况下,尽管托管成本较高,但在整体方案中并不占据主导地位,因为服务器资本成本才是构成TCO的主要因素,而托管成本则相对次要。

一个相对较差的数据中心运营商可以以13%的利率购买Nvidia HGX H100服务器,其全部成本每小时仅为1.525美元。更优秀的运营商可以通过多种优化策略进一步降低成本,但资本成本仍然是主要的控制点。相比之下,即使最优惠的GPU云交易每小时的成本也在每H100美元左右,我们甚至看到一些云服务商在每小时3美元以上的价格上对用户实施剥削。云服务商的利润是巨大的……

一个表现相对一般的数据中心运营商可以以13%的利率购买Nvidia HGX H100服务器,其每小时的全成本仅为1.525美元。而更出色的运营商则能够通过采用多种优化策略进一步压缩成本,但无论如何,资本成本始终是成本控制的核心。相较之下,即便是最优惠的GPU云服务交易,其每小时成本也大约相当于一个H100的价格,甚至有的云服务商还会以每小时3美元以上的高价对用户进行剥削。由此可见,云服务商的利润空间是极其巨大的……

当然,上述内容只是一个简化的框架,实际情况中,许多变量可能会发生变化,从而导致成本构成发生根本性的改变。我们注意到,CoreWeave甚至试图向人们推销一个为期8年的生命周期,但这种算法完全站不住脚,完全是一派胡言。

------
Source:DYLAN PATEL, DANIEL NISHBALL; GPU Cloud Economics Explained – The Hidden Truth

https://www.semianalysis.com/p/gpu-cloud-economics-explained-the


继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存