查看原文
其他

GPU IaaS:拉开云加速序幕

波太金 共识粉碎机 2024-01-18

详细的AI对软件各行业影响背景请见我们之前的文章《AI如何颠覆软件:你能为AI打工吗?》

我们正在每隔一周举办AI对软件行业的研讨会,详细的讨论会信息和报名链接请见文末,下一期我们将讨论安全行业。

持续了1年半的云优化周期终于进入终章。

关于GPU带来的云空间影响,我们也做了一个大胆的假设。
从今天往后看,衰退所带来的云优化影响将不会再成为主旋律。相比衰退对云客户带来的影响,在云优化周期中动辄优化20%公有云开支的影响,要远远大于衰退所带来的缩量

而从今天往后看,一段可能由AI带来的云用量加速开始拉开序幕,拉开序幕的是Oracle。

1 Oracle:第一个吃到饼的人


Oracle上周发布最新的财报。财报中的多数内容都平平无奇。

但有一条吸引了所有人的眼球:Oracle是目前唯一有H100算力可以提供售卖的云供应商。Cohere、Adept.AI等明星AI创业公司,以及包括特斯拉等希望保持AI云中立的巨头,都成为了Oracle的GPU IaaS客户。

而GPU所带来的收入对于OCI(Oracle的公有云)的影响是巨大的。


OCI是北美第四大公有云,但市场份额只有公有云市场的3%,2023年预计也只有不到60亿营收。

这也使得外租GPU给OCI带来的增量非常夸张。


以Oracle目前手中1-2万张GPU来计算,假设后续Oracle保持目前的下单频率,在明年底可能能做到15-20万张GPU。

如果届时GPU的价格出现回落,例如H100从目前的4美金/小时,回落到3美金/小时。

以15万GPU来计算,将放出来明年4季度10亿美金营收。

以20万GPU来计算,将放出来明年4季度13亿美金营收,则相当于当期OCI的70%增量,或者Oracle总收入的10%增量。


AI带来的收入,第一次在一个庞然大物身上贡献了10%增量。


2 GPU IaaS:短期的暴利生意


带来这一增长的是GPU IaaS这项生意。

毫无疑问,目前的GPU外租几乎是暴利的生意。从最初的2.5美金/小时,已经很快涨到了H100目前刊例价的4.5-5美金/小时。


与过去的IaaS计算商业模式不同,GPU IaaS有多项弊端:

  • GPU在用于AI训练时,基本无法大规模超卖。传统的IaaS服务,仰仗的做高毛利率关键是将虚拟机进行超卖。不同行业、不同场景、不同地区的客户在同一个时间的对同一份资源的用量不一样(假设一台服务器,游戏公司的使用高峰在晚上,企业服务公司的高峰在白天,那么理论上公有云厂商可以把两个客户安排到一个服务器上,相当于一台服务器卖了两份的钱)。只要有客户没有用满,剩余的算力就可以调度成为其他客户所需,这也使得不同波峰波谷、不同行业、不同场景的客户可以在公有云中像搭积木一样为公有云的调度系统产生互补。但当用于训练时,所有的客户基本上会用满,很难见到没有用满的实例。

  • GPU的折旧期限在高频使用下很难达到CPU的期限,如果说5-8年前很多云厂商的CPU平均估算时间是4年,但在目前的技术水准,以及CPU迭代变慢的大背景下,CPU已经能用到平均6年时间。而相比GPU,目前的使用场景能否用满4年都是问题。

  • GPU的折价过快,按目前英伟达的代际差别,每隔2年一代际,每代际提高一倍的性价比。而云厂商在定价的时候,上一代虚拟机在下一代出来时,通常会按照下一代算力的性价比进行降价,以保证上一代虚拟机还能正常出售


这也使得稳定定价的GPU IaaS毛利率可能也就是传统IaaS 40-50%的毛利率,而如果通过基本的折旧计算,可以推导出当GPU定价在3美金/小时时,摊销4年可以达到40%的毛利率。


但目前的GPU定价使得短期仍然非常暴利,如果不考虑长期客户普遍3-4块的定价,散客租用GPU在4.5美金/小时的情况下,可以做到60%的毛利率,这几乎远远高于过去纯IaaS计算所能达到的毛利率。而如果等到B100系列出来后,假如H100的算力不降价,则可以达到惊人的70%毛利率。


这也使得,哪怕对于一年150亿美金利润的庞然大物Oracle,GPU IaaS也能在一年后贡献可观的贡献。


3 微软:Oracle带来的启示


与Oracle不同,另一个庞然大物微软几乎所有的产品瓶颈都卡在了GPU算力上


打开Twitter 搜索OpenAI,可以看到无数的用户正在抱怨OpenAI变得越来越慢,或者质疑OpenAI缩小参数或者缩小Token Size。

而到了企业端客户,甚至部分SaaS企业也在抱怨,OpenAI相比Bard来说太慢了,不得已接入Bard作为Back-up。

这一切的祸根都在缺GPU卡上。


我们做一个简单的分析,以Office Copilot为例,算算微软到底有多缺卡

  • 我们假设Office Copilot按照成本定价,之前曾经爆出Office Copilot按照美金/月销售给测试客户,考虑到Preview产品一般比正式版会更加便宜,如果正式版定价10+美金,那Office Copilot可能的月成本可能在10美金上下

  • 假设明年有5000万Office客户增购Office Copilot,那意味着需要5000万*120美金/年=60亿美金的Runrate成本。假设其中40%要分给OpenAI作为技术服务费,实际的IDC成本在36亿,那相当于144亿的CAPEX。

  • 144亿CAPEX成本,假设IDC成本中GPU虚拟机占比60%,那相当于需要86亿的GPU虚拟机CAPEX。

  • 按照目前单虚拟机2.8万美金的成本来看,需要31万张GPU,大概率是31万张H100。


而作为同期第一批与Oracle一同拿到H100的微软,我们有理由相信微软手上只有小几万张H100,或者折算A100后不到10万张的H100当量芯片,哪怕年底因为订单下来有10-20万张H100,也很难支持Office Copilot快速铺量。

同样的问题也发生在NewBing,Microsoft Copilot和微软各种场景里面的Copilot上。

这也使得非常多的Azure客户正在抱怨,他们买不到Azure的GPU和Azure OpenAI Service。

或者如果能买到,Azure需要客户多购买其他的计算/存储或PaaS/SaaS来进行配货。


而如果参考Oracle带来的启示,一旦GPU到货,对于微软的影响将也是巨大的。

按照我们上面的推算,在3美金/小时的情况下,20万GPU可以为Oracle贡献13亿营收。

但相比Azure,Oracle能够完成的场景有限:

  • 客户主要在Oracle上完成训练任务。

  • 很难在Oracle上完成后续的推理任务,这是因为推理所需要的数据,以及相应的开发环境,更多仍在AWS和Azure上。

  • 这也使得Azure能够完成更多的AI场景,也使得超卖成为可能,同时还要承接大量购买Azure OpenAI Service客户所需要完成的Fintune和推理场景

参考Oracle的情况,在不算过于乐观的假设下,如果Azure在明年底能够有60万张GPU用于服务OpenAI和其他外部客户,那将能带来将近40亿的营收,相当于Azure体量的20%增量,或者相当于Azure IaaS业务的25-30%的增量。

对于体量明年已经达到700-800亿美金营收的Azure来说,AI将可能在明年底,就为Azure带来20%程度的收入加速,这也意味着Azure可能重回35-40%增速

大象的第N次腾飞即将到来。

4 公有云:TAM即将重新加速


我们所有的推算,都类似于先有鸡还是先有蛋的判断。因为除了Office Copilot这样一个4亿量级,又需要处理庞大Token数的确定性的场景外,几乎很难再找到一个相同体量的2B场景。

当然搜索作为20亿DAU的2C场景,是一个规模等同于Office的推理场景。


为了推算AI对公有云整体的拉动,我们只能在行业早期,通过GPU供给来做推算,并且寄望于在应用端需求起来后,应用端的Fine-tune/推理需求,能够消化供给端。


我们继续做简单的计算:

  • 假设在2024年,按照基本假设(200万张)和最乐观的GPU(400万张)出货量折中取300万张,继续按照3美金/小时定价,这意味着GPU IaaS能在年底为公有云贡献将近20%的增量。

  • 假设在2025年,云化的比例进一步提高到70%,GPU出货量稳定小幅增长(B100开始替换H100产能),那在年底能为公有云带来将近30%的增量。

  • 而如果到2026年,这一比例将几乎达到40%。而如果只看对公有云IaaS服务的影响,这一比例将几乎达到50%。这也意味着公有云市场的年CAGR将因此翻倍。

而公有云Fine-tune和推理收入最终也将成为2C和2B AI业务的成本。

  • 这对公有云40%增量的GPU算力,最后一半流向2C公司,一半流向2B公司。2B公司为了维持自己的业务需要,将保持50%的产品毛利。

  • 这意味着对于2B的SaaS公司来说,要多出和公有云增量一样的云增量。

  • 换言之整个IaaS+PaaS+SaaS的云市场,都可能在3年后,看到40%的收入增量。

展开历史的画卷,很多巧合。

就像一周前Lisa Su在AMD发布会上展示的,2027年将有望见到1500亿美金以上的AI芯片市场

这和我们刚刚的推算也巧合地对上了。


5 SaaS加速:只有先后的区别


如果整个云市场将因为AI扩大40%的规模,那对于大多数SaaS公司(有自身的壁垒,还没看到颠覆风险的公司)来说,吃到AI红利只是先后的区别。


在巨大的行业增量面前,SaaS行业发展的节奏将不再重要:

  • 第一批吃到红利的,是直接能参与到LLM流程的SaaS公司

  • 第二批吃到红利的,是能够成为AI公司供应商的SaaS公司,AI公司就如同其他的SaaS/互联网企业,也需要自己的技术栈供应商,也需要在成熟后采购各类流程SaaS/销售SaaS。

  • 第三批吃到红利的,是因为整个公有云生态都会不断循环,行业规模的扩大,最后造成了企业变多,功能点变多,数据量变大,销售变多。而就算AI提高了工作效率,但对于行业增量来说,我们仍将继续看到程序员、设计、办公人员的继续增长。

  • 同样在第三批的还会受益于传统客户的云开支增加,传统客户首先会因为公有云的配货要求加速上云。以后因为要在云上搭建推理流程,适应更完备的MLOps工具,也将把适用推理的数据继续搬上云。而同时得益于效率提升,省下来的人力费用将逐步转变为IT成本。

  • 而在这三批递进的演化中,我们一定会复现当年的APP大战、百团大战、Covid疫情带来的云消耗浪费,高效到无效再回到高效的过程中,产能的利用率将会下降,这也使得IT Spending的占比会继续提高。


我们很可能迎来一个公有云的新时代。

当然,前提是,鸡生蛋还是蛋生鸡的论战,最后能走向实际的应用生态。

本文仅是通过现有市场对GPU出货的的假设,来推理这会怎么传导到云市场。

而回顾一切,打开潘多拉魔盒的是Oracle。它让这个世界第一次正眼通过数学方法去估算,AI如何影响整个云行业。

我们来到了这个行业的分水岭——就先叫他Oracle时刻




【讨论会】

我们将在近期举办第六次“AI颠覆软件讨论会”,邀请了行业里面最资深的从业者、创业者朋友。

第一期纪要请见《EP01:AI如何颠覆数据库讨论纪要》

第二期纪要请见《EP02:AI如何颠覆游戏讨论纪要》

第三期纪要请见《EP03:生成式广告讨论纪要》

第四期纪要请见《EP04:AI如何颠覆办公与CRM》

第五期纪要《EP05:AI时代对产品经理的新要求》正在整理。

第六期我们即将举办“AI如何颠覆安全软件”讨论会,时间是本周日(7.2)上午10点。第六期讨论会仍将以小范围展开,并且邀请了中美安全行业具有一线实战经验的老师讨论,希望所有报名的朋友仔细准备一个有深度思考的“问题”或者“观点”,我们会根据质量筛选报名参与者,请报名的同学务必慎重填写此选项

如果有兴趣,请点击阅读原文的腾讯会议报名链接。



【AI如何颠覆软件:你能为AI打工吗】


【C3.AI:AI时代的埃森哲】

继续滑动看下一个

GPU IaaS:拉开云加速序幕

波太金 共识粉碎机
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存