查看原文
其他

AI算力租赁行业研究:时势造英雄,宜谋定而后动

(报告出品:浙商证券)

商业逻辑——为什么AI算力租赁具有商业价值

GPU多重参数影响大模型训练效果

单卡运算性能、显存和传输效率是影响GPU训练大模型效果的三个关键参数 。从算力供给侧来看,单卡每秒运算次数、显存、传输效率从三个维度共同影响大模型的训练效果。

从模型需求侧来看,模型参数规模、训练数据集规模、训练批次大小以及模型训练方式决定了模型训练所需的总计算次数、训 练和推理阶段所需的显存大小,从而进一步决定了大模型训练所需最少GPU数量以及模型训练时间。

英伟达A100-SXM和H100-SXM为目前训练大模型的首选GPU。英伟达GPU根据使用场景分为多种类别,其中以RTX4090等为代表的消费级显卡主要用于游戏场景,以Tesla T4等为代表的工 业级显卡主要用于图形处理和人工智能推理领域,而以V100、A100、H100等为代表的加速计算卡主要用于人工智能训练场景。英伟达2017年5月将Tensor Core引入V100,大幅提升GPU进行混合精度矩阵乘加运算的速度,可大幅缩短AI场景下大规模矩 阵计算的时间,为人工智能场景下的加速计算奠定了基础。随着模型参数的增加,对于GPU运算性能以及通信传输性能的逐步提升,目前搭载NVLink和IB网络的A100-SXM和H100- SXM成为大模型训练的首选GPU。

AI算力租赁业务应运而生

AI算力租赁业务聚焦于解决大模型训练的算力需求,连接多方资源。AI算力租赁业务产生的两个催化条件:1)可用于大模型训练的算力资源和大模型训练需求供需失衡,短期算力需求远高于算 力供给(尤其针对用于大模型训练的英伟达A100-SXM和H100-SXM两类GPU);2)时间对于大模型研发厂商而言是较为稀 缺的资源,即先行完成大模型研发的厂商有望获得更多的先发优势。AI算力租赁的商业本质为具有大模型训练需求的软件研发厂商向具有GPU资源的厂商租赁GPU算力,按月或按年支付租金, 市场上常见的租金计量方式包括:1)按整台服务器租赁(每台服务器含8张GPU),租金按照每台每月计量;2)按算力规模 租赁,租金按每P每年计量;3)按单张GPU租赁,租金按照每GPU每小时计量。以上三类计量方式可相互换算。

AI算力租赁潜在需求规模

地方政府是AI智算中心建设的主要规划与投资方。根据IDC圈,全国有超过30个城市正在建设或规划智算中心,其中一些已经投入运营或即将投入运营,总规划算力达到了数十 EFLOPS。若假设未来全国智算中心算力达到50EFLOPS(对应50000PFLOPS),对应AIDC建设规模空间为500-750亿元。据不完全统计,目前已经明确公开宣布规划或建设中的地方智算中心规模已超26000P(统一换算成FP16口径)。

对标GPT-3和GPT-4模型,算力需求非线性增长,受限于显存,单卡算力的升级不会减少模型训练所需GPU的数量。GPT-3模型训练使用了128台英伟达A100服务器(训练34天),对应640P算力,GPT-4模型训练使用了3125台英伟达A100 服务器(训练90-100天),对应15625P算力。从GPT-3至GPT-4模型参数规模增加约10倍,但用于训练的GPU数量增加了 近24倍(且不考虑模型训练时间的增长)。短期来看,我们考虑国内15家头部大模型厂商对标GPT-3模型的训练需求(百度、腾讯、阿里、字节、京东、美团、讯飞、网 易、360、商汤、云从、百川、智谱、minimax、深言),则需要1920台A100/A800服务器(考虑到A100和H100的单卡显存 容量相同,使用H100理论上也需要相同数量的服务器,但可以大幅缩短训练时间),对应15360张GPU。长期来看,我们考虑国内5家头部大模型厂商对标GPT-4模型的训练需求,则额外需要13705台A100/A800服务器,对应近11 万张GPU。

盈利模型——AI算力租赁业务的盈利能力

收入端

支持NVLink传输的A100算力资源主要集中在互联网大厂,但仍较为稀缺。从供给端来看,各大云厂商尚未推出基于H100/H800的云端GPU实例,目前的可租用资源以A100为主,但支持NVLink传输以 及单卡达到80GB显存的GPU算力资源,目前只有火山引擎能提供可供租用的资源。从价格来看,GPU的租金价格随着配置性能的提升呈现上升趋势(不考虑CPU、存储等其他参数的影响),其中单就A100算 力而言,最高配置约为最低配置价格的1.8倍。

成本端

AI算力租赁业务的运营成本主要包括设备折旧、数据中心日常运营、以及人员成本,其中设备折旧为非现金支出。设备折旧:设备折旧在AI算力租赁成本中占比最高,其中既包括 服务器也包括网络设备等,且设备折旧年限对毛利率影响较大。仅以服务器为例:以市场7月A800服务器成交价140万元 为例,若按3年摊销对应月折旧成本约为3.9万元,按5年 摊销对应月折旧成本约为2.3万元,参考市场8卡A800- 80GB-NVLink实例月租金14.6万元,对应成本占比分别 为27%和16%,对毛利率影响11pct。数据中心日常运营:主要包括数据中心运营所需的成本以及部分 情景下对于机房改造的成本。数据中心运营:能源功耗成本(水电等)、散热成本、房 屋租金成本等。数据中心改造成本(或有):英伟达DGX H100服务器系 统功耗约为10.2kW,而传统数据中心每个机架的功耗约 7kW,故而若采用H100/H800建设AI算力集群,还需对传 统数据中心机房进行改造。人员成本:参考奥飞数据2022年报,人工成本在IDC服务业务成 本中占比约3%,占IDC服务收入比例约2%。

相关标的——哪些上市公司在布局AI算力租赁

布局算力上市公司分类



报告全文



来源:浙商证券







文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年9月文章汇总


今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 宠物行业蓝皮书:2023宠物行业发展报告

  2. 报告解读:2023中国宠物行业市场发展及营销洞察报告

  3. 中国宠物产业未来趋势研究:以“生命周期”视角看宠物投资

  4. 宠物经济社媒营销趋势洞察

  5. 2023宠物消费网络营销洞察数据报告

  6. 宠物行业专题报告:宠物食品乘风起,国产替代正当时

  7. 全价猫主粮行业调研报告

  8. 2023全球生猪养殖行业报告


▼长按2秒识别二维码关注我们

《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

今日导读:点击下面链接可查阅

  1. 国常会重磅定调:大力发展!

  2. 刘伟:正确认识我国经济发展大势

  3. 市盈率背后的秘密

  4. 重磅突发!中央汇金进场“扫货”!富时中国A50直线拉升

  5. 1个数据你就明白,房价为啥救不起来?

  6. 为什么以色列非要夺取巴勒斯坦的土地,而不买个无人岛建国?


公众号 :就业与创业
点击下方可看
  1. 放过自己,才能脱胎换骨

  2. 急诊房“30元留宿事件”冲上热搜,炸出一群毫无责任感的“蛆虫”!

  3. 体制内的“樊胜美”是如何被家里亲戚一步步吃绝户的

  4. 许家印背后的大佬

  5. 对赌协议中股权回购纠纷的12大案例



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存