又有砍单?
事件:今天光模块板块出现调整,主要源于周末市场讨论GB200和GB300出货节奏问题,并且引发误读认为光模块用量会变少;同时还有周末Deepseek的讨论,市场仍出现像Deepseekv2出来时候今年5月份的类似错杀现象。
1、GB结构调整早有预期,高速1.6T将会在GB300应用。供应链信息看,由于GB300出货有望提前至25年5月份,同时GB200短期内仍有一定良率问题需要解决,因此部分北美客户可能将对GB200的部分需求转移至GB300,同时提升一定的自研AI Asic的比例。目前看,GB300搭配CX8网卡,同时IB Quantum X800 1.6T交换机也有望明年上半年推出,GB300将开始大批量启用1.6T。B200单卡接入带宽800G,对应1.6T端口比例为1:3,我们认为不会发生市场误传的光模块需求下降的变化。
2、DeepseekV3风波再起,北美云厂仍持续加大投入。国产模型Deepseek因为超低算力成本引发热议,市场有部分人担心算力需求下降。但参考市场上很多专业人员的评价分析,Deepseek对算力的极度压榨下去做较好效果,是对已摸索出来的路径做了大量改良架构、使用更低浮点数FP8而成。我们不认为这代表北美云厂会掘弃超大集群规模投入,全面转向小算力集群训练。参考微软CEO、谷歌等高层最近报道的一些谈话,他们更认为2025年应该要做出更多的举措去保持领先地位,持续投入是必不可少的。
3、行业需求旺盛,硅光产业链引领新一波交付。国内模块厂商在面临复杂的国际环境及海外厂商的竞争下,领先的硅光技术成为满足交付的杀手锏,我们从行业看到的需求急迫性不断上修,我们预计北美Google、AWS、NV、MSFT都在积极拥抱硅光。
今天光模块小作文汇总:
1、字节砍单rumor:传砍了5bn卡的订单转租赁方案,原因是对NV网络配置不满意,要自己组网,这个news大概是一个月前加州那边传出来的。市场担心会影响NV的Q4/Q1业绩,我认为 B - card ramp up会消化掉这个bad news。
2、B200/300到底是怎么安排的,B200 cut~50%,B300现在排产2M多,所以B300完全消化掉了B200的cut,同时B300A已经开始小批量试产,明年单卡部分也有约2-3M的量,虽然每周都看到B系列单卡有10-20%幅度的下修。
3、全年P&L就算你不看B300A这个系列,目前的order我们看到B200约3M,8B300 2M,H0.9M,约6M全年GPU出货,Blended ASP ~3w,能做180Bn,B300A保守按1M,Plus大约30 Bn,全年GPU出货也有210Bn。
4、关于Q1/Q2产能安排,看到Q1 qoq 58%+, Q2 qoq 40%,目前,NV订的cowos一点没砍,所以质疑Q2业绩出问题的不知道是怎么推算出来的。倒是Q3qoq增长会比较shy。
5.第一批B300还是用8high HBM3E因为库存,后面会有12 High版本的。
最主要的还是这个:
来源周末的一篇专家纪要,全文如下供参考
Q:关于GB200 NVL72的生产良率和出货节奏,市场上有传言称仍然存在一定问题并可能推迟交付。请问目前的情况如何?是否会影响出货?
A:GB200的NVL72目前并没有太大问题,样机部分还有小批量是完全可以满足出货的。对于后续的优化,是在交付给客户以后,会进行相关机房端的验证和业务加载测试。考虑到真实业务场景运行过程中的实际表现,预计肯定还会有一些类似于散热方面的问题,但是这部分会在机房去做相关优化,比如通过液冷管路和CPU业务上的调节去做相关测试。对于NVL72本身,目前并没有特别大的异常,在研发端比如A1板卡端或GB200的super chip上面可能出现了一些测试上面的问题,但是目前看还好,并不会影响整体的交付。
Q:现在GB200 NVL72的生产良率大概是什么水平?之前调研的专家透露Grace Hopper版本的NVL72会比DGX版本的良率低,如何看待这一 观点?
A:从故障率来看,比如原来做H100或者A100时,在前期小批量生产过程中的整体不良率基本上可以达到50%甚至80%,这是正常的。因为在测试场景的过程中,测试程序、参数、工装等都需要做一些适配,而在前期小批量过程中,这些 参数和程序本身都不是很完善,测出来的不良率可以理解成会有一些偏差,所以其实现阶段统计的不良率可能在某种意义上并不是特别准确。到了数据中心,还会有其他的一些影响业务的问题发生,这是大家非常重视的。从目前来看,样机整体的良率情况是50%左右,工厂测试完成以后 会交付给客户,客户端在上架之前会进行压测, 也会去看其整体的不良率。整体来讲,工厂测试 完以后,如果有发现问题,会进行换卡或维修等相应的动作,更换新卡后再去重新跑整个测试流程,测试通过之后再包装出货给客户。50%的故障率目前看还好,但是后续随着测试程序的优化和完善,预计整体不良率应该可以降到10-20%左右。有一些卡其实本身硬件上可能没有问题, 在测试过程中模拟一些比如CUDA的使用场景, 运行相关的一些系统,在这种情况下,更多是从软件层面,比如驱动方面,产生的一些问题。这里面涉及到一些部件的厂商或是单独的部门,比 如GPU出现问题,需要GPU的部门去优化GPU的一些测试问题,优化新版本的过程大概需要1-2 周左右。在前期发现的问题,如果有识别出真正的root cause(根本原因),也会有相应的一些解决方案。如果客户着急交付的话,是可以先交付机器,然后在客户的机房或现场进行维修或修复的动作,视具体情况而定。
Q:GB200的出货节奏是否发生变化?客户订单有无调整?
A:整体出货量是有一些变动,部分客户把GB200的订单转移到了GB300上面。有几方面原因:第一,GB200本身价格很高,客户自己也能 够意识到成本确实比较高,因此如果能够削减GB200的需求量,可能在2025年特别是上半年还有Q3,可以降低一些成本;第二,GB200前期的舆论导向干扰了客户对该产品的信心,比如突然爆出板卡测试的问题等,但是其实这种担心是没有必要的;第三,GB300推出以后,客户可能对于GB300的期望会更高,在这种情况下客户削减了部分GB200的订单留给GB300。GB300有可能是在25年下半年会采购一部分,剩余底层的一些物料可能会在26年去交付。在GB300方面,今年10月份就已经跟英伟达和美国的CSP客户进行相关的沟通,确认未来的需求。由于每个客户对于产品定制的需求不同,现在还没有一个比较完整的产品方案,这需要客户端、英伟达和ODM厂商三方进一步的协调和沟通。但是GB300的好处在于它很多的物料其实是基于GB200成熟的物料和供应商,这种情况下,选型相对来说会进行得比较快。GB200相当于是从无到有,前期耗费了很多资源和研发测试的人力。当然GB300可能也会遇到类似的问题,因为它整体的算力增加了,增加了HBM的高带宽内存,整体的能耗也增加了。现在整个机柜的散热设计中也需要去考虑能耗问题,如果要保持整体机柜的总功率不变的情况下,可能需要做一些节能和减排的动作,这样才 有可能保证比较稳定的电力供应。
就整体的量而言,GB200在24年大概6月份的时候,对于整体需求量的预测大概是接近6万柜。但是从10月份GB300推出以后,客户需求陆续发 生了一些变化,根据12月初拿到的最新的信息, 目前GB200的整体需求量下降至大概3.9-4万柜, 剩余的产能可能会转移到GB300上面。因为本身GB200的芯片是一样的,只是在它和HBM绑定在 一起形成一个super chip的时候会有一些区别。在这种情况下,GB300的量,特别是在2025年下半年,很有可能是大概2万柜左右的水平,预计Q3会有少量的发货,Q4会规模上量。这是因为GB300的整个准备期是相当充裕的,从今年的10 月份到明年的6月份,大概有8-9个月左右的时间,对于基于GB200的产品开发GB300来讲,时间上完全是有富余的,所以预计GB300未来的整体进度会比GB200相对顺利一些。但是也有一些新的因素出现,比如高带宽内存,网卡会从CX7 变成CX8增加其吞吐量,液冷可能还是延续GB200的形式(冷板全液冷)。另外,GPU会从GB200的版本变成GB300的插槽,这主要是由于目前GB200端到端的成本太高。客户购买了GB200后在有故障发生后需要进行维修,但是维修不只是更换GPU芯片,而是换GPU卡(superchip),一个super chip的价值量都是大几万美金,所以GB200售后运维的成本非常高。ODM厂商把GB200产品做出来卖给客户之后是带维保的,所以这一块的成本压力会给到ODM厂商,ODM厂商需要准备大量的superchip来支持未来的维修使用,然后最终的成本会转嫁给客户。所以其实NVL72的30万美金的报价中,运维成本预计能占到大概5-10%左右,这方面的服务成本相比普通的标准服务器要高很多。从ODM厂商的角度而言,板载式变成插槽式有利于ODM厂商更大的生产积极性,因为实现插槽以后,底层带socket插槽的主板是完全有能力自己生产的,不需要从英伟达或富士康去购 买super chip。在这种情况下,只需要买公版, 自己去做贴片SMT,然后再去买GB200的芯片插 装到GPU服务器里面,整体工艺会变得非常简单。ODM厂商能做的工作也比较多,参与的也会 比较深入,这样对于其整体利润率的提升也有很大的帮助。GB200的整体利润率对于ODM来说并没有太高的潜力,但变成插槽以后,预计利润率可能会提升5%。虽然对于英伟达而言,从原来卖整个super chip变成卖GPU芯片,价值量可能会降低,但是有利于整个行业的发展,有利于GPU服务器推广至各个行业、客户和ODM厂商。
Q:能否拆分一下GB200和GB300的各个客户需求情况分别是怎样的?
A:对于GB200而言,北美的四大云厂商, AWS的需求从11,000台降到了6,500台,谷歌从原来的9,000台降到了4,000台,微软从原来的20,000台降到了12,000台,Meta从原来的6,000台降到了3,000台。也就是说,四大云厂商对GB200的需求量大概在25,500台机柜。
另外,由于最近SMCI(可能指某特定供应商或制造商)的情况不是特别好,因为前期财务的问题,再加上美国的调查,所以可能存在一定的风险,它的一些订单可能会被戴尔和惠普吃掉。但从长远来看,SMCI在技术能力、市场拓展和资源方面都有比较大的优势,可以和戴尔、惠普竞争。SMCI未来走的路线可能还是以代理为主,当然未来也会去突破像主权AI的一些客户。对于中小型客户,SMCI也是比较擅长的。短期来看, SMCI是有一定的风险,因为其底层的供应商都是家族性质的企业,像电源和机壳的供应商基本上都是他的亲戚去经营的,所以财务方面出现了问题。
GB300基本上也是以CSP(云服务提供商)客户为主,当然还会有SMCI、戴尔、惠普这些厂商。
CSP客户这边大概17,000台机柜,这里面富士康大概是6,000台,广达大概4,600台,英伟达大概 4,000台,纬颖大概是接近2,500台左右。然后SMCI大概也有1,000台左右的需求,戴尔有500台,惠普大概500台,其他可能加起来大概接近1,000台。所以整体来看,2025年大概有2万台左右的GB300机柜。
目前对于GB300的预测相对来讲是比较乐观的, 因为2025年其实很大一部分算力,特别是GB系列,都被GB200占用了。在前期部署的时候,因为GB200是首先进场的,所以整个机房、数据中心里面的电力和制冷设备都会给GB200使用。在这种情况下,未来的机房在使用过程当中,是不是还会有GB300使用的空间、电力,可能要画一个问号。这可能要取决于各家客户对其机房的规划,如果规划的比较慢,GB300很可能生产出来了,但是机房的整体部署周期会比较长。正常来讲,部署这种大型的机柜大概需要用到1个月左右,如果是因为电力或空间的问题,可能需要延迟3-4个月左右的时间。所以明年如果8-9月份开 始上量的话,如果有一定的延迟,是会有一部分订单转到2026年。目前乐观情况下是在2025 年全部交付 ,同时各家扩产的积极性也比较高,包括富士康 、广达、联想、英伟达等,对于产能的扩张都有 提前去准备和规划,这是比较积极的一面。
Q:GB200和GB300在部署条件上有没有什么差异?
A:整体条件差不多,因为单机柜的功率没有什么太大变化,只是算力上面可能会有一些增加。有一些机房数据中心部署了GB200,如果有预留空位给到GB300可以,但如果没有预留空位,那GB300的部署就需要延迟,因为海外机房的建设周期都特别长,有的可能长达两年,需要提前去规划数据中心包括电力、网络、基础设施等的建设。前期的规划基本都是提前一年去做安排,美国不同的地区对于电力方面也有不同的要求。
Q:刚才提到的2万台是否包含B300?B300的需求量预计如何?
A:没有包括B300,B300还在跟客户进行对接,还没有确定是以何种形式部署,所以现在还不太确定B300的量。现在客户急需的还是算力比较大的机柜形式的产品。
Q:据说由于NVL72的生产问题,GB200会分配更多给到HGX(8卡)的形式,有没有观察到这种情况发生?
A:GB200集成了72个GPU带和18个GPU tray,其算力和性价比均优于HGX的8卡形式, 所以HGX形式的产品不是客户的优选项。目前来看,HGX的产品,客户更倾向于H200,现在除了GB以外最高端的就是H200。H200其实很早就出来了,但是由于HBM的产能问题,才导致H200整体上量的速度非常慢,一直到今年的下半年H200大规模上量。所以不太可能再出一个8卡的产品来和H200竞争,这样相当于产品策略有问题。正常来讲,英伟达是不允许同样一款产品去打自己的另一款产品。8卡的GB200未来替代H200的可能性是有的,但是它不如H200性价比高。因为H200可以风冷也可以液冷,但GB200对于部署场景要求非常苛刻,必须要有液冷的机房。对于训练场景而言,大部分都是具备液冷环境的,但是如果未来部署推理场景的话,大部分都是属于风冷的,像学校、医院等地不太可能去 配备一个液冷机房。未来整体趋势预计还是会向推理的方向去走,随着推理的比例越来越高, GB200只能适用于大概10-20%左右的应用场景,大模型参数量要求比较高同时又具备液冷的机房,剩下的80%左右的应用场景更适合H200部署。英伟达可能还需要去思考未来的产品替代策略。
Q:如何预期明年H200的出货量?
A:预计明年H200的整体出货量还是会保持比较大的高峰,因为其应用场景和GB200/300完全不同。在这种情况下,H200一定会慢慢去替代H100。听说现在有很多地方H100陆陆续续要停了,可能也是由于英伟达希望客户向H200迁移, 因为H200相当于H100的高端版,盈利能力很好。对于2025年H200的整体预期,预计大概在250万颗芯片左右。
Q:能分拆一下吗?
A:基本上是在Q2和Q3达到高峰,Q4由于GB200和GB300的大批量发货,Q3以后H200的出货量会陆续下滑。前期大家都用H200去做训练,在未来GB200和GB300出货之后还需要部署和测试验证,如果Q1去部署,实际使用基本上也到了Q2。对于这种复杂的GPU机柜,部署周期相对会长一些。
Q:GB200中NVL72和NVL36的比例如何?
A:今年6月份的时候统计过一版大概是1:1。从目前的下单情况来看,如果按照2025年全年来看的话,还是以NVL72为主,NVL36机柜的占比可能大概在20-30%左右。NVL36的性价比不如NVL72。首先,在成本分摊上,如果将 NVSwitch、manifold、电源等成本按算力去分摊的话,NVL36的单位算力成本会比NVL72高很多,因为他们用到的NVSwitch的数量是一样的,都是用到了9个NVSwitch,只有算力减少了,但是其他部分没有对半减少,可能只降了大概215-35左右。此外,在机房部署时,面积也是寸土寸金,单位面积内安装更多台设备时,选择集成度更高、单位算力成本更低的NVL72更加划算。如果仅采购少量设备,可以考虑性价比稍低但总成本较低的配置,但大规模采购时还是以选 择性价比较高的配置为宜。
Q:对于市场预期上半年出货1万台NVL72怎么看?
A:差不多。预计明年上半年总出货量约为1.6 万台机柜,其中1万台为NVL72,其余6,000台为 NVL36。Q1还是以NVL72为主,几乎没有NVL36,预计Q1大概有4,500台左右的NVL72。
Q:哪些客户可以优先拿到NVL72?微软说Q1可以拿到10万颗Blackwell(即接近1,500台机柜的NVL72)。
A:前段时间调研时,Q1微软大概是2,000台机柜,AWS大概有500台,谷歌1,000台左右, Meta大概1,000台。
Q:关于刚才提到的GB300的设计更改,是否可以理解成从板载改成了OAM(Open Accelerator Module,开放式加速器模块),相当于加了一个socket?
A:是的。底板要重新进行设计,未来它的GPU芯片会放到socket里面,这样对于后端的组装、加工和测试会更方便。如果测试过程中出现问题,更换芯片相对容易且成本较低,芯片的价值量最多1-2万美金,而更换super chip(底板 +GPU芯片)的价值量就较高。此外,socket是公版设计,会开放给所有的厂商,各个厂商都可以去打版,各家的打版能力其实差不多,可能相对来讲富士康和英伟达的水平会高一点,因为他们SMT(表面贴装技术)做得比较多。
Q:有没有听说过PCB(印刷电路板)设计会从HDI(高密度互连)变成高多层板HLC(高多层电路板)的设计?
A:没有,这个比较细了,后续可以再关注一下。
Q:NVL72最新的ODM(原始设计制造商)报价是多少?
A:前期的样机和小批量还是按照大概300万美金左右去交付。不排除在明年下半年可能会有一波降价,因为25年下半年交付的量会在6月份之 前再去做一次招投标。预计前期降价幅度不会太大,主要还是看英伟达能不能把价格降下来。如果英伟达降价,下游降价的压力就会很小,大家也愿意去降价。前期做小批量和样机的过程当中,整体的生产效率不高,投入的成本相对偏高。大批量规模化生产时,生产良率和效率都有所提高,底层部件的采购量也变大,采购单价会降低,所以端到端的成本都有所下降,因此客户会希望得到更便宜的报价。正常来讲,基本上年中或下半年的时候会有一次降价,相当于二次招投标。
Q:下半年的降价会影响毛利率吗?
A:对毛利率的影响有限。底层供应商降价省出来的钱可能最后也在客户端反映出来,ODM厂商的利润率可能有小幅提高,但是不明显。除非客户端去压ODM降价,然后ODM去压供应商降价,或者推动自己工厂提高效率降低单位投入的工时比和人力进行成本优化。
Q:OEM(原始设备制造商)的报价情况如何?
A:OEM涉及到的客户群体和ODM不同,整体量没有ODM厂商大,所以成本相对会偏高,导致 OEM的利润率会更低。ODM可以做产品深度的定制和研发,可以进行选型,挑选更多的供应商比价、招投标去降成本,但是OEM能做的比较少,基本客户指定用哪个就要用哪个,可以理解成OEM赚取的只是一个加工费。
Q:GB200 NVL36和GB300的报价分别是多少?
A:GB200 NVL72报价约为294万至300万美元;NVL36报价约为160万至170万美元。GB300预估价格在400万至450万美元之间,单节点约20万美元,但目前这只是预估,因为样机还没出来,未来会根据样机报价给客户。
Q:H200明年二季度是否会降价?
A:H200作为明年低端的主流产品,是有机会降价的,但是预计降价空间比较小,取决于英伟达的策略。2025年如果HBM(高带宽内存)产能整体提升,有越来越多的厂商开始做HBM,在HBM的供应上形成竞争,预计HBM的价格会降下来,进而H200也有机会降价。但是未来如果H200没有特别多的竞争对手,例如AMD的MI300或者MI325没有对H200形成实质性的压力,预计就不会降价。如果降价的话,应该是由两方面驱动:一是英伟达自身的产品策略,二是与友商竞争去打压AMD。
Q:GB300新增插槽由谁供应?ASP(平均销售价格)情况如何?
A:目前主流供应商包括Aspeed和Lotes,这两家机会比较大。大部分物料都会选两家供应商,一家作为主供,一家作为二供。指定一家的风险较高,大规模上量后如果一家出现问题,下游的ODM厂商无法去做紧急切换,所以一定会给两家厂商去做。ASP情况目前还无法给出确切数字,因为具体价格会根据市场情况、客户需求以及生产成本等多种因素来确定。