GB200不行了?
JMP:近期,有媒体报道了微软在2025年对GB200机架的有意义订单削减,并将部分需求转向GB300。在本报告中,我们概述了上下游产业链的观点。总体而言,这与我们之前的报告相呼应,即GB200下游的增长速度将慢于预期,但我们认为,Blackwell上游的出货量不太可能发生变化(2025年约为500万台)。这可能对鸿海和液冷供应商构成额外的负面影响。
报告全文&GB300产业链跟踪详见星球,以下专家解读交流纪要:
Q:之前市场传闻基于贵司的铜缆cartridge链接和组装问题,可能导致GB200再次延期或订单改变,您对此的行业观察和市场展望是什么?
A:供应商cartridge产量和产能处于快速提升中,10月之前产能有限,几乎没有大批量量产,而10月之后处于量产状态,当然这种量产规模和产能状况尚未达到英伟达预期,例如英伟达可能希望每个月满足2000~3000台NVL72所需要的cartridge需求,目前远远没有达到,但已经进入量产状态,至于您提到的问题,过去可能花了几个月时间和英伟达一起解决技术问题,这里指的是出货之后、机架安装过程中的面对的问题和优化,同时公司自己过去几个月也花了很多时间和精力取改善产线,以及优化产线、模具等,以保证最终产品性能,您说的问题可能更多指出货后、在客户侧发生的问题,但这个问题个人认为目前应该基本解决,已经进入量产阶段。
Q:展望下之前产能遇到的瓶颈是什么?
A:只谈线缆背板部分,NVL72将线缆背板分成4个部分,每个部分称为1个cartidge,是一个铁壳,里面包裹很多电缆,而电缆包括两边的连接器和中间的线缆,组装成1条线,然后多条线组装至cartridge的壳里,再把链接器露出来,这是最终的成品。核心的部件是三个部分,一是连接器,主要由连接器工厂完成,二是中间的线缆,由线缆供应商完成,两个工厂做完后运至组装工厂来组装生产,组装业务指的是将连接器,如cartidae里可能有1300对差分信号,需要将这些差分信号和连接器焊接起来,最后组装成8个pair,最后多条线缆组装成cartridge,这是组装产线的步骤。对于连接器、线缆、组装这3个部分,制约产能的还是组装,当然也能听闻称线材也存在产能不足,但可通过和外面一些供应商合作来解决产能问题,而连接器部分,本身也用于其他场景,相对而言更容易制造,很多工作都是自动化产线完成,且其只是做成一个零件而已,运至最终的组装产线工厂,因此,真正的产能瓶颈是最终组装产线部分,包括自动化产线,及组装完后的测试。而自动化产线,即焊接组装的这部分产线应该是最大的瓶颈。
Q:展望下目前自动化率大概达到百分之多少?
A:连接器基本上都是自动化产线完成。线材是过去标准的、常规的线材组装生产线。这两个部分运到组装产线后,第一步焊接:每一对差分信号线与线缆焊接,包括线材的裁线、拨线和焊接,整个过程都是自动化产线完成。多条线再组装成一个cartridge,这些过程是手工完成。从这个角度,主要核心工作都是自动化产线完成,但后面将目前来看不太可能用自动化产线完成,都是手工完成。至于焊接过程,连接器与线之间的焊接,其拼成最终产品,包括线材的裁线、拨线和焊接,很多公司产量不大,这些动作可以人工完成,只是稳定性不如自动化产线。如果问焊接过程有多少百分比是自动化产线完成的,那就是100%。但如果问整个cartridge有多少是自动化产线完成、多少是手工完成,个人觉得大概是60%由自动化产线完成,40%是人工完成。
Q:因此现在主要出问题的、不稳定地方是手工部分,自动化的几个步骤是否非常稳定?
A:也不能完全这么说,但是即使是自动化产线,如果达不到预期性能,每个自动化产线结束后,会进行S1测试(信号完整性测试)。如果焊接不好,会被判定为失败,这条线就不会被使用。所以只要通过测试并进入下一个流程环节,就是一个合格线缆。理论上,自动化产线不代表100%没问题。如果有问题,会在Sl测试中过滤掉。而后面多个环节是手工组装,这个过程也可能会有问题,但是这些问题最终也会做测试,过去刚开始时候也是做SI产品线测试,后面也会做一些误码测试(类似模拟客户在真实系统里的误码测试),这种测试当中肯定是会发生发现一些问题,随着生产经验越来越多,之前的问题也逐渐被优化和减少。因此,如果说出问题,每个环节都有可能有问题,但前面的自动化产线是下线就立即做测试,后面的这些步骤,从pair到组cable,再到cartridae,这里没有办法对每个过程都做SI测试,因此可能最后才会发现有问题,再追溯这些问题在何处发生,相对而言是一个比较复杂的过程,如果有问题,会在最终测试中被拦截下来。
Q:现在整体而言,失败率或合格率是多少?
A:个人没有这个数据,个人可以尝试取猜测这个数字。个人认为,基于整个过程已经算比较成熟,大家都比较有经验,因此,个人猜测目前每个过程中被被拦截下来的可能最多是百分之几这样一个比例,如3~5%。以后这种比例可能会非常低,如99%都不会有问题。
Q:您指的3~5%是某一个环节还是拉通来看?
A:自动化产线部分可能1%不到存在问题,即绝大部分都不会有问题。后面组装成一条线的过程,还会做一个测试,这个地方以前可能3%左右的失败率,而目前可能真实状况应该也在1%左右,个人相信最终通过率会非常高。到做成一个cartridge环节,因为如果有一个pair有问题,或1300对信号当中有一根线有问题,整个cartridge都算fail,比如说生产100个cartridge,乘以1300对信号,13万对信号中只要出现3对信号有问题,这三对信号发生在三个不同的cartridge上,意味最终cartridge失败率就3%,从这个角度,估计可能有3~5%失效率,但这些比例个人相信未来都会降低。
Q:所以您的意思是从整个cartridge角度看是3%失败率,而不是从线、一对差分对的角度来讲是3%?
A:对。
Q:这个水平是否已经算很低?
A:是很低的。虽然很低,但这里指的是前面环节已经做了最少2次SI测试,前面有失败的地方已经将其拿走将前面两个环节已经认为100%没问题的线,拿去做组装,最后还是有失效的情况。
Q:对于刚才所说的失效率,是否最终检查测试结果都OK,但发给英伟达之后,英伟达已经降至3%水平,给组装厂,结果在整机组装环节,发现整机不能点亮,或有些端口速率跑不满,进行倒查发现是cartridge铜缆问题,又给公司反馈回来,是否会有这种情况?
A:个人认为,这种情况可能过去几个月会有,而且这是连接器行业常见的情况。之前测试手段相对单一,后面可能确实有过这些问题,所以英伟达把类似于整机柜的机架,包括switch或computing tray,都提供给本公司,让cartridge在出货之前,往上面插试一下,来做简单的测试,当然这不是一个真正意义switch或server,里面主要是无源板子,来进行误码测试。因此,之前发生过这样的问题,但后面在英伟达提供了设备让本公司测试后,如果每个产品出货前都做了这个测试,基本上不太可能运到现场再出问题,而且是本公司产品的问题,这种可能性不大。因为在出货之前已经模拟了真实应用场景。但该测试并非100%都做过,这点个人不敢肯定。因为如果要100%去测试每个产品,效率会很低。因此,英伟达又让本公司开发另外一套测试治具,将cartridge放置于测试设备里,也类似模拟了真实场景,即用一些板子插入cartridge上,板子上装载一些芯片,来模拟其芯片速率来进行误码测试,这样测试的效率更高。这种测试设备在后期应用后,效率更高,成本也相对更低。总之,随着这些新的测试手段运行,cartridge出问题的概率会低,但也无法说绝对不会发生,
Q:意思是目前测试设备里没有真正的Blackwell,而是一些假芯片?
A:个人理解,是的。
Q:之后改进的设备,是否会有真正的Blackwell芯片?
A:现在相当于把机架和Server Switch运过来,但个人估计里边是假的,可能没有很多功能板,只是外形一样。个人没看过里面是否有Blackwell,不清楚里面具体是什么样子,总之是芯片在里面,进而可以快速检测信号能否跑通。后面需要让cartridge装在机架上的这种方式比较麻烦,这是其真实应用场景,但并不适合做测试,基于测试需要每一个都装到上面,再把Switch推进去,而这个设计本身就不是用来做测试的,如果这样去做测试,效率很低。因此公司从信号对、整个cartridge豆联关系、每一对的位置、什么位置应该跑什么样的信号、测试误码率等方面类似模拟其应用场景,来做100%的每一对的误码率测试,这样测试效率会高很多。
Q:虽然新测试工具效率提高,但基于其装在GB200里,如果运行一些大模型训练任务,功耗可能很高、整体工作负载也较重,而具体业务场景、软件类兼容性等较真实业务场景可能无法测试到,是否测试治具上没问题,但真实场景可能无法达成预期效果?
A:一般不会。在连接器、线缆或PCB行业,对通道的信号完整性的性能要求是可以量化。如自动化产线做一条线后,会立刻做SI测试。客户最终系统是否能跑通,是可以量化每一段的S!指标要求,只要计算、评估给出的标准没问题即可。当然如果给的指标很严格,可能无法达到,如果太宽,可能导致系统无法工作。如果客户给的S!指标很准确,公司也做了100%测试,理论上无黑再误码测试,就可以判断为没问题。坦白而言,公司无法100%将SI每个指标都做测试,一般PCB其实是不测的,也无法测,要装上测试头才可以测。而线缆可以测试,但也无法100%将所有指标都测一遍,而是通常测两个指标,即插入损耗和阳抗,这两个指标如果有问题,可能反映出组装过程有问题。串扰的部分,不是没办法测试,而是测试效率太低,要花很长时间。而且一般产品设计后,不太可能影响串扰了。如果阻抗做的测试也没问题,意味着生产线没有问题,一般通过Sl来做这样的测试。之所以刚才说要做误码率测试,主要是基于跑的码率更接近真实业务,理论上可以模拟真实应用场景,而且时间不会很长。例如,对于秒钟的224G而言,已经是224乘以10的9次方的字节,因此测试十几、二十几秒,也已经是很多字节。所以可以较快做这种误码测试,但测试打的码确实和业务不同,因此也不能完全反映客户系统最终状况。但一般误码测试或S测试通过后,基本不会有问题。因此行业里出现问题,大概率不是本公司连接器或线缆SI问题,而是机械结构等方面引起的。例如,这么多线放在一起,线需要弯曲、缠绕,如果弯折太厉害,可能导致里边信号完整性被破坏,如果原始设计做得好,线没有乱动,是没问题的。但如果安装过程中把线掰来掰去,或者连接器变形,类似机械结构或环境等因素导致最后业务没跑通或跑通但产生很多误码,这并非原始产品问题。当然,如果是一开始生产时不稳定导致的问题,以现在多个环节、多种测试手段来看,那种漏网之鱼的概率很低,更多是因为后期,在测试之后不知道何种原因导致SI性能变化,这种可能性更大。
Q:您刚才说有很多可能的原因,但2个月前,市场主要观点在于漏水问题,但当时一些专家表示,漏水的问题存在,但已经逐步解决,更多是NVLink的问题,基于给客户发了第一版Blackwell样品qualification sample,但客户反映本来标定NVLink速率是72个GPU两两之间1800 GB/每秒的双向互联带宽,结果发现有些端口速率跑不满,但不确定这是硬件还是软件问题。从您专业角度分析,如果出现这种问题,一般是哪方面原因?
A:如果在两个月以前,那时本公司产线还在逐渐成熟中,也并非一开始就做得很好,因此可能出现一些问题而后续很多测试手段在几个月前也没有,因此确实当时可能是cartridge产品的问题。而今天这些测试手段都用上后,还出现这样一些问题,就可能是刚才个人所说的原因。当然这件事较复杂,不容易知道哪个环节出问题。过去和英伟达工程师工作很长时间来定义整个测试规范,如最终产品达到何种S!指标是可以接受。个人也相信,基于这些年大家一直都这么做,因此不太可能说规格定错的原因。如果这些没有出错,又做了之前没有的S测试,还出问题的话,个人更加相信可能是后面组装过程,或运输过程中,让产品形态发生了一些变化。基于cartridge装在里面,假设运输过程中震动太厉害,某些点没有接很好,可能有一些拉扯或形变,导致阳抗发生变化,或者抖动太厉害,或者运输过程中外力冲击,导致线材在里边变形,也可能导致S!指标变化,进而反应在最后跑出来的系统中。这样分析下来,也是本公司的产品问题,但何时、何种情况导致这个问题,分析起来会很复杂,很多时候几乎很难复现问题原因。
Q:个人还听专家提过,在安装cartridge时,pin在对位时有可能有变形,导致组装时可能接触不良,您是否也观察到此问题?
A:从英伟达一开始设计思路来看,不太可能出现刚才说的问题,基于开始设计cartridge时,英伟达提出这个行业里边迄今为止很苛刻的要求。过去的背板是把连接器压接到PCB上,连接器和PCB固定死,没有任何移动、浮动范围。而cartridge的设计,是为了让交换机、服务器这么重的设备往里边对插时不要损坏连接器。因此英伟达当时的设计是:要求连接器嵌在铁壳里,但连接器需要在X、Y、Z三个方向有3毫米浮动范围,且是正负3毫米。而例如富士康服务器往里边推的时候,有几级导向。第一级是导向针,把连接器组件导入3毫米浮动空间,往里面推的过程中,不是直接插到连接器上,而是连接器上面有导向针,推进去时候,它会把这个连接器逐渐校正,连接器会主动浮动来适应服务器位置。而线缆背板cartridge上的连接器,和服务器上的连接器快接触时,此时可能已经导向至非常低的公差,如0.3毫米。这个范围内,又是塑料壳体,具备导向能力。从理论上,如果各方面都做得很好,不应该出现这位专家讲的问题。如果有问题,可能是浮动设计不好,或者不顺滑。
Q:基于cartridge很重,而ODM那边的服务器也是很重的东西,推过去的时候,是否可能导向针在第一步就已经变形,是否还能否正确导向至后面的连接器和其相连?
A:不太可能,这个针挺粗,另外这个针装在cartridge的连接器上,而后面的cartridge是固定牢固的,锁螺丝锁死。而cartridge上的连接器,上面同时附带一个导向针,这个导向针很粗,它首先会插到服务器上面的孔里。这个孔也很大,往里逐步推的时候,导向针会带着连接器逐渐收敛进入孔里,所以导向针不可能弯针,那是很粗的针。因此,如果出现这样的问题,可能是浮动没有做得那么好。本公司做这个浮动,差不多花费大半年时间,才将其优化至现在得样子,如果之前没有做得很好,可能出现这样的问题。