Cerebras联合创始人剖析Blackwell GPU延迟背后的技术挑战
核心观点
Blackwell GPU是首款采用多个逻辑芯片的产品,这导致了互连基板尺寸的增大以及对高密度连接的需求。这种复杂性增加了制造和对齐的难度。互连基板的精确对齐和热膨胀差异带来了显著问题,特别是在使用不同材料(如硅和有机材料)的情况下,各组件在温度变化中膨胀不同步,可能导致结构弯曲和连接点断裂。从原型制作到大规模生产的过程中,制造工艺的扩展带来了额外的挑战,这可能是导致延迟的关键原因。 Cerebras从一开始就选择了制造大规模单一芯片的方案,避免了将多个芯片组装在一起所带来的复杂性和制造难题。这种方法允许逻辑和内存在同一硅片上紧密集成,从而减少了延迟并提高了带宽。Cerebras通过单一晶圆级引擎设计,减少了封装中的部件和步骤,避免了复杂的对齐和热膨胀差异问题。与传统方法相比,他们的设计使芯片更加平整,便于冷却和连接。Cerebras的设计充分考虑了材料的热膨胀差异,发明了灵活的连接器,以应对芯片和基板在温度变化时的不同膨胀速率。
-----
James Wang, Director of Product Marketing, Cerebras J.P. Fricker, Chief System Architect & Co-Founder, Cerebras
时间:Aug 13, 2024
-----
James Wang: 从新闻中得知NVIDIA的Blackwell遇到了延期,这与需要将GPU和内存连接在一起的复杂互连基板有关。我想和JP讨论一下,因为他设计了Cerebras的整个系统架构。
JP,能否给我们解释一下可能发生了什么,以及我们采取了哪些不同的方法?
关于这个互连基板问题,你感到意外吗?
J.P. Fricker: 不,我一点也不觉得意外。事实上,我早就预料到了。这是一个非常棘手的问题,尤其是在超大型互连基板上承载这些大型处理器时。不过,也许我们应该更深入地了解一下互连基板的制造过程。
这里有一张GPU封装的平面图。在这个例子中,你可以看到有两个逻辑芯片,它们是处理器的核心,周围环绕着多个内存芯片。这是大型处理器的典型封装方式。
James Wang: 但以前只有一个GPU,对吧?Blackwell是第一款拥有多个逻辑芯片的产品?
J.P. Fricker: 没错。之前,内存器件与主芯片的距离要近得多,整个封装的体积也只有现在的一半左右。
构建这种结构时,实际上需要从三维或横截面的角度来思考。从系统层面看,服务器中有印刷电路板。在这些电路板上,需要放置处理器。通常的做法是将在晶圆上制造的不同硅芯片放置到封装基板上。这里有一个此类基板的示例。
当有多个芯片时,基板被称为互连基板,因为它是连接芯片和印刷电路板的中间层。首先需要一个基板,有时为了在这些芯片之间建立连接,会使用互连基板。有时会在封装上放置一个硅互连基板,然后再放在印刷电路板上。有时则直接堆叠,就像这里展示的那样。
简单来说,这是硅互连基板,需要将多个芯片相互连接,以实现HBM和芯片之间的互连。
James Wang: Blackwell这一代与之前的H100相比有什么不同?
J.P. Fricker: 区别很大。在中间部分,需要以非常高的密度连接这两个逻辑芯片。
James Wang: 之前只是逻辑芯片与内存之间的连接,现在还要实现逻辑芯片之间的连接。
J.P. Fricker: 没错,需要大量的互连。由于现在需要更大的基板,而这些基板相当昂贵,所以工程师们采取了一种优化策略,“为什么不只在需要超高密度的部分使用硅呢?”与其将整个互连基板都做成硅,不如只在特定部位使用硅器件。
硅器件的优势在于可以在上面制作非常细小的导线。现在的基板变成了有机材料与玻璃纤维层的组合,叠加了各种有机材料和这些桥接部分——也就是硅的部分。
James Wang: 所以现在有两种成分。这听起来很不错。那么,可能会出现什么问题呢?
J.P. Fricker: 嗯,这需要非常精确地对齐这些部件,以确保它们能与芯片底部和内存底部的引脚完美匹配。你可以想象,当需要对齐这些桥接时,一种方法是先在基板上对齐,然后再放置芯片。但我认为这里使用的不是这种方法。他们可能采用了相反的做法,实际上是先把芯片放在某个位置,然后再将桥接部分组装到第一个芯片上方。
但在制造过程中,所有部件都可能发生微小的移动。因此,仅仅在制造阶段,就要确保所有部件放置在正确位置并保持不动,同时还要确保在组装时没有任何东西移位,这就非常具有挑战性。当整体尺寸较小时,这种管理还相对容易,但一旦尺寸变大,不仅需要组装的部件数量增加,还需要在更大的范围内保持同样的精度。
James Wang: 我们在对齐这些组件时所讨论的尺度是多少?
J.P. Fricker: 通常,这里的间距在10到50微米之间。这是这类互连的典型尺度。随着每一代HBM的不断微缩,这就变成了一个对齐方面的巨大挑战。
James Wang: 我听说对齐是问题的一部分。我还听说热膨胀差异也是问题所在。这是怎么回事?
J.P. Fricker: 这里涉及到不同材料的使用。逻辑芯片和桥接部分是由硅制成的,而其他部分则使用有机材料。印刷电路板又是另一种材料。这些材料的热膨胀系数(CTE)不同。有机材料的CTE大约是每摄氏度或开尔文10 ppm,而硅的CTE约为每摄氏度或开尔文2.6 ppm。因此,在温度变化时,这些材料会产生不同程度的膨胀。
当最初在一块大的硅互连基板上制作封装结构时,逻辑芯片、内存芯片和硅互连基板的CTE非常接近。
James Wang: 那是在H100上吗?
J.P. Fricker: 是的,在H100上是这样的。但在新的技术中,我们使用了桥接部分。这意味着将硅互连基板与另一种材料结合。这样一来,无论是在组装过程中,还是组装后,缓解这些热膨胀差异都变得更加困难。因为即使在组装完成后,这些部件也会随温度变化以不同的速率膨胀和收缩。结果,整个结构可能会开始弯曲。
James Wang: 弯曲?它真的会弯曲吗?
J.P. Fricker: 是的,确实会弯曲。
James Wang: 这听起来可不太妙。
J.P. Fricker: 当结构开始弯曲时,你可以想象那些原本用于将不同部件连接在一起的微小接触点会开始断裂。保持这种结构的完整性非常困难。这需要进行大量的测试,验证其正常工作的过程也非常漫长。也许在这个项目中,他们没有进行足够的测试,或者他们对某些可扩展性问题感到意外。特别是在量产过程中,虽然制作原型可能相对容易,但当扩展到大规模生产时,整个制造过程必须进行调整,这就变得更加困难。
James Wang: 看来在大规模生产时,这些部件开始翘曲、断裂和分离。这种将多个不同成分和工艺节点组装成单个封装的技术似乎是一场噩梦。
J.P. Fricker: 没错,主要有两个方面的问题:一是材料差异导致的问题,二是尺寸问题,因为整体结构变得更大了。
James Wang: 这是自开始实现逻辑芯片与逻辑芯片互连以来,首次显著增大封装尺寸。
James Wang: 当我们设计Cerebras系统时,我们考虑了所有这些因素,最终做出了非常不同的设计决策。你能给我们详细解释一下吗?
J.P. Fricker: 在公司成立之初,我们就全面考虑了这个问题,很快意识到我们需要更多的逻辑电路和更多靠近逻辑电路的内存。因此,我们的目标是制造更大的芯片。我们也考虑过重新组装芯片的技术,但很快我们意识到,即使是一两个芯片相关的问题,在规模增大时也会变得更加严重。
James Wang: 我明白了,所以即使你解决了两个芯片的问题,一旦扩展到48个,情况就会变得异常复杂。
J.P. Fricker: 这种问题会迅速达到瓶颈。这是一个指数级的问题,与我们想要构建的规模成正比。我们认为在未来几年内可能无法克服这个挑战。为了优化这一过程,我们在2016年成立了公司。我花了大约半年时间研究各种技术,然后又用了大约一个季度的时间深入研究良率模型,以探索如何实现我们的目标。我们很快意识到,考虑到尺寸的组合、各种材料、不同组件的多方合作,以及过程中的多个步骤,要使所有这些因素完美配合几乎是不可能的。步骤太多、部件太多、合作伙伴太多,难以有效整合。因此,我们决定简化这个过程,寻找其他可行的方法。
James Wang: 请详细给我们介绍一下你们的思路。
J.P. Fricker: 我们的目标是制造一块大型硅片。标准的晶圆直径约为300毫米。在这种晶圆上,通常会构建一个步进重复的光掩模图案。NVIDIA和几乎所有公司都是这样做的。一般情况下,每个芯片都会单独测试。确定了哪些是好的,哪些是坏的后,他们会标记坏芯片,切割晶圆,只保留好的芯片。坏的被丢弃,好的则被封装到基板上,成为单独的芯片。
NVIDIA希望获得更多的硅面积,所以他们在一块基板上放置了两个芯片。而我们在想,“如果我们可以接受一些缺陷呢?”没有人能制造出零缺陷的晶圆。想象一下有许多缺陷的晶圆。每个人在设计芯片时都考虑冗余,例如使用能够应对缺陷的SRAM。但是,如果你的整个逻辑设计能够处理缺陷,那么你实际上可以利用整个晶圆。既然可以自由使用整个晶圆,为什么不在一个光掩模的区域内同时创建逻辑和内存,并且让它们紧密相邻呢?
James Wang: 这解决了困扰微处理器行业数十年的内存带宽瓶颈问题。
J.P. Fricker: 没错,这两个部分如此接近使得你可以使用非常短的导线,远比现有方案短得多。电容非常小,因此,通信所需的能量也非常低。你还可以将内存分布在更大的表面上,这样可以更好地为给定光掩模或较大硅片内的各种核心服务。
在传统的设计中,位于中间的核心可能需要长距离到边缘才能访问内存,从而导致高延迟。但在我们的设计中,核心和内存紧密相邻,因此没有这种延迟问题。你可以同时获得高带宽和超低延迟。
James Wang: 这确实是一个显著的区别。基本上,在其他架构中,内存和逻辑是分开的,而你们将它们整合在一起,因为你们的制造方法允许这样做。
J.P. Fricker: 没错。我们还将核心做得相当小。这种几何设计使我们能够在晶圆的X和Y维度上放置成千上万的核心,从而使我们拥有多达一百万个核心。如果几个核心失效,影响就不会太大。在GPU中,几个缺陷核心可能是可以容忍的,但如果数百个核心出现缺陷,尤其是当GPU核心较大时,系统性能可能会受到显著影响。然而,在我们的设计中,如果一个核心有缺陷,我们可以在逻辑上将其从阵列中移除。软件可以将这一点抽象化,并将整个晶圆视为完美无缺。
James Wang: 这太棒了。让我们回到封装问题。这个架构是如何避免传统封装问题相关的复杂性和陷阱的?
J.P. Fricker: 首先是连接性。因为我们的核心较小,我们可以在一个光掩模上非常紧密地连接许多核心,甚至可以跨光掩模连接。用于制造晶圆上导线的光刻工艺与在单个芯片内的导线相同。
James Wang: 与互连基板设置相比呢?
J.P. Fricker: 是的,正是如此。在传统的设置中,你需要一个桥接来连接一个芯片到另一个。在我们的设计中,由于芯片没有被切割,我们可以使用相同的材料进行本地连接,而无需单独的桥接。这种连接是通过光学曝光构建的,而不是通过物理放置,这样就不需要重新对齐。在这里,我不需要重新对齐任何东西。
James Wang: 我明白了,这实际上是一个整体,就像直接插入墙壁的插头。
J.P. Fricker: 没错。
在光掩模之间有大量带宽,相当于在一个光掩模内部的带宽,分布在各个部分。这是一个方面。
另一个方面是封装;它简单得多。封装所需的部件数量大大减少。我们不需要那么多的部件,也没有那么多的组装步骤来重新组合。基本上,我们只有一块晶圆,我们称之为晶圆级引擎,一块印刷电路板,以及一块冷板。在传统的设置中,他们需要更多的组件。你需要基板,需要将这个基板焊接到PCB上,还需要将各个芯片焊接到基板上。然后你需要硅桥互连器来创建连接。这涉及到许多合作伙伴和复杂的组装过程。
James Wang: 我明白了。所以如果我们称之为“小芯片”方法,随着AI技术的进步和对更多内存及更高带宽的需求,这种方法变得越来越复杂,几乎是指数级的增长。制造工艺变得更加复杂,公差要求也更加苛刻。而你们的方法则保持为一个统一的芯片,公差始终一致。
J.P. Fricker: 没错,因此我们完全避开了所有这些挑战。
James Wang: 这很有趣。我记得2019年首次宣布晶圆级引擎时,它的设计非常优雅,但优势还不太明显,因为当时GPU领域还没有遇到这些问题。他们仍在处理相对简单的设计;当时还没有互连器和那些复杂的结构。
但现在,五年过去了,小芯片方法已经达到了极限,而晶圆级架构的优势变得越来越明显。
J.P. Fricker: 如果你认为这很困难,我们有证据表明,即使只有两个芯片,NVIDIA在完成这项工作时也遇到了困难。事实上,我们几年前就已经实现了多达50个芯片的集成——实际上是这个尺寸的50倍。我们通过更简单、良率更高的方式解决了这个问题。在封装层面,我们使用类似的组件,但数量更少,并且对制造过程和对齐问题的敏感度更低。
例如,我们的晶圆级引擎仍需要用冷板冷却,并由印刷电路板供电,就像GPU一样。然而,我们的晶圆级引擎非常平坦——它是一整块非常平整的硅片,能够轻松与同样平整的冷板对接。我们可以使用一种均匀的热界面材料,在晶圆和冷板之间提供一致的热导率。
而在GPU或任何这样的重构处理器上,各种芯片可能有不同的高度,更重要的是,它们的功耗可能不同,热膨胀也不同,导致它们处于稍微不同的高度。因此,你需要一种在这里具有垂直顺应性的热界面材料。
另一个问题是所使用的有机材料和需要粘合的硅的热膨胀系数(CTE)不匹配。整个结构的膨胀和收缩速率与冷板不同。如果冷板由铜制成,其CTE约为每摄氏度17 ppm(百万分之一)。
印刷电路板的CTE与铜相似,约为每摄氏度17 ppm。他们通过焊接接头和具有中间CTE的有机材料来缓解CTE的不匹配,然后他们试图通过热和电气侧的刚性连接或半刚性连接来解决这一切。我们不需要这样做。我们使用的热界面材料实际上可以滑动。我们从一开始就预见到了这个问题。
基板的膨胀速率不同,因此我们使其具有滑动能力。我们的热界面材料是可滑动的。电气连接也是如此。在晶圆的中心,你有一个直接连接,但在边缘,PCB的热膨胀可能不同,导致这些最初垂直的连接在温度变化时开始弯曲。我们发明了一种能够应对这种偏转和CTE膨胀的连接器。
James Wang: 你们发明了一种灵活的连接器?
J.P. Fricker: 是的,一种允许两个部分以不同速率膨胀的连接器,同时保持连接。在传统设计中,无法做到这一点,这也是部分问题所在。如果有如此坚固的粘合组件,并且加热或冷却结构,它会弯曲、移动,有时移动得如此之多以至于开始开裂——导致连接或焊接接头断裂,或者造成分层。这可能是他们面临的部分问题,某些连接可能一开始就没有正确连接,或者随着时间推移而断裂。
在我们的设计中,晶圆被允许漂浮,完全独立于这些CTE不匹配的影响。
James Wang: 看起来六七年前,你们就考虑到了AI达到大规模时会发生什么。芯片的设计是在一个显著更大的规模下进行的,我认为现在,随着ChatGPT和大型语言模型的发展,这一切都变得合乎逻辑,因为它达到了正确的规模。我们谈论的是GB到GB的规模,而我们是唯一具有PB级计算能力和PB级内存带宽的芯片,这是前所未有的。在系统架构方面,几乎所有传统架构面临的问题都被预见并提前解决了。这些优势现在才逐渐显现。
J.P. Fricker: 确实,业界需要时间来意识到这一点。深入传统芯片制造过程时,常常会遇到这样一个问题:为了解决眼前的难题,会找到一个看似简单的解决方案,并将其反复应用。由于每一步都显得易于操作,往往会固守这种方法。然而,这种看似简单的重复,最终可能演变成一个巨大的挑战。如果不退后一步,从全局视角审视问题,很可能会错过更优化的解决方案。当问题可以通过改变方法更轻松地解决时,却仍在苦苦挣扎。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)