2023年OCP全球峰会:开放基础设施平台引领GenAI时代
【ANDY】目前的本质问题是:生成式AI模型和大型语言模型的边际收益在哪里,包括规模、复杂性和模型自身的演变。要实现一个适用于所有这些不同类型工作负载的系统解决方案,还有很长的路要走。
演讲人:Meta副总裁Dan Rabinovitsj。
GenAI的需求正在迅速增长,并预计未来至少十年将继续遵循规模化规律。在这次技术演讲中,Meta将全方位解决基础设施挑战,涵盖从芯片到系统再到软件的整个技术栈。
大家早上好,我是Dan Rabinovitz,负责Meta公司的硬件事务。今天我将与大家探讨GenAI的发展,以及它在基础设施层面带来的挑战。
目前,有一件非常有趣的事情是,你可能认为GenAI已经过了高潮期,但事实是,随着GenAI已经融入消息应用程序和消费电子设备中,实际推理的数量开始以非常快的速度增长,而这些推理都是非常有用的。这些推理之所以如此出色,部分原因在于我们训练了大型语言模型,它们已经变得非常高效。
而下一代则将结合机器学习和GenAI扩展现实,以实现一些非常酷的应用,比如实时语言翻译、透过眼镜查看并告诉你物体是什么,以及如何处理它。这些应用将导致我们的基础设施上的推理事务大幅增加,这表明GenAI目前正在蓬勃发展,我们可以预见这一趋势将持续下去。
然而,仅仅在不久之前,也就是2022年,正如我的许多同事所言,不到一年的时间,我们的重点是深度学习推荐模型(DLRM,Deep Learning Recommendation Model),这些模型实际上是我们公司将用户与他们喜爱的内容联系在一起的关键模型,而我们主要围绕内存和I/O带宽进行了优化,这些工作在很大程度上并不像现在的GenAI那样计算密集。
不久之后,Llama模型已经训练了650亿参数,计算量是以前的400倍,我们需要10倍的内存容量。现在我们不再只是谈论一个GPU,而是需要20倍的GPU来完成这些训练工作,所以这是相当戏剧性的变化。
而且这还没有结束,实际上,我们不知道生成式AI模型和大型语言模型的边际收益在哪里,所以还有更多的挑战等待着我们,包括规模、复杂性和这些模型的演进。模型本身也会发生变化,因此我们需要预料未来的不确定性。我们现在唯一能够确定的是,所有这些复杂性对我们行业来说构成了巨大的挑战。
我们本可以更详细地分析这些问题,但在这里,我将讨论五个关键维度,它们受到不同类型的AI工作负载的显著挑战。让我以生成式AI、大型语言模型以及排名和推荐的背景下,谈谈这个问题,以便让大家更好地了解在这些不同类型的模型中,哪些维度受到了最大的挑战。
首先,让我们来看大型语言模型。这些模型使用数十亿甚至数万亿的参数进行训练,需要大量的分散和汇聚操作。为了提供足够的FLOPS来处理这些任务,需要成千上万的GPU。这是一个超级计算密集型的工作,需要大量的网络带宽。
LLM的推理阶段分为两个部分,预填充和解码。预填充阶段非常计算和内存密集,需要高达10 PetaFLOPS才能处理第一个标记。
而解码阶段对网络延迟和内存带宽非常敏感,因为这些标记是逐个处理的。因此,我们需要确保数据尽快到达,以便在向聊天机器人提问时不会出现长时间的延迟,从而实现快速响应时间。
现在,让我们谈谈排名和推荐领域。我们看一下DLRM,它包含了大型嵌入模型,这些模型分布在多台机器上,这导致了对网络带宽的高需求,因为在这些特定类型的模型中,需要实例化大量的全对全收集,因此可以看到这对网络带宽非常敏感。
就推理方面而言,这是一个非常有趣的现象。考虑到我们的业务,我们面临许多这种类型的工作负载,它们需要高度的资源和事务量。因此,我们一直在调优和训练这些模型,以确保尽管它们需要大量内存容量,但我们尽量减少所需的计算带宽或计算容量。通过所有这些调优和训练,这就是这些模型在数据中心中真正带来的挑战。
现在,如果我们将所有这些因素叠加在一起,很快就会发现,要拥有一个适用于所有这些不同类型工作负载的系统解决方案,我们还有很长的路要走。这是相当复杂的情况,我们选择了四个一般性类别,但最终得到的是一个相当混乱的局面。在考虑这一点时,现在非常重要的是,接受这一事实,很难找到一种能够适用于所有情况的解决方案,更重要的是,回到之前的观点,模型和并行性将继续演化和变化,因此我们实际上不知道这些模型未来的外观和特性将是什么样的。
作为一个自行车爱好者,我可以理解这种情况。可以说这是一种"病",我有很多自行车,这与上面的问题非常相似。有些人可能会问,为什么你不只有一辆自行车呢?我可以回答,碎石路自行车可以在路上行驶,也可以在崎岖的单车道上行驶,但在路上永远不会像公路车那样快,也不会像全避震山地自行车那样擅长行驶在崎岖的单车道上。这涉及到性能和功率的权衡。实际上,每瓦特性能是自行车手和AI系统工程师都关心的指标,我们关心这些内容,努力为我们追求的应用程序优化和调整这些解决方案。因此,尽管在AI领域,我们确实不想像骑山地自行车参加公路比赛一样,因为你将输给所有的公路车手。
那么,这将带领我们到哪里呢?我认为这实际上是OCP目前面临的一个重大问题,因为如果你看看这个局面,你会发现我们现在所处的特定情况如何,特别是考虑到许多公司正在竭尽所能地开发自己的芯片,垂直整合,然后微调系统以满足他们的需求。我们如何从这个现实走向开放,让许多公司进入这个生态系统并提供价值,以便我们不必制定所有这些定制解决方案。
我认为答案已经开始浮现。开放模型在某种程度上已经存在。
我们最明显地看到这一点在软件框架等领域,例如PyTorch Llama 2是一个任何人都可以使用的开放模型,而不必花钱或精力去自己训练模型。这些都是开始蓬勃发展的好例子,它们具有规模,任何人基本上都可以参与并采用这些技术,并得到社区的支持,这非常重要。
然而,从硬件的角度看,我们尚未达到那一阶段。今天,我想鼓励我们大家思考在OCP领域所谓的OCP 2.0的复兴,着重解决AI领域的这一挑战。
我们的AI之旅始于Grand Teton,我非常高兴地宣布,我们已经将这一设计贡献给了OCP。你可以在展台上找到这项技术。但更重要的是,我们正在自己使用这项技术,Grand Teton集群已经在我们的数据中心中投入使用,用于推理和训练。尽管我很想庆祝这一成就,并说这太棒了,而且顺便说一下,这是你们的设计,这是一个OCP的设计,任何人都可以使用它,这很酷,但老实说,我们仍然只是初出茅庐,这就像婴儿时期一样。至于我们接下来需要走向何处,我只想承认我们的旅程才刚刚开始,我们才刚刚完成了1%。
那么,从工作的角度来看,如果我们认真对待OCP 2.0,我非常幸运能够在这个演讲时间段讲述这个故事,因为我的许多同事已经提到了这个故事的大部分内容,但我们确实需要从共同的机架和机箱架构开始,就像我们谈论自行车一样,不是每种工作负载都需要空气冷却,对于其中的一些工作负载,我们需要液冷,但其中一些我们确实需要空气冷却,我们需要能够取消一些网络带宽能力,而其它一些则需要完全配置。因此,开始考虑能够支持所有这些不同配置的共同机箱和机架架构非常重要,因为如果每个机架和机箱都完全不同,扩展将非常困难。我们必须接受在成本等方面做出一些妥协,但我认为朝着共同性的目标迈进是非常重要的。
许多人已经谈到了液冷技术,液冷技术已经到来,我们无法回避它,它非常重要,但目前在其生命周期中仍处于早期阶段,我们需要在冷板的可靠性、生产中的装运方式、泄漏检测、如何标准化现场可更换的CDU等方面进行大量工作,所有这些都是开放问题,即使是用于盲插头连接器的硬件种类也没有真正被标准化,而且没有足够的合格供应商提供真正强大的解决方案,可以用于大规模生产。这明显是问题清单中的第二个,与我们之前提到的共同机箱和机架架构密切相关。
下一步,我只想说,通过Grand Teton项目,我们学到了很多,了解到了整合、验证和测试大型AI系统的困难,尤其是在集群级别,甚至在机架级别,我们发现当我们没有充分测试子组件和机架本身时,产量出现了非常显著的差异,因此我们需要继续改进制造过程的产量。所有我们的制造伙伴在刚开始时都会面临这个问题,因为系统变得更加复杂,事情变得更加微妙,我们需要在这个特定领域花更多的时间。如果这些知识仅限于两三家公司,那么它实际上对整个行业的发展没有多大帮助,因此需要更广泛地分享,以便整个行业能够更快地支持大规模生产。
接下来需要考虑的是通用工具和遥测,我非常高兴看到GPU遥测标准化的相关工作,了解和识别以及隔离领域内的静默数据损坏,这些都将非常重要,尤其是当我们开始看32000个以上的GPU集群规模时,我们需要有良好的遥测来确定是什么阻止了工作的可靠运行,可能有上百种或上千种原因,但如果没有任何有关遥测的共同性,我们将继续重新发明所有可靠性工程,而一两家公司可能早一两年找出了解决办法,这实际上并没有帮助我们实现规模化。
最后,正如我的许多同事所谈到的,我们需要一个统一的后端架构。我非常高兴看到Google今天宣布了Falcon,Ron也提到了UAC,我们赞赏这些努力,我们真的认为这个行业需要这个标准,因为这对AI性能的未来非常关键。
所有这些都需要可持续性,非常重要的是,我们需要解决未来的电力和冷却需求。
我希望大家能认识到,AI基础设施已经现实存在,而且它正在不断发展,变得更为复杂。而我们不知道它将走向何方。因此,OCP 2.0呼唤我们共同行动,来解决这些挑战。顺便提一句,我们需要一个强大的社群,因为没有一家公司能够独自扛起这个重任。
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解