AI计算时代的数据中心转型
核心内容
计算技术的多样性与应用场景:CPU在推理任务中表现出色,GPU因其高性能在AI应用中广泛使用,FPGA适合流水线指令处理,DSA专注于特定任务的高效执行。
规格尺寸和加速器的发展:从M.2和PCI CEM到定制芯片设计,各种规格尺寸在推理和训练任务中的应用趋势,以及大型单片晶圆级解决方案的兴起。
大型语言模型(LLM)的发展:随着模型规模的扩大,对算力的需求也显著增加,这推动了不同类型加速器的发展和应用。
功耗和冷却趋势:随着AI模型和加速器功耗的增加,冷却设施的设计和部署变得至关重要。液体冷却与空气冷却的结合成为主要趋势。
基准测试的重要性:MLCommons等基准测试框架在评估加速器性能和适用性方面发挥关键作用,帮助确定最佳的AI计算方案。
数据中心的发展:随着AI计算需求的增加,数据中心从节点级别向机架级和集群级发展,需要考虑更高的功率密度和优化的网络设计,以确保数据的快速传输和处理。
关于AI计算力,这是一个经常被讨论的话题。从芯片的视角来看,AI计算力的范畴相当广泛,它涵盖了CPU的使用场景,以及GPU、FPGA和领域特定加速器(DSA)的应用。每种技术都有其独特的作用和价值。
CPU作为数据中心的传统“主力军”,凭借其丰富的内置指令集,在推理任务中表现出卓越的能力。特别是配备了充足内存的CPU,在处理繁重的图像处理任务时,更能彰显其独特的优势。然而,在快速计算能力方面,CPU则不及GPU出色。
GPU最初设计用于图形处理,但随着张量核心的引入,它在各种AI应用中得到了广泛应用。FPGA以其流水线指令而闻名,特别适合诸如语音转文本转换等任务。而DSA则主要专注于高效执行矩阵乘法,针对特定工作负载进行了高度优化,但难以轻易应用于其他IT任务。
在处理能力和可编程性方面,CPU具有显著的灵活性。GPU则通过几十年的CUDA技术发展,提供了高性能和可编程性。FPGA高度定制化,而DSA则针对特定工作负载(如矩阵乘法)进行了优化,需要软件调整以实现最佳性能。
AI基础设施的趋势反映了多种规格尺寸的发展,从M.2和PCI CEM到定制芯片设计,包括Cerebras开创的大型单片晶圆级解决方案。此外,像Nvidia的Grace Hopper这样的高速缓存一致性CPU/GPU正在崛起,每种设计都针对特定的工作负载(如训练或推理)进行了优化。
在推理任务中,我们主要看到M.2嵌入式规格尺寸和PCI CEM的广泛应用。而在训练方面,则逐渐转向使用GPU,这些GPU越来越定制化。这种规格尺寸的转变是该领域一个显著的趋势。
另一个趋势集中在LLM模型上。随着模型大小的增加,我们主要看到的是基于文本的模型在NLP领域或LLM领域中的主导地位。但随着视觉元素的加入,文本、视觉和视频等不同数据集的组合正在变得普遍。
对于LLM如何应用于这些应用,Andrew在去年的一次演讲中进行了深入探讨。他讨论了视觉模型如何变得更加主导以及从计算角度应该关注的事项。
大型语言模型,大多数人都有所了解,其大小和增长都非常显著。但值得注意的是,随着模型大小的增加,计算需求也呈现出大约10倍的增长轨迹。即使计算能力有所提升,仍不足以解决所有问题,因为训练作业的最大关键绩效指标(KPI)取决于训练时间。因此,引入不同类型的加速器成为了关键。
MIT研究人员在一篇论文中进行了相关调查,研究了从超低功耗到高功率范围的各种功率类别的发展。在这个领域中,我们可以看到许多加速器的出现。虽然随着时间的推移,许多加速器已经消失,但仍有大量尝试在解决特定领域问题上取得突破。从AI的角度来看,不同的数学精度被采用。每一代芯片通常都会看到精度的改进或变化,旨在提高问题解决的速度。这是我们正在观察的重要影响之一。
观察LLM模型大小的增长、规格尺寸、各种加速器的出现以及功率趋势,我们可以明显看到功率在不断增加,并没有停留在特定的阈值上。当前的趋势显示,最高功率的GPU大约为700瓦,而PCI CEM约为400瓦。对于未来的几代(N加2,N加4),我们预计功耗将呈现显著增长,这将对冷却设施产生重大影响。因此,冷却基础设施变得至关重要,需要在空气冷却和液体冷却解决方案之间取得平衡。需要注意的是,液体冷却并不会完全取代空气冷却平台,因为许多数据中心仍然偏好并部署空气冷却基础设施。这代表了行业中另一个显著的趋势。
在AI领域,基准测试的重要性日益凸显。随着新技术的不断涌现,标准化对于确定哪些加速器适合特定模型至关重要。MLCommons起源于基于MLPerf的基准测试,并演进扩展了其范围。最初专注于AI训练和推理的MLCommons已经扩展至涵盖存储、高性能计算以及跨这些领域的多样化基准测试开发。
在各种模型中,有一部分特别关注计算机视觉类模型。而在LLM类别中,我们见证了像GPT-J、Stable Diffusion和Llama这样的模型的出现。然而,值得注意的是,基准测试往往滞后于LLM快速增长的行业步伐。顶尖研究机构和超大规模运算平台几乎每周都会发布新模型,这使得基准测试跟上步伐成为一项挑战。尽管如此,像MLCommons和MLPF这样的基准测试覆盖了训练、推理和存储等多个方面,为评估特定加速器提供了一个框架。它们有助于从芯片的角度评估其性能以及与期望的关键绩效指标(KPI)的对齐情况。
KPI可能侧重于延迟限制或吞吐量限制的应用程序,具体取决于特定需求。MLCommons为我们提供了一个评估这些方面的框架。
在推理方面,我们的关注已经从数据中心延伸到了边缘环境,覆盖了从近边缘到远边缘的各种场景。我们通过评估不同的模型类别来确定最佳的持续时间和KPI。
同样地,MLCommons也涉及训练领域,为模型和基准测试实践在训练和推理领域的一致分类提供了支持。
目前的趋势显示,从节点级别开始,各种功率、基准测试、规格尺寸和精度的加速器正在涌现。这使得我们非常关注机架功率趋势的发展。历史上,许多数据中心以每机架10至20千瓦的功率运行IT工作负载。然而,随着LLM的增长,这种容量已不再足够。从AI的角度来看,我们看到每机架功率线性增长至每机架75至100千瓦甚至更高。这种增长可能导致新的绿地数据中心的增加。改造现有的旧数据中心以满足这些需求将是一项挑战。一些数据中心可能会成功应对,但主要还是新的绿地数据中心在应对这个不断发展的领域发挥着主要作用。
在AI领域,这促使我们从数据中心层面重新审视视角。从数据中心的角度来看,这可以看作是一个图表,展示了我们如何在X轴上观察它。从1995年我们专注于塔式结构到1U和2U单元,再到刀片服务器,美国已经历了过渡。随着每个类别中加速器的崛起,数据中心面临着这些技术转变或跳跃所带来的挑战。大约在2018年到2020年间,我们开始看到加速器需要更高的功率以获得更好的性能。随着功率的增加,我们需要从节点级别上升到机架级别,再到数据中心级别进行考虑。冷却变得具有挑战性,液体冷却迅速得到采用。从AI数据中心的角度来看,结合空气和液体冷却的混合方法正在兴起,未来液体冷却可能在AI计算场景中占据主导地位。因此,这些因素共同影响着基础设施决策,包括加速器规格尺寸、冷却趋势(包括空气和液体冷却)、节点、机架和数据中心级别的发展趋势、模型大小、每节点功率密度以及多样化的数据中心需求。
这些是影响我们所有基础设施决策的各种因素的集合。我们关注到的点包括加速器的规格尺寸、冷却趋势(包括空气和液体冷却)、节点、机架和数据中心级别的变化、电力趋势、模型大小和应用、节点功率密度,以及这些不同规格尺寸组合带来的各种数据中心需求。接下来,我们需要思考如何应对这些变化。
我们当前的AI基础设施处于哪个阶段?它的发展趋势又是什么呢?如果我们回顾已经讨论过的因素——加速器、电力、大小、冷却、模型大小等——我们可以发现,AI基础设施的发展趋势已不再局限于部署仅配备2到8个GPU的节点来完成任务。我们预测,它将更多地转向集群级别的部署。这正是AI发展的完整方向,因为它正逐步向集群级别的部署转变。
在此过程中,有几个关键因素变得尤为重要。我们必须开始关注网络设计和连接方式,因为GPU、FPGA或专用加速器等计算单元非常强大。它们就像是一个巨大的计算器,而这个计算器的运行效率取决于我们如何快速地输入数据。如果数据无法迅速传输到计算单元,那么这个计算器将变得毫无意义。因此,为了使这些计算单元高效运行,我们必须认真考虑网络设计。我们需要考虑如何连接存储,数据的位置,以及我们如何迅速地将数据传输到计算单元中并解决问题。
另一个关键点是,考虑到我们所看到的功率和每个机架的功率密度,以及AI领域的趋势变化,我认为到2025年,我们应该考虑或部署每个机架功率在70到100千瓦的数据中心。尽管我可能会存在20%到30%的误差,但我们必须从机架级别和数据中心级别的电力预算出发,深入思考未来几年内这一特定领域的所有增长趋势。
此外,我们注意到,所有这些生成式AI应用程序的部署规模已远超过我之前的预测——它们不再局限于单个节点,而是扩展到64到1000倍的GPU部署。这对数据中心产生了巨大的影响。我们不能再像过去那样,先设计一个节点或基础设施,然后再考虑如何部署。相反,我们需要与数据中心人员进行深入的沟通,了解他们的需求,并基于这些需求进行构建。这是一种自上而下的方法,而不是简单地将GPU组装成一个节点然后说:“好吧,我来解决你的生成式AI问题。”我们必须开始考虑数据中心的位置,与所有数据中心人员和托管服务人员进行交流,告诉他们我们所看到的趋势,并询问他们:“你们现在能否开始规划电力、冷却等问题?”然后基于这些反馈来构建我们的基础设施。
从趋势的角度来看,这就是我们所观察到的。希望这些信息能帮助大家更好地理解AI计算的发展趋势、加速器领域的变化、基础设施级别以及数据中心级别的状况。
-----
观众:面对所有这些趋势和专业化,您是否观察到针对推理、训练等不同AI阶段的特定设计?因为现在看起来,它似乎还是一种“一刀切”的解决方案。至少在网络和存储方面,我没有看到明显的专业化,就是无论你设计什么,这些元素似乎都是通用的。您是否看到了AI不同阶段之间的分层?
是的,从我们的观察来看,无论是从推理还是训练的角度来看,我们都需要开始考虑规模化问题。规模化可以基于TCO的考量、特定的兴趣所在,或者我们试图实现的不同关键绩效指标。举个例子,如果我们看推理,关键绩效指标纯粹是延迟限制,而如果在边缘站点部署一个推理服务器,处理毫秒级延迟的交易,那么这个推理解决方案将与为秒级KPI设计的方案完全不同。然而,当涉及到吞吐量时,情况则完全不同。例如,从近边缘到远边缘的网络应用可能涉及低速传输和数据供给,这与数据中心内的情况完全不同。对于非常大的推理任务,计算方式可能类似于用于训练的方式。然而,当涉及到训练时,就需要考虑到诸如集群设置和方法论等因素。我们观察到的关键点之一是,这不仅仅是计算能力的问题,还涉及网络如何连接以及如何在训练期间管理诸如检查点写入、保存和其他方面的任务。这是至关重要的,因为需要在节点级别规划故障处理:如果一个节点失败了会发生什么?检查点如何保存?如何恢复和继续训练?这些都是我们观察到的趋势。
观众:超大规模运算平台与普通希望进行一些AI和机器学习的公司之间存在很大差异。
从计算的角度来看,这将涉及到,例如,从PCI CEM类型的GPU到更专业定制的基于SXM类型的节点。在这种情况下,PCI类型的GPU尤为重要。这是因为可以在它们上运行个别用户或虚拟机,并且它们可能足够强大。如果它们处于稍高功率范围,比如300到600瓦,它们可能足以处理特定的训练运行或推理任务。
观众:确实,我们观察到的是,特别是在存储方面没有明显的区分;人们只是使用存储本身。
观众:当您提到布局设计中的布线成为核心时,您是否看到了数据中心内部和数据中心间使用的多层布线?这些被视为一个通用的、多功能操作的统一布线,还是被视为需要彼此之间互操作性的离散的布线?
起初,我会说它更多是作为离散的方式开始的,每一层并没有真正考虑到与其连接的其他层。但随着所有大规模语言模型的训练和推理需求的增长,情况迅速发生了变化。现在,理解数据中心内部和数据中心间PCI布线如何运行变得至关重要,包括跨层级的对等GPU链接和扩展时的同步。这种演变发生得很快。现在,有各种行业努力旨在促进这些层级之间的通信。我们预见,可扩展性将成为一个决定性因素,影响在单一域内有效集成和同步多个GPU的能力。最终,像InfiniBand或以太网这样的大规模布线可能是必要的。这种通信的有效性将至关重要。
观众:到目前为止,互操作性主要集中在解决如何将所有这些GPU有效集成在一起的当前挑战上。一旦我们解决了这个问题,接下来将出现下一组问题:如何使这些多组GPU有效地通信?
这涉及到从扩展到规模化的过程。如果我们能够在这些系统之间实现高效的通信,我们可以将集群规模扩展到我们需要的任何级别,并开始有效地训练模型。这种可扩展性至关重要。它涉及到各种通信库以及这些库在布线和框架层面的交互方式。多个利益相关者正在进入这个领域,以解决这些挑战。
观众:从经济性上讲,目前训练是世界上唯一的计算资源限制的应用。我们离资源限制还有很远。另一方面,推理主要是内存限制。推理需要变得无处不在,因为必须有人为所有这些发展买单。老实说,有人必须开始向人们收费以填补万亿美元的空缺,因为谷歌和微软不会永远为此买单;他们会向我们收费。通过销售产品或其他方式,推理必须变得如此普及,以至于推理的价格必须被推到接近零的水平。我的意思是,您难道不担心它的成本,以便让每个人为这些工作的巨大成本付费吗?训练很可能永远不会这样,因为它非常专业化。如果您购买用于训练的机器,您不能很好地用于其他用途。您可以使用它,但效果不佳。我们会被推动到完全不同的推理机器吗?现在我们不会,因为我们还处于初级阶段。但人们不会意识到,我花了4万美元买了一个GPU,而我的所有推理可以在一个只需19美元但具有大量内存带宽的设备上运行吗?我们会看到低能力处理器的内存带宽成本被推向零吗?内存带宽会变得免费吗?几乎必须如此,才能使其如我们所说的那样普及开来,以支付所有这些成本。现在,我们正在经历这些成长的痛苦,从一个Pod到另一个Pod的定制是常态。我们现在在实验室里有这样的情况,但对我们来说,推理很可能会是一个完全不同的设备,或者说您购买的只是具有大量内存带宽的简单核心,以便它们可以预测下一个单词或者执行其他任务。
我同意您提出的许多观点。我对推理部分的看法是,会有超大规模和GPU云提供商提供LLM服务,他们可能考虑到不同的TCO,因为他们仍然可以收费并实现盈利。但也会有一些情况,我们需要使推理非常便宜,或者干脆不支付推理费用。对于CPU,每个人仍然需要在某种形式上使用CPU。如何确定这些CPU是否变得几乎免费,就像我可以用那个CPU做其他事情,甚至是我的IT工作负载。你说得完全正确。这正是我们看到的,因为在某个时刻,我们必须对其进行货币化。如果这种货币化没有发生,那么我们所有关于LLM增长和模型大小的预测都会落空。
题目:Technical Trends in AI Infrastructure for Developers
演讲者:Bhavesh Patel, Dell Technologies
会议:Regional SDC Austin 2024
日期:Monday, June 24, 2024
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)