Meta:大规模AI基础设施
Meta
我先带大家领略一下Meta的庞大规模,因为我们正不断高速发展。我们的社区已经覆盖了广泛的产品和应用程序家族。每月服务的用户数量几乎占全球人口的一半。随着我们逐步迈入元宇宙,如今已有超过7.5亿用户在我们的平台上体验AR技术。这些互动是动态且全球化的,背后需要庞大的基础设施作为支撑。我们拥有超过14个活跃的数据中心区域,占地面积超过2000万平方英尺,并且全部采用100%可再生能源供电。
显而易见的是,我们的整个基础设施正逐渐以AI为核心。可以说,AI已成为我们所有工作的核心驱动力。尤为突出的是,AI在内容理解方面发挥着至关重要的作用。例如,它能在内容推送给用户之前,检测和消除95%的不良内容。仅在第二季度,我们的AI系统就删除了近2.5亿条违反平台安全性的内容,这一数字仅涵盖Facebook和Instagram平台。内容理解依赖于多个模型的协同工作,包括计算机视觉、自然语言处理等。此外,我们还利用AI为用户在Facebook信息流中推荐15%的内容。每天,我们在Facebook和Instagram上进行超过250亿次的翻译。可能最引人注目的数据是,我们每秒在平台上进行9000万次模型预测,特别是在Instagram的探索页面上。
在模型方面,我们曾公开分享过深度学习推荐模型或个性化模型DLRM。这些模型体量庞大,参数数量高达数十万亿级别,对计算能力的需求极为庞大。因此,DLRM以独特的方式对我们的基础设施提出了严峻的挑战。通过对比这两幅图,一幅描述了模型的大小,另一幅则揭示了训练这些模型所需的计算量。尽管我们的模型在全球范围内属于领先水平,但在计算资源需求方面,它们并非最消耗资源的,尤其是DLRM。
实际上,这主要是因为我们在庞大的嵌入表(Embedding Tables)中保存了连续和分类数据特征。对于这类推荐和个性化模型,我们采用了模型并行和数据并行的混合训练策略。在构建全球最大规模的AI系统集群时,我们必须高度重视计算、网络和内存带宽之间的平衡。
AI一直是Meta的重点投资领域,我们始终致力于构建业界领先的AI计算平台。今天,我很高兴地宣布我们AI家族的新成员——Grand Teton,作为Zion系统的升级版。Grand Teton是Meta的下一代AI平台,相比Zion EX,它得到了全面的升级和优化,以支持更加多样化的工作负载。
无论是网络和内存密集型的工作负载(如DLRM),还是计算密集型的工作负载(如内容理解),Grand Teton都能轻松应对。我们通过提升内存容量、网络带宽以及扩展计算范围,实现了这一突破。具体来说,Grand Teton的内存容量扩大了四倍,能够存储和运行更大规模的模型;网络带宽提升了两倍,使得集群的扩展更加灵活。这些改进为支持参数更多、复杂度更高的下一代模型提供了强有力的保障。
与以往的AI平台代际不同,Grand Teton是一个完全集成的单体系统设计,包括电源、计算结构接口和控制。这种高度的集成化极大地简化了系统的部署、安装和配置,同时也降低了未来潜在的故障点。Grand Teton提供的快速扩展、增强的性能和可靠性。
随着这款最新AI平台的推出,我们认为现在是重新思考机架设计的最佳时机。我们需要更高的功率、更强的散热能力。ORv2已经为我们服务了将近十年,但随着这些高功率平台的发布,以及未来可能需要的液冷技术,我们需要重新构想未来的机架设计。因此,我非常高兴地宣布我们第三代开放机架——ORv3。
ORv3提供了很大的灵活性。采用48伏特电源系统,能满足更大的功率和总功率需求,同时应对功率瞬变。既可以支持开放式U,也可以支持19RU设备。随着机架功率需求的增长,我们可以通过支持多样化的冷却方案来确保未来的适应性,从而确保这一设计的未来的适应性。另外值得一提的是,我们将单个电源架构的总部件数量从160减少到了14。
我们也对AI、加速器和通用计算的路线图保持关注,它们正不断突破性能极限。此外,在单插槽电源供应方面,目前我们已经达到每个插槽功耗400至700瓦,并且在短期内有着明确的路径达到1000瓦特。随着功率的增加,瞬态现象也随之增多。Grand Teton设计和ORv3机架可以支持高达300%的瞬态功率。模块化的电源架构设计还可以添加额外的电源架,以支持机架上几乎任何位置的高峰值功率负载。
然而,我们也深知,随着功率的提升,热管理问题也变得更加复杂。ORv3已经设计得能够适应多种未来的冷却模式,包括短期的空气辅助液冷和设备电源冷却。从这张图表中,通过设施水冷却,我们可以轻松管理每个插槽高达1000瓦的功率,这应该能够满足一段时间的需求。这是我们可以与社区共同努力的领域,共同制定液冷标准,包括连接器和标准化温度,这将极大地促进整个社区的发展。
与Grand Teton一样,我们很乐意在展台上展示这一最新家族成员,并且我们计划在未来几个月内向OCP贡献新的ORv3机架设计。今年OCP“赋能开放”的主题在Meta得到了深度认同,这不仅适用于硬件,也适用于软件。我们始终站在赋能PyTorch开放社区的前沿。PyTorch是我们Meta内部使用的AI语言,现在它越来越成为更广泛社区的AI语言。
除了在技术治理方面取得的进展外,上个月我们与AMD、AWS、Google、Microsoft和Nvidia共同将PyTorch转移到PyTorch基金会,并组建了其治理委员会。我们的首要目标之一就是提升开发者的效率。我们坚信软件定义的硬件,并相信从模型通过PyTorch堆栈到编译器,再到系统和芯片本身的紧密硬件/软件共同设计,将使我们能够设计出最精简的整体系统设计和性能,这将是未来推动AI发展所必需的。
接下来我们将关注什么?众所周知,Meta多年来一直在推动网络技术的进步——Wedge、Six Pack、Minipack、Optics等。但事实是,网络和内存带宽仍然滞后于计算的发展。我们面临的挑战之一是,在芯片层面上,互连技术并没有以与现代系统中计算相同的步伐前进。商业GPU、CPU甚至领域特定的加速器都倾向于专注于具有相对适中的网络和带宽的重度计算。
实际上,我们分享的关于DLRM模型的内容与我们工作负载的实际需求并不完全匹配。尽管在现代HBM架构和CXL内存扩展技术方面取得了重要进展,来提升内存端的速度和容量,但在内存和网络方面仍存在一定的差距。
这是一个关于网络延迟的例子,它指的是计算资源在等待数据在芯片间传输时处于空闲状态的时间。从这些数据中,我们可以看出这些延迟数值是相当显著的。在展示的四个实际基准模型中,M2模型的网络延迟超过了50%。
我们训练周期的独特之处在于,由于需要访问大量的嵌入表(Embedding Tables),因此网络I/O的占比相对较大。这主要是因为我们进行了大量的模型并行计算、全对全通信,以及加速器之间所需的极高带宽,甚至超过了传统HPC系统的要求。
目前,我们面临着对极高注入(injection)带宽和极高双向(bisectional)带宽的双重需求。为了更好地理解这一背景,我们先来回顾一下AI训练集群的构成。
首先,这些DLRM或个性化模型是在大量数据上进行训练的,这些数据主要对应各种应用中非结构化和未标记的交互。典型的数据集大小在PB级别。为此,我们需要分布式存储,我们使用的是Tectonic文件系统。
然后,我们将存储和缓存通过数据网络连接,而计算集群则通过高性能计算网络相互连接。请注意,双向带宽是我们面临的主要挑战。这正是导致网络延迟的原因。
我展示的是Meta未来训练集群的一个设想场景。这些训练集群最多可包含4000个加速器,我们坚信在不久的将来,每个加速器所需的计算网络带宽将高达1TB/s。与当前的网络相比,这增长了一个数量级以上。除了单纯增加带宽外,我们还需要在高负载下具有可预测行为的高性能非阻塞网络结构,以及具备现代拥塞控制能力的系统。
最后一个特别严峻且挑战领域是IO本身。在我们追求的带宽和规模下,功率是一个关键的约束条件。在数据中心或集群中,我们的功率预算是有限的。当从200Gb/s传输升级到1.2Tb/s传输时,网络和光学器件所消耗的实际功率相对于计算来说增长得更为迅速。
为了应对这一挑战,我们可以采取的一个方法是全面采用整个行业内的现代技术,推动光学I/O和共封装光学的发展。这将是行业的一次飞跃,因此我们必须将其纳入我们的视野范围,密切关注。我们需要思考的是如何将精益设计实践融入实际系统设计,融入我们在平台上、数据中心中部署的每一个元素,并从整个互连互通的视角出发,消除系统中的任何浪费。
在这一背景下,为在集群间移动数据而供应的功率成为一个自然而然的考虑因素。作为一个社区,我们持续共同取得显著的进步,推动创新的边界,但我们也面临一些非常重大和重要的挑战。克服这些挑战的一个方法是更加专注于硬件和软件的共同设计,这对我们实际突破下一个障碍至关重要。
我们还需要共同努力解决带宽问题,无论是内存还是网络,并在系统中实现负载均衡。最后,我们可以作为一个社区就未来数据中心的液冷策略达成共识。OCP在我们推向市场的未来系统设计中将发挥至关重要的作用,它正在全面推动创新的加速。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)