查看原文
其他

运用CXL技术,突破“内存墙”(Astera)

常华Andy Andy730
2025-01-01
  • 题目:Breaking Through the Memory Wall with CXL

  • 演讲者

    • Ahmed Medhioub, Product Line Manager, Astera Labs

  • 会议:SNIA Compute, Memory, and Storage Summit

  • 日期:2024年5月21日

从幻灯片左下角的图中可以看出,过去20年来,计算性能显著提升,大约每两年增长3倍,而内存性能的增长率却仅为每两年1.6倍。这种内存性能可扩展性的局限导致了所谓的“内存墙”问题。此外,不同内存层级之间存在着明显的延迟差异。多年来,业界一直在尝试通过专门的系统配置和部署来解决这一问题。例如,围绕内存性能构建的持久性内存应用和SLA在尝试扩展时,面临着软件栈集成的复杂性。

可以CXL技术直接应对这一挑战。CXL是一种高速、大容量的协议,专为高性能数据中心计算机设计,用于CPU到设备或CPU到内存的连接。它建立在PCI物理和电气接口的基础上,包含基于PCI的块I/O协议CXL.io,以及用于访问系统内存的新型缓存一致性协议CXL.cache和设备内存的CXL.mem。

幻灯片右下角的图展示了一个12通道架构,其中包含8个本地DIMM和4个通过两个Leo内存控制器或控制芯片连接在我们x16插卡上的CXL扩展DIMM,运行在DRAM 5600MT/s速度下。这不仅增加了系统50%的容量,还在负载下减少了整体25%的延迟。使用标准DIMM使超大规模数据中心运营商能够拥有灵活的供应链并控制成本结构。我们还与生态系统合作伙伴紧密合作,以确保能够无缝扩展现有和新应用的内存。一个典型的例子就是我们与英特尔第五代至强处理器共同实现的硬件交叉模式。硬件交叉模式是一种设置,它将系统中的所有内存分组为一个单一的池。

CXL扩展带来的显著影响主要体现在两大应用场景:标准SQL数据库和由AI驱动的新兴应用。对于标准SQL数据库,CXL可以显著提升洞察时间、改进计算性能并树立行业基准。右侧图片展示了CXL如何助力向量数据库缓存,使生成式AI能够采用混合方法进行语义缓存,以补充数据模型。

在在线事务处理(OLTP)和在线分析处理(OLAP)场景中,我们对左侧的OLTP SQL数据库进行了加速测试,结果表明每秒事务处理量(TPS)提升了150%,CPU利用率提高了约15%。左下图展示了测试配置。灰色部分代表仅使用128GB本地DRAM的基准情况,而蓝色部分则代表在128GB本地DRAM的基础上额外增加了128GB CXL连接内存。该配置模拟了Percona Lab基准测试环境,使用约1000个客户端来测量峰值性能并比较不同配置之间的差异。

在右侧的OLAP案例中,使用略微不同的配置进行了TPC-H测试。本地DRAM容量为512GB。在蓝色部分中,增加了512GB DRAM和256GB CXL连接内存,并采用了先前描述的硬件交叉模式。在某些情况下,将查询时间缩短了一半。

CXL技术拥有广泛的应用场景,这里展示了一些示例。最左侧的RecSys是AI缓存模拟器,广泛应用于语义搜索和推荐引擎领域。它展示了不同场景下计算机视觉系统的相对性能,并使用了先前幻灯片中描述的硬件交叉模式。简而言之,这是一个多维模型,其中缓存的场景共享成员资格和语义类别,例如山脉、森林或街道。缓存服务使模型能够以更高效的内存带宽调用图像。此外,CXL技术还可显著提升高性能计算(HPC)应用的性能,例如CFD和EDA基准测试,性能提升幅度可达50%。

那么,在服务器基础设施中是如何实现的呢?用于这类应用程序的典型架构(如左侧所示)通常使用约48个DIMM,通过两个独立的双插槽系统来为内存数据库提供服务。但是,这种架构存在过度配置超出实际需求部件的问题,例如额外的CPU、背板、驱动器和电源。相比之下,采用双插槽CXL盒子可以更有效地利用资源。该盒子包含8个16GB或A1000内存扩展插卡,每个通道配置2个DIMM,总共可容纳56个DIMM。这样做的好处是可以在不添加第二台服务器的情况下增加更多DIMM。

这是节点架构的更详细示意图。左下方的密度优化主机处理理器模块(M-DNO,Density Optimized HPM)架构主机处理器模块展示了与超大规模数据中心合作的情况,采用了基于SFF-TA-1033 SNIA规范的新型MX连接器。该连接器允许将具有CXL连接的主板构建为高密度节点。卡和DIMM的可维护性得到了显著提升,无需将整个单元从机架中拔出,只需移除模块即可。

这些类型的解决方案在x16 Leo解决方案中得到了成功应用,无论采用单通道还是双通道配置,都能有效扩展内存带宽,同时保持低延迟。

对于需要在CPU和扩展板之间保持一定距离的设计,基于SNIA定义的SFF-TA-1016规范的MXIO线缆提供了一种更灵活的解决方案,同时解决了可用性问题。线缆的紧凑设计使得在无需拔出模块的情况下,就能为移除模块提供额外的延伸和空间。例如,在更换DIMM时,这种线缆解决方案也适用于顶部安装的模块,如托盘模块。

然而,对于那些不希望进行布线的用户来说,还存在其他选择。例如,由SNIA SFF-TA-1033定义的边缘连接器提供了一种漂亮的解决方案,特别适用于刀片架构设计。这种连接器能够承受频繁插拔的压力,并且便于测试和维护。对于系统构建者而言,这种连接方式在设计可插拔共面模块时提供了丰富的选择。值得一提的是,用于解锁内存扩展的模块上的芯片能够与各种设计良好地融合,无论面临何种挑战。

在构建这种内存密集计算基础设施时,我们确实遇到了多项硬件挑战。例如,并非所有系统都能容纳双宽卡,通常在插槽中可放置的插槽数量有限。值得关注的是,OCP社区正朝着直接解决这些挑战的标准系统架构方向努力。数据中心模块化硬件系统(DC-MHS),例如幻灯片右上方展示的OCP参考平台,采用了基于M-DNO部分宽度密度优化平台模块的主板设计,为像幻灯片右上角所示的8个模块这样的扩展卡分配了更多空间。这种共享基础设施允许处理加速器和内存扩展共存且可互换。然而,这种设计也面临着许多挑战,包括信号完整性、链路分流和配置(例如1 x16到2 x8到4 x4等)、诊断和监控、性能和延迟等问题。

我们推出了一套全面的解决方案,旨在简化大规模内存扩展架构的部署。为了全面展示这套CXL解决方案组合,我们将首先在幻灯片的左侧展示最常见的应用场景:通过SFF-TA-102刀片或SFF-TA-1033直接连接CPU的CXL内存扩展案例。此外,我们还提供了一种适用于短距离CXL连接内存的解决方案,通常与SFF-TA-1013等解决方案配合使用,具体取决于扩展模块相对于主板的位置以及连接通道的损耗。这对于解锁背板和JBOM设计至关重要。今年早些时候,我们推出了新的retimer智能线缆模块,能够支持长达7米的活性铜PCI和CXL连接,为实现节点到节点和机架到机架的共享和汇集内存连接等新型架构提供了可能性。

一个自然的问题是,在短距离和长距离链路中添加Retimer会对延迟和性能产生怎样的影响。根据我们内部测试的结果,即使在链路中添加了两个Retimer,整体延迟的影响也非常小,不到10%。图表底部描述的配置是我们测试中使用的常见配置之一,其中包括一台搭载第五代至强处理器的英特尔主机,以DDR5 5600速率运行CXL连接内存卡上的Memory Latency Checker。这是一个用于测量我们描述的三种配置的延迟的基准测试。

实现CXL大规模部署的确需要整个生态系统的共同努力。从一开始,我们就与内存供应商、CPU供应商、操作系统供应商以及行业其他合作伙伴密切合作,并持续进行协作,以确保CXL内存能够在所有部署堆栈中得到正确识别、管理并进行适当调整和配置以获得最佳性能。DIMM的互操作性、稳定性和性能始终是我们关注的核心。我们在云规模互操作性实验室中进行了多次公告和报告,涵盖了各种类型的DIMM、容量和速度。我们将继续与硬件和软件合作伙伴合作,实现更多功能。

正如我之前提到的,我们的云规模互操作性计划涉及对我们的设备进行各种测试,包括PCI电气、协议、配置和合规性测试,以及系统和内存测试、DDR流量和压力测试,以及额外的安全性和RAS案例。我们测试了来自生态系统合作伙伴和客户的各种设备,包括主机和内存。这些报告可以通过我们的客户门户获取。


--【本文完】---

近期受欢迎的文章:

  1. NVIDIA:如何构建世界级的AI Factory

  2. HPC-AI市场报告:预计2024年市场将非常强劲

  3. 内存技术引领计算架构重大变革

  4. AI存储需求(SNIA CMSS峰会)

  5. IEEE发布:存储介质技术路线图



更多交流,可添加本人微信

(请附姓名/单位/关注领域)


继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存