查看原文
其他

打造基于DPU加速的PB级存储解决方案

常华Andy Andy730
2025-01-01
  • 题目:A Next-Gen DPU-Accelerated Petabyte-Scale Storage Solution to Build Future Data-Centric Datacenters

  • 演讲者

    • Jungsoo Kim, Principal Systems Architect,Samsung

    • Dongup Kwon, CTO and Co-Founder,Mangoboost

  • 时间:2023年10月17-19日(OCP Global Summit 2023)

Jungsoo Kim (Samsung) 

今天,我将为大家简要介绍PB级存储系统及其面临的挑战。我们正研究一种更高效、更可靠的超高密度存储策略,并与Mangoboost合作,测试基于DPU的新平台。

我们称PB级存储系统为PBSS(Petabyte-scale Storage System)。在当下,超高密度和精准存储系统已成为一大趋势,相关新闻层出不穷。之所以称其为PB级存储,是因为单一系统能够轻松容纳超过PB级别的多块SSD设备。我们主要面向数据中心集群和存储系统,PBSS在我们的数据系统中扮演着SSD的角色,而数据中心本身则类似于一台大型计算机。

这是我们开发的首款PBSS,提供了四种不同配置,以满足不同应用需求。

  • 第一种系统可容纳32个32TB SSD,每个机箱提供1PB的容量。
  • 第二种系统针对高性能高密度场景,中间配备U.2 SSD,满足某些文件系统对更快、更低延迟的元数据存储和缓冲空间的需求。

  • 第三种系统针对高性能应用,如数据库,每个驱动器支持x4 PCIe通道,以提供最佳性能。
  • 第四种系统则针对新型设备如CXL设备,系统可容纳四个E3.S 2T设备,支持CXL设备安装。

在这种超高密度系统下,我们面临的主要挑战和解决方案集中在五个方面:功耗、总拥有成本(TCO)、可靠性、性能和数据保护。
  • 在功耗方面,使用EDSFF E3驱动器和Gen5驱动器时,典型功耗超过21瓦。若在单一系统中安装32个21瓦的驱动器,其功耗将占据系统总功耗的50%以上。因此,我们正在研究降低功耗和优化TCO的技术。
  • 在TCO方面,除了驱动器,控制器也需要高性能且昂贵的CPU来处理工作负载,我们正在寻找新平台以降低数据中心的OpEx和CapEx。
  • 在可靠性、性能和数据保护方面,以RAID为例,假设有32TB设备,需要某种保护机制,因为重建工作既耗时又消耗大量资源。这是我们正在研究的领域,目前正探索一些解决方案,包括功率管理解决方案以管理超高密度存储系统的SSD功率,以及高效存储设备的新存储平台和更好的数据保护方法。

在平台方面,DPU是一个关键领域,这也是我们与Mangoboost合作测试PB级系统高效处理方法的原因之一。

Dongup Kwon (Mangoboost)

DPU的核心理念是将基础设施管理任务卸载并加速到服务器中的新组件上,以非常透明的方式进行。我们的团队在计算机架构和计算机系统工程领域拥有超过十年的丰富经验。我们在设计专用DPU架构方面有着深厚的积累,已经制作了多个原型,并将研究成果发表在全球顶尖的计算机架构和系统会议上,如ISCA、MICRO和OSDI。我们决定将技术商业化,走出大学研究实验室。

我们的解决方案和商业模式独具特色。我们的首款产品是基于商用FPGA设备的可组合DPU架构。可能有人对DPU领域的可组合性有所疑问。虽然Pensando和NVIDIA BlueField等知名品牌广为人知,但DPU的可组合性或许还是个新鲜词汇。我们拥有众多涵盖不同领域的硬件加速IP。我们深入了解客户和合作伙伴的需求,明确他们的目标规格和关键应用,然后设计客户驱动的DPU架构,以满足其特定的基础设施和环境需求。

通过将一些硬件IP组合到单个FPGA产品中,我们提供可组合的DPU解决方案。这些解决方案可以是AI优化的DPU、存储优化的DPU或网络优化的DPU,它们具有不同的硬件加速IP子集。我们在FPGA上实现了这些架构,并提供完整的软件支持。这也是我们与三星合作开展这个项目的方式。

现在,让我们进入PB级存储解决方案和系统的详细讨论。

当与三星开始这个项目时,我深感惊讶,因为单个服务器和单个机箱能够容纳16个高端SSD,理论上性能可达到惊人的4000万IOPS。

我们从这个起点出发,研究如何实现这些理想的数字,发现问题并不在于存储设备本身,PBSS技术非常先进,但传统的主机和CPU中心架构无法充分利用高端SSD和PB级SSD的性能。

为了充分利用PB级SSD的性能,我们需要通过高带宽网络结构将多个客户端连接起来,并在客户端和服务器上运行专门的存储基础设施管理软件。举例来说,我们需要为主机应用程序提供一个NVMe设备视图,并使用NVMe over Fabrics协议来访问实际分散的NVMe设备。这个协议通常运行在网络传输层上,如TCP/IP、RoCEv2或InfiniBand。在存储服务器端,情况也类似。传统设计非常耗费资源,特别是主机CPU核心。这正是性能无法达到理想状态的原因,因为CPU端存在瓶颈。如今,这被称为“数据中心税”或“存储税”,意味着你需要支付宝贵的资源,如主机CPU核心,或在数据中心中花费大量资金购买高端SSD。

因此,在这个项目中,我们首要关注的是DPU上的NVMe over TCP加速。我们的解决方案不依赖于FPGA板上的小型嵌入式处理器,主要的数据路径和数据处理都在我们的定制架构上进行了加速。我们提供了抽象层,隐藏了所有复杂性,用户将我们的DPU视为标准的本地NVMe设备。但在DPU内部,这将被转换为NVMe over Fabrics上下文,客户端和服务器之间的消息通过我们的TCP/IP卸载引擎进行封装或解封装。我们的产品实现于FPGA芯片上,因此我们也提供了一些定制化解决方案。

我们从多个来源收到了反馈,他们总是强调这项技术必须非常易于在现实世界中使用。这就是为什么我们选择TCP/IP作为底层网络传输层,因为它历史悠久,人们已经熟悉,并且它是一个标准,拥有多个厂商的网络交换机等完善的生态系统。使用我们的解决方案,用户无需学习新的配置机制,也无需购买新的网络交换机或网线。

我们的最终设计目标是实现高性能和高可扩展性,同时保持TCP/IP栈的标准化和灵活性。这是我们用于案例研究的评估设置,我们安装了两块Xilinx U55C板,每块板有两个100Gb网络端口,总带宽达到400Gbps。在客户端,我们每台服务器安装了一块U55C卡,最高可达200Gbps。我们在客户端卸载了TCP/IP和NVMe栈,在服务器端仅卸载了TCP/IP栈。

首先,我们测量了随着SSD数量增加的读写性能。软件NVMe over TCP基线无法实现可扩展的吞吐量,性能被限制在200Gbps,即使完全利用了32个AMD CPU核心。然而,通过我们的技术,PBSS可以实现约400Gbps的性能。我们相信,通过增加更多的PCI通道、更高的PCI代数以及更多的DPU卡,我们能够将当前性能提升至理想的1.6Tbps。因此,我们得出的结论是,最终需要DPU以及一些硬件加速解决方案,因为当前的CPU核心无法有效处理超过100Gbps的现代存储栈。

这张幻灯片总结了性能和主机CPU效率。我们的DPU增强解决方案可以提供全双工性能,即每方向400Gbps,总带宽高达800Gbps。同时,通过将TCP/IP栈卸载到硬件,我们的DPU可以节省大量的CPU核心,大约可以节省15个核心。通过将NVMe目标卸载IP集成到我们的DPU解决方案中,最终可以节省所有剩余的核心。

这是我们对TCO分析的初步结果,我们构建了一个自定义模型来预测TCO的减少,发现我们的DPU在当前规格下可以将TCO降低多达20%。这主要得益于两个因素:一是我们的DPU提高了每台服务器的性能,因此用户可以用更少的服务器满足其需求;二是由于减少了CPU利用率,DPU增强的PBSS每台服务器的功耗更低。

在客户端,我们也在这些服务器上应用了NVMe initiator卸载功能。接下来,让我们深入探讨一下客户端方面的情况。

这张幻灯片总结了客户端的性能和主机CPU效率。DPU增强的服务器在吞吐量方面远超软件基线,并且减少了超过10个CPU核心的利用率,但我们仍然需要一些核心用于运行用户应用程序。在这个案例中,Fio就是用户应用程序。因此,根据用户的目标应用程序,我们可以节省更多的CPU核心,用于其它数据处理或进一步降低服务器的TCO。

这是一个十分出色的用户案例。我们的一个客户案例展示了在单个计算服务器中,通过增加GPU数量,我们显著提升了AI性能。在MLPerf基准测试中,对于这一远程存储配置的存储基准测试结果,灰色区域代表了软件基线,因为它需要大量的CPU核心来为GPU提供数据。由于CPU瓶颈,许多加速器和GPU的性能在大约40个样本/秒时便达到饱和。通过一些软件优化措施,性能得到了提升。观察中间的圆圈,你会发现WEKA的提交表现优于NVMe over TCP的软件基线。而右侧的黄色圆圈则展示了我们的成果,我们成功释放了CPU资源,使得服务器能够容纳更多的GPU,最终我们的性能超越了软件实现。总结来说,Mangoboost的DPU能够显著提升每台服务器的性能,这对于提高AI工作负载大规模基础设施的成本效益具有重要意义。

总结一下,我们简要回顾了与三星和Mangoboost的合作成果,并展望了未来的工作计划。我们将进一步整合其它软件功能,如RAID、数据压缩或数据保护功能到我们的DPU解决方案中。此外,我们还计划在我们的DPU中集成一些系统级电源管理解决方案。


--【本文完】---

近期受欢迎的文章:

  1. Intel IPU E2100 DPU 正式发布

  2. DPU/SmartNIC厂商及其产品线综述(2022年)

  3. 【一文】DPU的应用场景

  4. 解析DPU:提升数据中心效率、降低TCO

  5. DPFS: 基于DPU的文件系统虚拟化(论文+PPT)



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存