Google支持DAOS成为HPC/AI高性能存储方案
Source:Barak Epstein, Dean Hildebrand, Google supports launch of DAOS Foundation, for next-generation HPC and AI storage, November 10, 2023
今天,我们非常荣幸地宣布Google Cloud成为由Linux Foundation发起的DAOS基金会的创始成员。DAOS基金会是我们与合作伙伴共同创建的,旨在加速对世界纪录开源DAOS存储栈的投资和发展,该存储栈支持下一代高性能计算和人工智能/机器学习工作负载。
吞吐量、I/O和元数据操作性能方面的显著提升 更易于集成容器/Kubernetes
增加了架构灵活性和减少了基础设施开销(消除了对元数据服务器的依赖)
在即将部署在Argonne国家实验室的项目中,DAOS旨在提供超过25TB/s的HPC吞吐量,展示了DAOS对科学计算领域产生的重大价值。
我们最近推出了Parallelstore,这是一种基于DAOS的临时存储服务,相较于竞争对手的Lustre临时存储提供高达6.3倍的带宽。
大型语言模型(LLM)和HPC对IOPS、带宽、MDOPS(Metadata Operations Per Second)和超低延迟的要求很高。对基于大型数据集进行的AI/ML训练的客户需求需要进行低延迟操作的小文件,这与DAOS的性能特征和架构非常契合。
“Google很高兴成为DAOS基金会的创始成员之一,”Google存储副总裁/总经理Sameet Agarwal表示。“这一行业领先的架构是我们新存储服务Parallelstore的基础,我们很兴奋地推动在云端加速HPC和AI/ML工作负载的增长。”
DAOS基金会将作为Linux Foundation项目建立,为共享治理和在开源社区中持续投资提供结构。各公司之间的合作非常密切,Google Cloud很高兴能够继续这项投资。
DAOS性能超越Intel Optane,融入Google Cloud
Source:Rob Farber, DAOS Performance Expands Beyond Intel Optane and Into the Google Cloud, October 17, 2022
分布式异步对象存储(DAOS)在转向云计算并超越当前的Intel Optane存储技术设备的过程中,持续定义高性能存储。例如,在Google Cloud上进行的DAOS工作助力用户在云中充分利用高性能计算的优势。这包括在短短几分钟内创建和释放整个高性能计算集群的灵活性。通过Google的HPC Toolkit,其中包括DAOS,用户得以将他们的本地高性能计算工作负载迁移到Google Cloud上。正如高性能计算用户所熟知的,将众多计算设备紧密连接在一起需要高带宽、低延迟以及每秒高I/O操作。否则,存储就可能成为性能的瓶颈。在Cloud HPC Toolkit中实现DAOS功能成为现实,为用户提供了完全自动化的使用体验。
Andrey Kudryavtsev(Intel Optane产品经理)回忆说:“Google和Intel已经合作了近两年,为HPC工作负载提供了一条便捷的迁移到云端的路径。云服务商对DAOS的存储能力称赞有加,因为它扩展了他们的服务提供,在以太网通信架构上提供了高性能,并且由于其在用户空间运行,容易实现容器化。DAOS自然支持云实例应用场景,即启动存储服务器,执行快速IO,然后将数据迁移到成本较低的存储层次——这也是在本地数据中心中变得越来越普遍的场景。”
当然,Intel在2025年停止开发Intel Optane持久内存(Intel Optane Pmem)引起了很多疑虑,人们开始思考这对DAOS整体方案和性能能力产生了怎样的影响。DAOS在Intel Optane Pmem设备上的运行受到了广泛关注,包括这种软硬件组合如何在存储性能方面创造了新的世界纪录。
Intel团队在放弃Intel Optane Pmem后的规划中包括如何满足客户对于使DAOS云友好,并利用即将推出的新一代多厂商存储技术的需求。Intel团队必须保留DAOS创纪录性能的优势,同时消除Pmem采用的两个关键障碍:(1)购买这些专用设备(以及能够支持它们的CPU)的需求,以及(2)在主板上为每个安装的Pmem设备失去一个DIMM插槽的必要性。这两者对许多人,包括绝大多数云服务商,都构成了无法逾越的障碍。
由Intel团队实施的关键技术进步使得DAOS能够将其元数据存储在DRAM和NVMe SSD上的Write Ahead Log(WAL)中,这类似于日志文件系统的操作,以保留DAOS作为分布式文件系统的优势。Kudryavtsev表示:“WAL赋予了DAOS使用易失性DRAM和NVMe SSD构建持久性元数据存储的能力。通过这种方式,DAOS可以通过同时提交更多操作来实现高水平的并行性,而在PMEM同步模型中是不可能的,因为它会保持CPU直到数据持久化。对于这种新操作的支持仅限于后端存储的管理,不会对已经非常先进的整体DAOS协议、现有API和软件生态系统产生影响。”
Kudryavtsev继续解释:“DAOS的性能优势延伸到分布式环境,因为每个节点都拥有其所属数据的密钥。这使得DAOS实现了完全分布式,消除了单一点的元数据瓶颈,并且为每个数据集提供了节点完全控制元数据更新的能力。”
基于节点和分布式集群的性能已证明成功
在节点和分布式集群性能方面取得的成功证明了DAOS卓越的性能表现。对于许多HPC部署来说,首选的存储方案是Lustre。今年在ISC上,Intel DAOS的演示包括用于AI应用的TensorFlow集成。Intel报告的结果显示,在Cosmoflow应用中将大型AI数据集加载到TensorFlow中时,DAOS的性能优于Lustre。令人振奋的是,DAOS和Tensorflow I/O集成完全在用户空间实现,无需进行内核修改,这对于云服务商和本地数据中心都是一大利好。
在剑桥大学,DAOS已经从剑桥大学开放Zettascale实验室的研究项目转变为在剑桥大学数据驱动发现服务(CSD3)内运行的Cumulus超级计算机上的生产测试平台。在ISC'22上呈现的结果展示了在分布式HPC环境中,DAOS相对于Lustre的优势(请参阅DAOS Momentum Demonstrated with New IO500 Rankings and Community DAOS Traction,https://community.intel.com/t5/Blogs/Products-and-Solutions/HPC/DAOS-Momentum-Demonstrated-with-New-IO500-Rankings-and-Community/post/1389619)。
在Google上运行HPC工作负载的用户将会喜欢使用Google HPC Toolkit轻松启动实例的便捷性。所有HPC组件,包括DAOS,都会自动提供(请参阅Cloud HPC Toolkit,https://cloud.google.com/hpc-toolkit/docs/overview#components)。
Intel的软件工程经理Ivan Poddubnyy指出,这种简单性和自动化反映了Google和Intel合作的成功:“自动化对于Google来说非常重要,突显了他们流水线优势的同时,也凸显了用户易于实施的便利性。Google的应用场景展示了将DAOS成功整合到HPC Toolkit中。简化的DAOS安装使得HPC工作负载能够轻松迁移到云端,并且在本地系统之间进行迁移也变得更加简便。正是通过提供HPC工作负载所需的存储性能,DAOS使得工具包的运行更加顺畅。Google和Intel的合作对双方来说都是明智之举,因为它填补了存储性能差距,即使在基于TCP的云计算环境中也是如此。”
DAOS计划变更
对于那些致力于使用Intel Optane Pmem的用户,Intel仍计划发布下一代Intel Optane Pmem设备,代号为Crows Pass。Intel致力于支持客户和生态系统合作伙伴,并将继续在产品生命周期结束之前为现有内存和存储产品提供支持。该公司还将支持在未来处理器和平台上开发Compute Express Link(CXL),因为他们相信这将是分层内存解决方案的未来和标准。
深入了解DAOS的即将推出的功能。https://www.intel.com/content/www/us/en/high-performance-computing/performance-evolution-of-daos-servers.html DAOS Momentum Demonstrated with New IO500 Rankings and Community DAOS Traction。https://community.intel.com/t5/Blogs/Products-and-Solutions/HPC/DAOS-Momentum-Demonstrated-with-New-IO500-Rankings-and-Community/post/1389619
Intel和Google Cloud宣布Cloud HPC Toolkit。https://www.hpcwire.com/off-the-wire/intel-and-google-cloud-announce-cloud-hpc-toolkit/
ACM SIGARCH文章《持久内存-新的希望》https://www.sigarch.org/persistent-memory-a-new-hope/#undefined
DAOS v2.0-latest:云中的DAOS。https://docs.daos.io/v2.0/cloud/
Google博客:《通过新的Google Cloud HPC Toolkit加速您的高性能计算之旅》https://cloud.google.com/blog/products/compute/new-google-cloud-hpc-toolkit
Intel ISC'22 DAOS演示。https://www.forbes.com/sites/tomcoughlin/2022/07/28/intel-winding-down-its-optane-memory-business/?sh=1c5ed08345b8
福布斯:Intel逐渐结束其Optane Memory业务。https://www.forbes.com/sites/tomcoughlin/2022/07/28/intel-winding-down-its-optane-memory-business/?sh=1c5ed08345b8
福布斯:CXL主导了2022年Flash Memory Summit。https://www.forbes.com/sites/tomcoughlin/2022/08/15/cxl-dominated-the-2022-flash-memory-summit/?sh=17cc34857828
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解