查看原文
其他

AI基础设施再升级:SC24存储厂商技术发布全景

常华Andy Andy730
2025-01-01

在本届2024超算大会(Supercomputing Conference 2024,简称SC24)上,高性能计算、网络、存储与分析领域的最新技术成果备受瞩目。本届会议聚焦于构建全球最先进的计算基础设施,其中存储技术的创新尤为引人关注。

当前,整个IT行业正处于为AI和GenAI重塑基础设施的关键转型期。在这一进程中,数据存储扮演着至关重要的角色。企业若要充分利用AI能力,必须首先建立一套高效、可靠的数据存储与管理系统,确保AI工作负载能够迅速、精准地调用所需数据。

市场数据印证了这一趋势的重要性。根据Precedence Research 7月发布的研究报告,全球AI驱动存储市场预计将从2024年的287亿美元,激增至2033年的2173亿美元,年复合增长率令人瞩目。越来越多企业正在积极寻求更智能、更灵活的数据管理解决方案。

在SC24大会上,业界展示了多样化的高性能存储解决方案。这些硬件系统或直接基于GPU架构,或与GPU服务器密切协同,专为AI数据处理而优化。除硬件创新外,先进的数据管理软件和存储-AI系统连接技术同样引人注目。

面对AI和生成式AI的迅猛发展,存储行业正在经历前所未有的技术革新,其创新步伐前所未有地迅速。

   目录
  1. VDURA Data Platform
  2. Komprise Intelligent Data Management
  3. Supermicro Petascale Storage Server with Nvidia Grace Superchip
  4. Domino Volumes for NetApp ONTAP(DVNO)
  5. Hammerspace Global Data Platform Software v5.1
  6. HPE Cray Supercomputing Storage Systems E2000
  7. Quantum DXi9200
  8. DDN A3I Data Platform
  9. Weka Storage Offering For Nvidia Grace CPU Superchip
  10. Qumulo - Cloud Native Qumulo (CNQ)
  11. Pure Storage GenAI Pod and FlashBlade//S500 with Nvidia DGX SuperPOD certification
  12. Hitachi iQ With HGX
  13. Solidigm D5-P5336 SSD
  14. VAST Data
  15. Dell AI Factory


VDURA Data Platform

VDURA发布了全新数据平台,采用微服务架构、闪存优化的元数据引擎和增强的对象存储层,显著提升了在本地、云端和混合环境中的性能、扩展性和可靠性。引入VeLO Key-value Store,优化小文件和元数据操作,每实例支持高达200万IOPS,并实现全局命名空间内的无限扩展。

架构
  • 微服务化:VDURA Data Platform采用完全并行的微服务架构,简化了跨数千个节点的部署,确保了线性性能可扩展性,并支持无限扩展的全局命名空间。
  • 数据编排:智能数据编排功能可在不同的存储层之间实现最佳数据放置,所有这些都在单个统一的数据和控制平面内进行。
  • 全局命名空间:所有数据和元数据都存在于一个统一的全局命名空间中。
  • 混合存储:VDURA Data Platform支持HDD和SSD混合使用。
VeLO(Velocity Layered Operations):
  • 为位于Director层的Key-value Store,针对闪存进行了优化,用于处理小文件和元数据操作。
  • 每个实例可提供高达200万IOPS。
  • 在同一个全局命名空间内支持无限数量的VeLO实例。
VPOD(Virtualized Protected Object Device):
  • 为构成混合节点中数据存储基础的离散、虚拟化和受保护的存储单元。
  • 在统一的全局命名空间内运行,提供高性能和灵活的可扩展性。
  • 数据通过跨多个VPOD的纠删码进行保护,每个VPOD内还有一个可选的额外纠删码层,可实现高达11个九的持久性。
  • 数据缩减服务可进一步优化效率。
V5000认证平台
  • 模块化存储节点,可以根据用户需求进行配置。
  • 1U Director节点:AMD EPYC 9005处理器、NVIDIA ConnectX-7、Broadcom 200Gb以太网、SAS 4适配器和Phison PCIe NVMe SSD。
  • 混合存储节点:使用与Director节点相同的服务器架构,并与运行VPOD的4U JBOD配对,提供经济高效的大容量存储。
未来发展
  • 2025年上半年:云版本,将数据平台扩展到公有云环境,以实现云上和混合部署。
  • 2025年下半年:全闪存平台,旨在通过使用闪存技术来满足AI和HPC环境对超高IOPS的需求。
  • 2025年夏季:支持GPUDirect Storage (GDS)、RDMA和RoCEv2。在GDS支持后,推出UEC Transport支持。
竞品对比
  • IBM Storage Scale:VDURA内嵌多层数据保护,简化架构、提高安全性,而IBM Storage Scale的分层实现增加了系统复杂性。VDURA的微服务架构提供更好的扩展性和可靠性。
  • DDN Lustre:VDURA通过集成数据保护机制,取代传统RAID,消除了性能瓶颈,且随着集群规模增长,能更好地提升可用性和持久性。与Lustre依赖外部软件堆栈不同,VDURA提供了更高的可靠性和更简便的管理体验。
  • WEKA数据平台:VDURA采用混合存储架构,灵活的存储分层优化成本与性能。与WekaPOD相比,VDURA V5000以更低成本提供相当或更高性能,性价比更优。


Komprise Intelligent Data Management

Komprise升级了其Intelligent Data Management,提升了对非结构化数据管理的支持,并推出了改进版的Storage Insights数据浏览器。该工具使用户能够深入分析数据存储,提供有关数据大小、热数据与冷数据的对比以及其他关键指标的分析。用户现在可以在单一的导航面板中浏览目录和文件,并在同一位置查看以数据为中心和以存储为中心的指标。Komprise现已自动化了目标共享的创建,从而减少了大规模迁移中的手动工作量。

Komprise智能数据工作流支持用户扫描数据集中的任何文本关键字或自定义表达式,并将结果标记在Komprise全局文件索引中。

  • 架构特点:构建在分布式、可扩展、容错的架构之上,利用无状态的观察节点,这些节点部署在最适合分析和动员数据的存储位置。
  • 全局文件索引和集中管理:提供全局文件索引和集中管理控制台,能够跨存储环境管理所有非结构化数据,帮助IT团队和研究部门优化数据存储和使用。
  • 标准化兼容性:该平台支持多种标准(NFS、SMB、S3),并且无需代理,不会干扰热数据路径。
  • 云服务交付:作为云服务交付,易于设置和使用,简化了部署过程。
  • 智能数据管理:在医疗健康领域,Komprise帮助美国某学术医疗系统管理超过2PB的医疗文件,通过数据分层、迁移和可视化管理,显著节省了70%的存储和备份成本。这些节省的资金被重新投入到AI项目中,推动临床文档、影像和研究文件的HPC应用。
  • 智能数据工作流:该系统计划使用Komprise的智能数据工作流功能来自动化搜索、标记和整理特定数据集,以支持数据科学家进行研究项目。


Supermicro Petascale Storage Server with Nvidia Grace Superchip

Supermicro Petascale ARS-121L-NE316R

  • 高达144个Arm v9核心,性能每瓦2倍于传统服务器。

  • 高带宽LPDDR5X内存,支持性能密集型存储应用。

  • 支持NVIDIA ConnectX-7 NIC及BlueField-3 DPU,适合高性能存储与计算场景。


  • 规格:1U

  • 处理器:单NVIDIA Grace CPU Superchip,双72核(共144核),支持600W TDP(风冷)。

  • 内存:ECC LPDDR5X,最大960GB,1TB/s带宽,板载设计。

  • 存储:16个前置热插拔E3.S NVMe全闪存插槽。

  • 扩展:

    • 默认:2×PCIe 5.0 x16 FHHL插槽

    • 可选:1×AIOM(OCP 3.0 SFF兼容)连接器


Domino Volumes for NetApp ONTAP(DVNO)

DVNO支持在Domino平台上直接创建和管理NetApp存储卷,实现自助服务,减少对IT部门的依赖,同时降低处理时间和成本,最高可达50%。该解决方案增强了数据共享与协作能力,确保团队能够访问一致的数据集而无需重复存储,提高了生产力。此外,DVNO提供强大的数据治理功能,确保合规性,使企业能够在快速变化的市场中高效创新。

  • 高效的数据访问与性能提升:DVNO通过Domino与NetApp ONTAP的原生集成,实现了读取性能和GPU吞吐量的双倍提升,显著提高了AI工作负载(如计算机视觉和大语言模型训练)的效率。GPU使用时间减少高达50%,从而降低了成本和处理时间。
  • 简化的存储卷创建与管理:数据科学家可直接通过Domino平台创建由NetApp ONTAP支持的可扩展存储卷,无需依赖IT支持或DevOps。此功能提高了大规模团队的工作效率,减少了基础设施准备的延迟,便于更快速地进行实验和迭代。
  • 简便的共享与访问控制:DVNO允许数据科学家跨项目共享存储卷,实现快速访问共享数据集。这种方式提升了团队协作,确保一致性的数据访问,避免了数据冗余和人工转移,提高了存储效率。
  • 集中式监控与安全性管理:IT管理员可以通过Domino平台对DVNO卷进行权限和数据使用的统一监控,保障敏感数据的安全性。同时,开发人员和API用户通过标准的访问模式,实现无缝的存取管理,保证数据在多个环境中的一致性和安全。
  • 基于项目和用户的存储卷组织:数据科学家可以根据特定用户、项目或工作流自定义存储卷结构,这不仅优化了数据治理,还有效地减少了存储冲突,提高了数据的安全性与隐私保护。


Hammerspace Global Data Platform Software v5.1

v5.1引入了Tier 0存储,以提升GPU计算和存储效率。Tier 0技术将GPU服务器上的本地NVMe存储转化为超高速、持久共享存储,并将其无缝集成到平台中,从而直接以本地NVMe速度向GPU提供数据。这项技术通过激活原本闲置的NVMe存储,显著加速了数据处理和工作流程,特别适用于数据密集型任务。Tier 0存储通过回收闲置的服务器硬盘,创建了一个共享且受保护的存储环境,从而提高了读取速度和检查点效率,最大可提升计算效率10%。

  • Tier 0超高速共享存储:将GPU服务器的本地NVMe存储转化为共享存储资源,解决了GPU服务器中大量“闲置”存储的浪费问题。通过将本地存储纳入Hammerspace Global Data Platform,用户可以将这些存储空间与集群中的其他GPU共享,创建一个全局统一命名空间,支持跨多个存储层、站点和云环境的数据访问。
  • 自动数据保护与高效数据迁移:数据保护和数据在Tier 0与其他存储层(包括云存储)之间的迁移基于用户设置的策略自动进行,从而简化了存储管理,降低了外部存储需求,减少了存储成本和能耗。
  • NFS协议绕过优化:利用对Linux内核的增强,推出了NFS协议绕过功能。该功能通过绕过NFS客户端、服务器及其网络堆栈,实现GPU与本地NVMe存储之间的更直接数据路径。结果显著降低了延迟,提升了性能,性能提升可达到10倍以上,尤其在AI模型训练和HPC仿真中的关键操作如检查点处理上,加速了10-100倍。
  • 大幅提升GPU计算能力:用户无需额外投资即可显著提高GPU计算能力。例如,100台GPU服务器,每台服务器配备8个GPU,实施Tier 0相当于增加了80个GPU,或10台服务器的计算能力,而无需额外支出。


HPE Cray Supercomputing Storage Systems E2000

是一款为大规模超级计算机设计的高性能存储解决方案。与上一代产品相比,其I/O性能提升超过两倍。E2000基于开源Lustre文件系统,通过减少I/O操作中的空闲时间,显著提高了CPU和GPU计算节点的利用率。将在2025年初与HPE Cray超级计算EX系统一起正式发布。


Quantum DXi9200

是其旗舰DXi9000系列混合型(闪存+高密度磁盘)数据保护设备,旨在为大型组织提供可扩展、高效的备份和恢复服务。该设备主要帮助组织应对不断增长的勒索病毒攻击威胁,通过全面且主动的数据安全保障措施,持续验证恢复操作,并在发生攻击时快速恢复。DXi9200配备了高度优化的数据减量、复制、云分层等功能,并提供全套软件、按需容量许可和灵活的订阅服务选项。

  • 可扩展性与效率
    • 灵活的存储容量:起始容量为110TB,可按55TB增量扩展,最大可扩展至2.2PB可用存储。
    • 通过集成的数据压缩(最高70倍)和云分层(公有云/私有云),实现最大462PB的逻辑容量管理。
    • 更高密度:比前代产品密度提升68%,并且功耗减少25%(2.2PB存储仅需12U机架空间)。
  • 网络安全韧性与安全性
    • 符合NIST CSF 2.0标准:硬化架构,提供安全连接、基于角色的访问控制和多因素认证。
    • 不可变数据保护:支持离线快照和RAID保护,防止数据被篡改或删除。
    • 数据完整性:进行持续的健康检查,并与恶意软件扫描软件(如Veeam、Commvault)集成。
    • 更快的恢复性能:比DXi9100快30%,提供更高效的备份和恢复,减少系统停机时间,优化RTO和RPO。
  • 混合存储
    • 集成NVMe闪存和密集硬盘存储:结合高性能闪存和高密度硬盘,实现成本效益,特别适用于需要成本控制的备份和灾难恢复场景。
  • 部署灵活性
    • 可通过资本购买或Quantum GO(按需订阅)进行购买。
    • 支持边缘、核心和云环境的混合架构,能够与备份软件和云服务无缝集成。
  • 性能与恢复
    • 提供快速的备份和恢复能力,对抗勒索病毒攻击,确保快速恢复,并在几分钟内实现数据恢复。
    • 提供直写到磁带功能及先进的复制技术,确保灾难恢复时数据的安全性。


DDN A3I Data Platform

DDN推出了其A3I数据平台的重大升级,其中包括一款新型号AI400X3。该型号在AI和HPC应用中提高了60%的性能。DDN A3I数据智能平台利用数据利用率、AI和先进分析技术,提高GPU基础设施的生产力。正在支持xAI的Project Colossus超级计算机,该计算机起始配置为10万个Nvidia GPU,并计划扩展至20万个GPU以支持AI工作负载。

  • AI400X3:提供60%性能提升,专为AI和HPC工作负载优化,实现更快的AI训练、实时洞察和更流畅的数据处理。
  • AI400X2:增加了QLC闪存支持,每个机架支持多达5个QLC单元,提供低成本高容量的存储解决方案。
  • AI200X2:扩展了HDD支持,每个机架支持高达20PB,特别适用于成本敏感的环境,如大学和研究机构。
  • EXAScaler
    • 客户端压缩:通过客户端压缩减少数据大小,而不影响性能,解决了竞争方案中启用压缩时的性能下降问题。
    • 增强的多租户和安全性:EXAScaler提供原生易用的多租户功能,支持云服务商和多用户企业环境的数据隔离。EXAScaler管理框架(EMF)提供高级监控和健康报告工具,确保企业能够有效管理复杂的数据环境,保障操作完整性。


Weka Storage Offering For Nvidia Grace CPU Superchip

Weka推出了业内首款针对Nvidia Grace CPU超级芯片的高性能存储解决方案。该方案将Weka的AI原生数据平台与Supermicro最新的Petascale存储服务器相结合,后者采用了Arm Neoverse V2核心。该技术能够加速AI和HPC工作负载,使AI模型训练速度提升最多10倍,同时提高GPU堆栈效率最多50倍,并在降低能耗和占地面积的同时实现更高性能。预计将在明年初推出。

首款面向NVIDIA Grace CPU超级芯片的高性能存储解决方案

  • 目标:解决AI和HPC工作负载对快速数据访问的需求,以及数据中心空间和功耗限制的挑战。
  • 核心组件:
    • NVIDIA Grace CPU超级芯片:采用144个高性能Arm Neoverse V2核心,能效是传统x86服务器的两倍。
    • Supermicro Petascale存储服务器:提供16个Gen5 E3.S NVMe SSD托架和3个PCIe Gen 5网络插槽,支持高达400Gb/s的网络连接。
    • WEKA数据平台软件:采用零拷贝架构,最大程度减少I/O瓶颈,降低AI管道延迟。
    • NVIDIA ConnectX-7网卡和BlueField-3智能网卡:提供高达400Gb/s的高吞吐量、低延迟网络连接。
  • 关键优势:
    • 极速和可扩展性:将AI洞察时间缩短高达10倍,在几乎任何规模都能确保AI数据管道的最佳性能。
    • 最佳资源利用率:提供高达1TB/s的内存带宽和无缝数据流,消除了瓶颈,加快AI模型训练速度,缩短epoch时间,提高推理速度。
    • 卓越的能源和空间效率:GPU堆栈效率提高10到50倍,数据基础设施占用空间缩减4到7倍,每年每PB存储可减少高达260吨二氧化碳排放量,并将能源成本降低10倍。
  • 上市时间:2025年初

WEKA AI RAG Reference Platform (WARRP)

  • 目标:解决将检索增强生成(RAG)解决方案投入生产所带来的挑战,包括可扩展性、资源编排、跨不同基础架构部署、高性能、成本管理、安全性和碳排放。
  • 关键特性:
    • 云无关:在数据中心或云中提供一致的框架、可管理性和结果。
    • 高性能向量数据库支持:支持在WEKA上运行分布式向量数据库,为整个RAG管道提供卓越的性能和可扩展性。
    • 简化的跨位置数据传输:支持在管道中的不同位置之间无缝传输数据,例如在一个位置提取数据并在另一个位置转换数据。
    • 灵活的可扩展性:能够根据推理需求动态扩展,并根据需要在微调和推理之间切换。
    • 简化的部署和管理:利用NVIDIA企业堆栈,包括NIM和Nemo框架。


Qumulo Cloud Native Qumulo

Cloud Native Qumulo (CNQ) 已在AWS 和 Microsoft Azure上正式发布,并称其为全局首个云原生非结构化数据系统。Cloud Native Qumulo on AWS在使用标准网络文件系统客户端时,已实现超过1TBps的吞吐量和超过100万IOPS 的性能。作为一个完全云原生的解决方案,CNQ通过将价格降低至传统云文件存储方案的80%以下。

    • 性能
    • 高吞吐量和IOPS:在AWS上使用标准网络文件系统客户端实现了 超过1TBps的吞吐量和超过100万IOPS。
    • 低延迟:通过智能缓存管理技术,将频繁访问的数据缓存在NVMe中,实现 超过95%的平均缓存命中率,最大程度地减少数据加载时间和GPU空闲周期,从而提高效率并加快处理速度。
  • 可扩展性
    • 线性扩展:提供无缝、可靠的增长路径,可以根据工作负载需求轻松扩展,满足不断变化的业务需求。
    • 按需扩展:支持在几秒钟内扩展性能和容量,用户可以根据实际需求灵活调整,在需要时提供性能,并在需求减少时限制资源以节省成本。
    • 大规模扩展:可无缝扩展到EB级。
  • 成本效益
    • 低成本:定价比传统文件存储解决方案低80%。
    • 智能分层:利用AWS S3进行长期数据持久化,并通过可选的S3智能分层将不常访问的数据存储在成本更低的S3中,进一步优化成本。
    • 按使用付费:基于实际存储使用量和提供的性能进行定价,无需静态预配置容量。
  • 数据管理
    • 全局数据结构:可以利用Qumulo的全局命名空间 (GNS) 实现从任何其他位置对数据的无缝、低延迟访问。
    • 数据安全:可用于AWS GovCloud,为受监管行业和联邦机构的客户提供安全、合规的选项,满足严格的政府和监管标准。


Pure Storage GenAI Pod and FlashBlade//S500 with Nvidia DGX SuperPOD certification

Pure Storage推出的GenAI Pod是一个全栈AI系统,旨在帮助组织加速AI驱动的创新和部署。该系统提供“一键部署”和简化的二次操作流程,能够降低部署GenAI项目所需的时间、成本和技术要求。其初期应用包括药物发现、贸易研究、投资分析和基于代理框架的RAG应用,涵盖语义搜索、知识管理和聊天机器人等领域。

Pure Storage的FlashBlade//S500以太网存储已通过Nvidia DGX SuperPOD认证,为大规模AI部署提供高性能、节能的存储解决方案。

与Portworx的集成,支持从第一天到第二天的全流程操作。Portworx的DBaaS(数据库即服务)解决方案简化了DevOps操作,并实现了无需ITops介入的数据库部署。如今,Pure结合AI应用的需求,将这一能力提升至新层次,自动化了特定AI应用(如KDB在金融领域和NEMO在药物发现领域)的数据库部署操作,从而提高了AI部署的效率和自动化水平。

GenAI Pod预计将于2025年上半年正式上市。

  • 全栈集成:GenAI Pod集成了运行GenAI工作负载所需的所有硬件和软件组件,包括计算、存储、网络、基础模型、向量数据库和MLOps平台。
  • 一键式部署:GenAI Pod提供一键式部署功能,简化了AI项目的启动过程。
  • 自动化运维:通过集成Portworx数据管理平台,GenAI Pod实现了NVIDIA NeMo和NIM微服务的自动化部署,以及Milvus向量数据库的自动化管理,从而简化了日常运维。
  • 预定义配置:GenAI Pod提供基于不同用例参数(如模型大小、并行用户数量等)的预定义堆栈配置和大小,帮助组织轻松、高效、经济地构建适合其需求的配置。
  • 最佳生态系统:GenAI Pod整合了来自Arista、Cisco、KX、Meta、NVIDIA、Red Hat、SuperMicro和WWT等行业领先AI供应商的硬件、软件、基础模型和专业服务。
  • 广泛用例:GenAI Pod支持多种用例,包括药物发现、交易研究、投资分析、语义搜索、知识管理和聊天机器人。


Hitachi iQ With HGX

推出了Hitachi iQ与Nvidia HGX的端到端技术栈,旨在通过可扩展的基础设施帮助充分利用GPU的计算能力,从而减少从数据中获得洞察的时间。该平台配备了Nvidia H100和H200 Tensor Core GPU,并结合Nvidia AI企业级云原生软件平台,专为高性能AI工作负载(如GenAI应用的开发和部署)量身定制。此外,Hitachi还更新了Hitachi Content Software for File平台,支持第五代PCIe、AMD EPYC处理器技术,并通过Nvidia ConnectX-7 400-Gbps InfiniBand或以太网接口卡提供高性能网络。平台还集成了高密度对象存储,与Hitachi Content Software for File紧密结合,能够根据数据大小、数据类型和工作负载独立扩展计算和存储能力。

  • NVIDIA HGX 平台:集成了NVIDIA HGX平台,包括NVIDIA H100和H200 Tensor Core GPU选项,为AI任务提供强大的计算能力。
  • Hitachi Content Software for File:这是一个高性能、可扩展的分布式文件系统,作为Hitachi iQ的数据平台,可与Hitachi Vantara的对象存储产品组合无缝协作。
  • 采用PCIe Gen 5技术,搭载最新的AMD EPYC处理器技术和高性能网络,包括NVIDIA ConnectX-7 400Gb/s InfiniBand或以太网NIC。
  • PCIe Gen 5 E3.S NVMe驱动器技术进一步增强了性能,尤其适用于HPC和AI工作负载。
  • 与高密度对象存储集成,允许独立扩展计算和存储,以适应不同的数据大小、数据类型和工作负载。
  • 零拷贝架构:通过消除不同AI阶段存储孤岛之间的数据复制和传输时间,提高了AI的经济性和可持续性。
  • 增强的模式识别:分布式文件系统的增强数据处理允许更有效的模式识别。
  • NVIDIA AI Enterprise:一个端到端的云原生软件平台,用于开发和部署生成式AI应用。
  • NVIDIA Base Command Manager Essentials:提供AI和HPC集群的快速部署和全面管理。
  • Kubernetes:支持基于Kubernetes的云原生部署。
  • NVIDIA GPU Operator和Network Operator:自动化NVIDIA软件组件的部署和管理,包括驱动程序、插件和容器运行时。
  • 可扩展性:可以从2个节点扩展到16个节点,采用模块化架构,可以根据需要进行扩展。


Solidigm D5-P5336 SSD

Solidigm推出了其122TB硬盘,为下一代QLC(四层单元闪存)和大规模数据存储奠定了基础,这些存储预计将成为AI应用的核心。Solidigm专注于企业市场,进一步加大了对该市场需求的规划,并推出了最新技术。我们预计,像61TB硬盘一样,他们的122TB硬盘也将很快售罄。

  • 容量:122.22TB
  • 接口:PCIe Gen 4
  • 外形尺寸:U.2
  • NAND闪存类型:QLC
  • 3D NAND层数:192层
  • 功耗:25W(工作状态),支持低功耗模式
  • 耐久性:0.3 DWPD
  • 平均故障间隔时间(MTBF):250万小时

  • 高密度:Solidigm D5-P5336 SSD提供了极高的存储密度,是目前市面上单一U.2外形尺寸中容量最大的SSD。8个D5-P5336 SSD就可以组成1PB的存储容量,适用于高密度存储需求的场景,例如AI和数据中心。
  • 高性能:该SSD针对AI训练和推理工作负载进行了优化,提供高带宽和低延迟,以满足AI应用对数据访问速度的需求。与传统的HDD相比,D5-P5336 SSD的随机IOPS性能提升了几个数量级,达到每秒百万次IOPS。
  • 低功耗:与HDD+TLC闪存组合相比,D5-P5336 SSD在NAS应用中功耗降低高达84%。其每瓦特可存储的TB数也比30TB TLC NAND高3.4倍。这使得D5-P5336 SSD成为注重能效的数据中心和AI应用的理想选择。
  • 适用于AI管道的各个阶段:D5-P5336 SSD的高性能和低延迟使其适用于AI管道的各个阶段,包括数据摄取、训练、推理、检查点和存档。


VAST Data

公司从HPC数据基础设施向快速扩展的生成式AI领域转型。VAST Insight Engine等解决方案为AI训练提供了基础工具。与哈佛医学院系统和CoreWeave的合作,突出了专门用于基因组研究、蛋白质开发和癌症检测的基础性LLM。随着数据量突破100PB,VAST正在调整其基础设施,以推动生命科学领域的重大突破。

  • VAST Data宣布与美国国家超级计算应用中心(NCSA)建立战略合作伙伴关系。VAST Data平台将支持NCSA的所有开放科学系统,通过无缝的数据可访问性和性能来实现突破性研究。
  • X-AI:AI公司X-AI在短短122天内交付了一个名为Colossus的10万GPU规模集群,并选择了VAST Data平台来推动其基础数据管理。
  • CoreWeave:一家专注于AI的加速计算平台,已使用VAST数据平台从头开始构建,其目标是为其客户群提供1万GPU规模。
  • 哈佛医学院:利用VAST Data平台推动基因组学研究,以应对癌症和个性化医疗等疾病管理挑战。


Dell AI Factory

  • Dell Data Lakehouse新增Apache Spark支持,用于大规模分布式数据处理。Spark集成将提供更高的效率,通过统一的方法进行数据分析、管理、处理和分析,从而更快地获得更具操作性的洞察力。该平台建立在AI优化硬件和全栈软件套件之上。
  • Dell AI Factory with Nvidia:新增Nvidia HGX H200和H100NVL支持选项。与Nvidia HGX H100相比,性能提升高达1.9倍。
  • Dell Agentic RAG with Nvidia:利用PowerEdge服务器,PowerScale存储和Nvidia AI Enterprise软件以及GenAI工具(包括NeMo Retriever微服务和用于多模式PDF数据提取的Nvidia AI Blueprint)。
  • Dell Data Management Services:提供AI就绪目录,通过发现、分类和优化数据,使组织能够简化对组织化、高质量数据的访问。
  • Dell Services for Sustainable Data Centers:提供创建和实施旨在提高能源效率的策略的专业知识,这可以通过智能电源和冷却管理来帮助降低数据中心的排放,从而帮助客户实现其可持续发展目标。

----------

参考资料:Kovar, J. F. (2024, November 27). Supercomputer 2024: Baker’s dozen of hot storage products. CRN. Retrieved from https://www.crn.com/news/storage/2024/sc24-bakers-dozen-of-hot-storage-products


--【本文完】---

近期受欢迎的文章:

  1. AI基础设施的未来:谷歌与微软在多数据中心训练中的竞争态势
  2. 过去18个月OpenAI在LLM领域的主导地位与市场竞争动态(2023-2024)
  3. Groq - 生成式AI时代的科技巨头
  4. AI生态系统深度解析:云服务、模型提供商与模型家族的交互格局
  5. 资金回流效应:AI投资如何推高云计算增长?



更多交流,可加本人微信

(请附中文姓名/公司/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存