查看原文
其他

HPC/AI市场动态报告(SC23)

常华Andy Andy730
2025-01-01

Hyperion Research:HPC/AI市场动态报告(SC23)

总体结论

  • 2023年预计将呈现良性增长

    • 2023年上半年增长率9.5%

    • 生成式AI和LLM为主要增长驱动因素

    • 超级计算机系统将助推2023-2025年的增长

    • GPU、云和其它AI/ML/DL是高增长领域

  • 新技术展现巨大潜力:

    • 处理器、AI硬件和软件、内存、新的存储方法、量子等

    • 可组合性在某些应用中可能适用良好

  • 云对许多HPC工作负载而言已成为可行的方案

  • 存储可能会因AI、大数据和对更大数据集的需求而显著增长

  • 仍然存在对供应链的担忧,以及对能源/可持续性和人才的日益关注


我们正密切关注的问题

  • 新的和激进的AI计算需求将如何改变整体HPC硬件和软件市场格局?

    • 在未来几年内,LLM将在哪些领域产生最大的影响?

  • 这将是量子计算成为一个自给自足的行业部门的一年吗?

    • 哪些QC应用场景将吸引最多的终端用户关注?

  • 云中HPC的不断增强的能力如何改变整体HPC行业?

    • 在运营高效的混合本地/云环境中,主要的机会和挑战是什么?

    • 云用于HPC和AI的下一个转折点将在何时发生?

  • 后超级计算机系统演进的路径是什么,它将如何影响主流HPC设计和终端使用?

  • 未来HPC和AI性能、功耗和/或可持续性的增益将由哪些新兴技术推动?

    • 可组合计算?光学I/O?新的CPU和加速器?冷却和/或封装的进展?


HPC系统架构变革

HPC系统架构将分化为针对一组应用进行优化的系统和为各种应用设计的系统

  • 未来为HPC用户设计的系统将考虑新的要求:

    • 新的工作负载,如AI和大数据

    • 新的研究领域

    • 数据和计算的新的预期规模

  • 主要系统决策将分为:

    • 支持更大而多样的构建模块集

    • 用于解决广泛应用的单一异构系统

    • 针对特定应用的多个较小系统

    • 用于特定应用集的公有云

  • 异构系统将包括:

    • 数据密集型与处理密集型设计

    • 节点配置到多个加速器和扩展内存配置文件

    • 基础设施加速器(例如DPU),用于处理来自CPU/GPU的进程

    • 复杂的存储基础设施以满足不同的I/O配置文件

  • 较小的系统将被设计用于针对AI、大数据或传统建模/模拟等应用

    • AI系统很可能具有更多的加速节点

    • 这种情景要求数据中心熟知新兴和已建立应用的要求


存储和互连网络:新的架构焦点

传统HPC建模/模拟和AI工作负载存在差异,要求将使HPC架构的焦点从计算转移到系统互连网络和存储系统

  • 节点间系统互连网络对可组合系统元素的性能和可扩展性至关重要

    • 预计InfiniBand和Ethernet的主导地位将继续存在

    • 从独立的节点到节点和存储网络向融合网络的转变

  • 诸如CXL的节点内互连网络正在出现,以解决可组合内存的问题

  • 存储体系结构正在演变,以解决整个生态系统的广泛挑战

    • 计算密集型与数据密集型

    • IO配置文件(大块顺序vs小块随机)

    • 访问方法(文件vs块vs对象)

    • 访问频率(热vs归档vs冷)

    • 地理位置(集中式数据中心vs云vs边缘)

    • 强制一致性(严格的POSIXvs宽松的POSIX)


    对文件系统的重大影响

    Lustre、Spectrum Scale、NFS目前占主导地位

  • 系统通常需要多个文件系统来解决各种I/O配置文件的问题

    • 计算密集型vs数据密集型

    • IO配置文件

    • 访问方法

    • 访问频率

    • 地理位置

    • 强一致性

  • 云服务商为并行文件系统提供支持

    • AWS: FSx for Lustre

    • Google: Parallelstore (基于DAOS)

    • Microsoft Azure: 托管Lustre服务

  • 每个文件系统都在各领域都在取得进展,但进展不一致

  • 在寻找难以捉摸的全局并行文件系统

    • 专属存储系统的投资

    • 独立初创公司


互连网络市场概述(自ISC23以来)

  • 地区性关注提升

    • 欧洲HPC对低延迟和高带宽互连网络的创新行动呼吁

  • 互连网络生态系统内有许多变动部分

    • NVIDIA IB、Ethernet、DPU

    • Broadcom Jericho3 AI交换机和PCIe Gen6&7路线图

    • Rockport Networks重新品牌为Cerio并推出新的PCIe平台

    • Cornelis Networks继续投资OPA路线图

    • 云服务商和超大规模运算正在进行内部投资

    • HPE Slingshot逐渐成熟(Frontier、Aurora)

    • 强大的生态系统和CXL产品的广泛涌现

  • Ethernet在HPC/AI中的应用动力增强

    • 其演进受AI对网络的影响而驱动

    • 超级Ethernet联盟

    • ETH Zurich研究

  • Chiplet互连网络

    • UCIe

    • OCP BoW

    • 初创公司创新

  • 光学I/O的进一步投资和部署

    • Ayar Labs融资

    • Lightmatter融资

    • Lightelligence产品和解决方案

    • 谷歌Apollo OCS(光电路切换)




---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存