查看原文
其他

再读经典+补充材料:针对Summit超算系统的I/O研究

常华Andy Andy730
2025-01-01

原论文:《领先级HPC上的机器学习工作负载的I/O性能分析


传统HPC转型为HPC+ML驱动的“智能超算”


基本信息

  • 赞助方:美国能源部

  • 运营商:IBM

  • 架构:9216个 POWER9 22核CPU;27648个Nvidia Tesla V100 GPU

  • 功耗:13兆瓦

  • 操作系统:Red Hat Enterprise Linux(RHEL)

  • 存储:250 PB

  • 速度:200 petaFLOPS(峰值)

  • TOP500排名:第5位

  • 用途:科学研究

  • 网站:www.olcf.ornl.gov/olcf-resources/compute-systems/summit/

本研究使用的工具

Darshan – HPC I/O Characterization Tool
https://www.mcs.anl.gov/research/projects/darshan/
https://github.com/darshan-hpc/darshan


英伟达角度的解读

Summit GPU Supercomputer Enables Smarter Science
https://developer.nvidia.com/blog/summit-gpu-supercomputer-enables-smarter-science/


给存储架构师的启示

  • 机器学习(ML)工作负载的时间趋势清晰显示,其I/O活动呈指数增长,预示未来将由ML主导高性能计算(HPC)。因此,亟需设计更为优越的存储解决方案,以应对未来HPC+ML工作负载中多样化的I/O模式

  • 在修改来自各个科学领域的历史遗留代码库以支持Burst Buffer(BB)使用时,面临一定难度。为此,必须开发I/O优化技术,能够在不需修改应用程序代码的前提下,透明地实现BB的有效利用

  • ML作业将处理从CPU迁移到GPU的趋势明显。然而,我们的研究指出,仅依赖GPU的ML作业更受I/O瓶颈的制约。因此,存储架构师应专注于为这类作业开发I/O优化技术,而非盲目增加HPC集群中的GPU数量。

  • 本研究为未来HPC存储系统容量提供了指导,该系统将面临ML工作负载的主导

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存