再读经典+补充材料：针对Summit超算系统的I/O研究

Original 常华Andy Andy730

2025-01-01

传统HPC转型为HPC+ML驱动的“智能超算”

基本信息

本研究使用的工具

Darshan – HPC I/O Characterization Tool

https://www.mcs.anl.gov/research/projects/darshan/

https://github.com/darshan-hpc/darshan

英伟达角度的解读

Summit GPU Supercomputer Enables Smarter Science

https://developer.nvidia.com/blog/summit-gpu-supercomputer-enables-smarter-science/

给存储架构师的启示

机器学习（ML）工作负载的时间趋势清晰显示，其I/O活动呈指数增长，预示未来将由ML主导高性能计算（HPC）。因此，亟需设计更为优越的存储解决方案，以应对未来HPC+ML工作负载中多样化的I/O模式。
在修改来自各个科学领域的历史遗留代码库以支持Burst Buffer（BB）使用时，面临一定难度。为此，必须开发I/O优化技术，能够在不需修改应用程序代码的前提下，透明地实现BB的有效利用。
ML作业将处理从CPU迁移到GPU的趋势明显。然而，我们的研究指出，仅依赖GPU的ML作业更受I/O瓶颈的制约。因此，存储架构师应专注于为这类作业开发I/O优化技术，而非盲目增加HPC集群中的GPU数量。
本研究为未来HPC存储系统容量提供了指导，该系统将面临ML工作负载的主导。

继续滑动看下一个

Andy730

向上滑动看下一个