其他
再读经典+补充材料:针对Summit超算系统的I/O研究
原论文:《领先级HPC上的机器学习工作负载的I/O性能分析》
传统HPC转型为HPC+ML驱动的“智能超算”
基本信息
赞助方:美国能源部
运营商:IBM
架构:9216个 POWER9 22核CPU;27648个Nvidia Tesla V100 GPU
功耗:13兆瓦
操作系统:Red Hat Enterprise Linux(RHEL)
存储:250 PB
速度:200 petaFLOPS(峰值)
TOP500排名:第5位
用途:科学研究
网站:www.olcf.ornl.gov/olcf-resources/compute-systems/summit/
本研究使用的工具
英伟达角度的解读
给存储架构师的启示
机器学习(ML)工作负载的时间趋势清晰显示,其I/O活动呈指数增长,预示未来将由ML主导高性能计算(HPC)。因此,亟需设计更为优越的存储解决方案,以应对未来HPC+ML工作负载中多样化的I/O模式。
在修改来自各个科学领域的历史遗留代码库以支持Burst Buffer(BB)使用时,面临一定难度。为此,必须开发I/O优化技术,能够在不需修改应用程序代码的前提下,透明地实现BB的有效利用。
ML作业将处理从CPU迁移到GPU的趋势明显。然而,我们的研究指出,仅依赖GPU的ML作业更受I/O瓶颈的制约。因此,存储架构师应专注于为这类作业开发I/O优化技术,而非盲目增加HPC集群中的GPU数量。
本研究为未来HPC存储系统容量提供了指导,该系统将面临ML工作负载的主导。