2023年美国HPC系统专业人员调查报告
Source: Jenett Tillotson, HPC SYSPROS Member Survey 2023
调查报告由美国国家大气研究中心 National Center for Atmospheric Research (NCAR) 发起。
参加机构:
3M Company: 3M 公司 Agriculture Victoria Research: 维多利亚农业研究局 Ansys: Ansys公司 Brown University: 布朗大学 Chan Zuckerberg Biohub: 陈-扎克伯格生物中心 Cornell University: 康奈尔大学 Digital Research Alliance of Canada: 加拿大数字研究联盟
Harvard SEAS: 哈佛大学工程与应用科学学院
Howard Hughes Medical Institute: 霍华德·休斯医学研究所
Indiana University: 印第安纳大学
LBNL/NERSC: 劳伦斯伯克利国家实验室/国家能源研究科学计算中心
Leidos Inc.- Centers for Disease Control & Prevention: 莱迪思公司-疾病预防控制中心
Michigan State University: 密歇根州立大学
Middle Tennessee State University: 中田纳西州立大学
Minnesota Supercomputing Institute: 明尼苏达超级计算研究所
Mississippi State University: 密西西比州立大学
NAG/bp: NAG (Numerical Algorithms Group)/bp
NCAR: 美国国家大气研究中心
NCAR/UCAR: 美国国家大气研究中心/美国大气和海洋科学协会
NCSA: 伊利诺伊大学厄巴纳-香槟分校国家超级计算应用中心
NE: 东北大学
NIR
NIH/NHLBI: 美国国立卫生研究院/美国国立心脏、血管和肺研究所
NIHM: 美国国立卫生研究院/美国国立精神卫生研究所
P&G(AFDS): 宝洁公司(家庭护理和美容部门)
Pawsey Supercomputing Centre: 帕维西超级计算中心
Penn State Institute for Computational and Data Sciences: 宾夕法尼亚州立大学计算和数据科学研究所
TACC: 德克萨斯州先进计算中心
Tennessee Tech University: 田纳西理工大学
Texas A&M: 德克萨斯 A&M 大学
The MITRE Corporation
The University of Arizona: 亚利桑那大学
UC Davis: 加利福尼亚大学戴维斯分校
UIUC/NCSA: 伊利诺伊大学厄巴纳-香槟分校/国家超级计算应用中心
University of British Columbia: 不列颠哥伦比亚大学
University of California at Berkeley: 加利福尼亚大学伯克利分校
University of Chicago: 芝加哥大学
University of Pennsylvania: 宾夕法尼亚大学
University of Utah: 犹他大学
您所在的机构正在采取哪些措施来降低HPC工作负载的能源消耗?
探索水冷解决方案的应用。
调整风扇速度。(令人惊讶的电能节省效果!)
采用水冷机架,搭载低功耗CPU芯片。
目前尚未采取具体措施,但正在考虑未来的方案。
尽可能以最高速运行,运用频率调控/增频技术,用于未使用所有CPU核的应用场景。
对闲置CPU核进行限制(Throttling)。
应用自由空气冷却和直接液冷技术,配备高密度机架。
采用效率更高的CPU,将工作负载迁移到GPU上。
积极淘汰老旧/能效较低的硬件,以更高效的替代品取而代之,并考虑采用LEED认证数据中心,由水力供电。我正在进行深入研究。
力争大量采用ARM作为CPU计算资源。
定期进行硬件升级,实现固有的能效改进。此外,并未专门采取能源降耗的举措。
目前,能源消耗并不是当前的关注重点。
优化架构,根据有效冷却条件选择部署位置。
在集群始终保持99%利用率的情况下,实现能耗降低是不可能的。
您的数据中心在减少HPC工作负载能耗方面采取了哪些措施?
最近部署的硬件大幅提升了能效,与设施管理部门密切合作,更加有效地利用水冷和空气冷却技术,与用户合作提升作业效率,并已开始对每个作业的能源使用情况进行报告。
通过改进高可用冷却系统(HACs),进行数据中心的翻新和扩展,以提高操作温度,实现更优的能效。
除了一般的数据中心效率措施外,我们并未针对HPC特定场景采取特别的措施。
我们正在向全液冷基础架构转型,以进一步优化能源利用。
通过保持基础设施的高度利用率,将闲置硬件造成的能源损失降至最低,并逐步引入液冷设备以提升效能。
我们已开始与研究人员展开多方位讨论,探索各种可能的选择。
我们不断努力提升系统的效能,以降低能源消耗。
在夏季高温和电力需求飙升时,当设施要求减少电力使用时,我们与项目团队和用户合作,评估可以短暂暂停的资源。尽管可能只涉及5-10%的资源,但每瓦特都尤为宝贵。
我们利用经过处理的冷却水来降温IT机架,实现能耗的有效控制。
除了引入新的硬件和流程改进,我们也着重进行用户培训,以最大程度地发挥资源效能。
是什么驱使贵机构将工作负载迁移上云?
轻松访问数据的便利性。
更广泛的计算技术选择。
云计算被普遍视为引人注目的选择,而且一位高级主管还参加了Gartner会议,因此我们需要制定云计算策略。
等待将服务迁移至本地资源。
GPU短缺的挑战。
面对本地资源功耗限制,我们正在寻求多样化的方案。
可重现的工作流程。
当前我们并未采取这一措施。我们致力于保持成本的稳定性和竞争力。
某些工作负载更适合于云环境。
同时,这也为与其它组织共享工作流程提供了可能性。
并非所有工作负载都适用于批量调度。
此外,出于其它管理原因,我们无法或不被允许在内部提供服务。
---【本文完】---
近期受欢迎的文章:
我们正处于数十年未见之大机遇中
新技术爆发式发展,催生新产品
然而,颠覆式创新并非简单的技术堆叠
而是异常复杂的系统工程
需要深度洞察
欢迎一起分享思考和见解