查看原文
其他

2023年美国HPC系统专业人员调查报告

常华Andy Andy730 2024-03-16

Source: Jenett Tillotson, HPC SYSPROS Member Survey 2023

调查报告由美国国家大气研究中心 National Center for Atmospheric Research (NCAR) 发起。

Survey Form
https://drive.google.com/file/d/1wod366EwHc6VHBcM1pscq6860xteiGnh/view

Survey Results
https://blocksandfiles.com/wp-content/uploads/2023/08/Full-2023-HPC-SYSPROS-Survey-Results.pdf

参加机构:

  1. 3M Company: 3M 公司
  2. Agriculture Victoria Research: 维多利亚农业研究局
  3. Ansys: Ansys公司
  4. Brown University: 布朗大学
  5. Chan Zuckerberg Biohub: 陈-扎克伯格生物中心
  6. Cornell University: 康奈尔大学
  7. Digital Research Alliance of Canada: 加拿大数字研究联盟

  8. Harvard SEAS: 哈佛大学工程与应用科学学院

  9. Howard Hughes Medical Institute: 霍华德·休斯医学研究所

  10. Indiana University: 印第安纳大学

  11. LBNL/NERSC: 劳伦斯伯克利国家实验室/国家能源研究科学计算中心

  12. Leidos Inc.- Centers for Disease Control & Prevention: 莱迪思公司-疾病预防控制中心

  13. Michigan State University: 密歇根州立大学

  14. Middle Tennessee State University: 中田纳西州立大学

  15. Minnesota Supercomputing Institute: 明尼苏达超级计算研究所

  16. Mississippi State University: 密西西比州立大学

  17. NAG/bp: NAG (Numerical Algorithms Group)/bp

  18. NCAR: 美国国家大气研究中心

  19. NCAR/UCAR: 美国国家大气研究中心/美国大气和海洋科学协会

  20. NCSA: 伊利诺伊大学厄巴纳-香槟分校国家超级计算应用中心

  21. NE: 东北大学

  22. NIR

  23. NIH/NHLBI: 美国国立卫生研究院/美国国立心脏、血管和肺研究所

  24. NIHM: 美国国立卫生研究院/美国国立精神卫生研究所

  25. P&G(AFDS): 宝洁公司(家庭护理和美容部门)

  26. Pawsey Supercomputing Centre: 帕维西超级计算中心

  27. Penn State Institute for Computational and Data Sciences: 宾夕法尼亚州立大学计算和数据科学研究所

  28. TACC: 德克萨斯州先进计算中心

  29. Tennessee Tech University: 田纳西理工大学

  30. Texas A&M: 德克萨斯 A&M 大学

  31. The MITRE Corporation

  32. The University of Arizona: 亚利桑那大学

  33. UC Davis: 加利福尼亚大学戴维斯分校

  34. UIUC/NCSA: 伊利诺伊大学厄巴纳-香槟分校/国家超级计算应用中心

  35. University of British Columbia: 不列颠哥伦比亚大学

  36. University of California at Berkeley: 加利福尼亚大学伯克利分校

  37. University of Chicago: 芝加哥大学

  38. University of Pennsylvania: 宾夕法尼亚大学

  39. University of Utah: 犹他大学

您所在的机构正在采取哪些措施来降低HPC工作负载的能源消耗?

  • 探索水冷解决方案的应用。

  • 调整风扇速度。(令人惊讶的电能节省效果!)

  • 采用水冷机架,搭载低功耗CPU芯片。

  • 目前尚未采取具体措施,但正在考虑未来的方案。

  • 尽可能以最高速运行,运用频率调控/增频技术,用于未使用所有CPU核的应用场景。

  • 对闲置CPU核进行限制(Throttling)。

  • 应用自由空气冷却和直接液冷技术,配备高密度机架。

  • 采用效率更高的CPU,将工作负载迁移到GPU上。

  • 积极淘汰老旧/能效较低的硬件,以更高效的替代品取而代之,并考虑采用LEED认证数据中心,由水力供电。我正在进行深入研究。

  • 力争大量采用ARM作为CPU计算资源。

  • 定期进行硬件升级,实现固有的能效改进。此外,并未专门采取能源降耗的举措。

  • 目前,能源消耗并不是当前的关注重点。

  • 优化架构,根据有效冷却条件选择部署位置。

  • 在集群始终保持99%利用率的情况下,实现能耗降低是不可能的。


您的数据中心在减少HPC工作负载能耗方面采取了哪些措施?

  • 最近部署的硬件大幅提升了能效,与设施管理部门密切合作,更加有效地利用水冷和空气冷却技术,与用户合作提升作业效率,并已开始对每个作业的能源使用情况进行报告。

  • 通过改进高可用冷却系统(HACs),进行数据中心的翻新和扩展,以提高操作温度,实现更优的能效。

  • 除了一般的数据中心效率措施外,我们并未针对HPC特定场景采取特别的措施。

  • 我们正在向全液冷基础架构转型,以进一步优化能源利用。

  • 通过保持基础设施的高度利用率,将闲置硬件造成的能源损失降至最低,并逐步引入液冷设备以提升效能。

  • 我们已开始与研究人员展开多方位讨论,探索各种可能的选择。

  • 我们不断努力提升系统的效能,以降低能源消耗。

  • 在夏季高温和电力需求飙升时,当设施要求减少电力使用时,我们与项目团队和用户合作,评估可以短暂暂停的资源。尽管可能只涉及5-10%的资源,但每瓦特都尤为宝贵。

  • 我们利用经过处理的冷却水来降温IT机架,实现能耗的有效控制。

  • 除了引入新的硬件和流程改进,我们也着重进行用户培训,以最大程度地发挥资源效能。


是什么驱使贵机构将工作负载迁移上云?

  • 轻松访问数据的便利性。

  • 更广泛的计算技术选择。

  • 云计算被普遍视为引人注目的选择,而且一位高级主管还参加了Gartner会议,因此我们需要制定云计算策略。

  • 等待将服务迁移至本地资源。

  • GPU短缺的挑战。

  • 面对本地资源功耗限制,我们正在寻求多样化的方案。

  • 可重现的工作流程。

  • 当前我们并未采取这一措施。我们致力于保持成本的稳定性和竞争力。

  • 某些工作负载更适合于云环境。

  • 同时,这也为与其它组织共享工作流程提供了可能性。

  • 并非所有工作负载都适用于批量调度。

  • 此外,出于其它管理原因,我们无法或不被允许在内部提供服务。




---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存