2023年美国HPC系统专业人员调查报告

常华Andy Andy730 2024-03-16

Source: Jenett Tillotson, HPC SYSPROS Member Survey 2023

调查报告由美国国家大气研究中心 National Center for Atmospheric Research (NCAR) 发起。

Survey Form

https://drive.google.com/file/d/1wod366EwHc6VHBcM1pscq6860xteiGnh/view

Survey Results

https://blocksandfiles.com/wp-content/uploads/2023/08/Full-2023-HPC-SYSPROS-Survey-Results.pdf

参加机构：

3M Company: 3M 公司
Agriculture Victoria Research: 维多利亚农业研究局
Ansys: Ansys公司
Brown University: 布朗大学
Chan Zuckerberg Biohub: 陈-扎克伯格生物中心
Cornell University: 康奈尔大学
Digital Research Alliance of Canada: 加拿大数字研究联盟
Harvard SEAS: 哈佛大学工程与应用科学学院
Howard Hughes Medical Institute: 霍华德·休斯医学研究所
Indiana University: 印第安纳大学
LBNL/NERSC: 劳伦斯伯克利国家实验室/国家能源研究科学计算中心
Leidos Inc.- Centers for Disease Control & Prevention: 莱迪思公司-疾病预防控制中心
Michigan State University: 密歇根州立大学
Middle Tennessee State University: 中田纳西州立大学
Minnesota Supercomputing Institute: 明尼苏达超级计算研究所
Mississippi State University: 密西西比州立大学
NAG/bp: NAG (Numerical Algorithms Group)/bp
NCAR: 美国国家大气研究中心
NCAR/UCAR: 美国国家大气研究中心/美国大气和海洋科学协会
NCSA: 伊利诺伊大学厄巴纳-香槟分校国家超级计算应用中心
NE: 东北大学
NIR
NIH/NHLBI: 美国国立卫生研究院/美国国立心脏、血管和肺研究所
NIHM: 美国国立卫生研究院/美国国立精神卫生研究所
P&G(AFDS): 宝洁公司(家庭护理和美容部门)
Pawsey Supercomputing Centre: 帕维西超级计算中心
Penn State Institute for Computational and Data Sciences: 宾夕法尼亚州立大学计算和数据科学研究所
TACC: 德克萨斯州先进计算中心
Tennessee Tech University: 田纳西理工大学
Texas A&M: 德克萨斯 A&M 大学
The MITRE Corporation
The University of Arizona: 亚利桑那大学
UC Davis: 加利福尼亚大学戴维斯分校
UIUC/NCSA: 伊利诺伊大学厄巴纳-香槟分校/国家超级计算应用中心
University of British Columbia: 不列颠哥伦比亚大学
University of California at Berkeley: 加利福尼亚大学伯克利分校
University of Chicago: 芝加哥大学
University of Pennsylvania: 宾夕法尼亚大学
University of Utah: 犹他大学

您所在的机构正在采取哪些措施来降低HPC工作负载的能源消耗？

探索水冷解决方案的应用。
调整风扇速度。（令人惊讶的电能节省效果！）
采用水冷机架，搭载低功耗CPU芯片。
目前尚未采取具体措施，但正在考虑未来的方案。
尽可能以最高速运行，运用频率调控/增频技术，用于未使用所有CPU核的应用场景。
对闲置CPU核进行限制（Throttling）。
应用自由空气冷却和直接液冷技术，配备高密度机架。
采用效率更高的CPU，将工作负载迁移到GPU上。
积极淘汰老旧/能效较低的硬件，以更高效的替代品取而代之，并考虑采用LEED认证数据中心，由水力供电。我正在进行深入研究。
力争大量采用ARM作为CPU计算资源。
定期进行硬件升级，实现固有的能效改进。此外，并未专门采取能源降耗的举措。
目前，能源消耗并不是当前的关注重点。
优化架构，根据有效冷却条件选择部署位置。
在集群始终保持99%利用率的情况下，实现能耗降低是不可能的。

您的数据中心在减少HPC工作负载能耗方面采取了哪些措施？

最近部署的硬件大幅提升了能效，与设施管理部门密切合作，更加有效地利用水冷和空气冷却技术，与用户合作提升作业效率，并已开始对每个作业的能源使用情况进行报告。
通过改进高可用冷却系统（HACs），进行数据中心的翻新和扩展，以提高操作温度，实现更优的能效。
除了一般的数据中心效率措施外，我们并未针对HPC特定场景采取特别的措施。
我们正在向全液冷基础架构转型，以进一步优化能源利用。
通过保持基础设施的高度利用率，将闲置硬件造成的能源损失降至最低，并逐步引入液冷设备以提升效能。
我们已开始与研究人员展开多方位讨论，探索各种可能的选择。
我们不断努力提升系统的效能，以降低能源消耗。
在夏季高温和电力需求飙升时，当设施要求减少电力使用时，我们与项目团队和用户合作，评估可以短暂暂停的资源。尽管可能只涉及5-10%的资源，但每瓦特都尤为宝贵。
我们利用经过处理的冷却水来降温IT机架，实现能耗的有效控制。
除了引入新的硬件和流程改进，我们也着重进行用户培训，以最大程度地发挥资源效能。

是什么驱使贵机构将工作负载迁移上云？

轻松访问数据的便利性。
更广泛的计算技术选择。
云计算被普遍视为引人注目的选择，而且一位高级主管还参加了Gartner会议，因此我们需要制定云计算策略。
等待将服务迁移至本地资源。
GPU短缺的挑战。
面对本地资源功耗限制，我们正在寻求多样化的方案。
可重现的工作流程。
当前我们并未采取这一措施。我们致力于保持成本的稳定性和竞争力。
某些工作负载更适合于云环境。
同时，这也为与其它组织共享工作流程提供了可能性。
并非所有工作负载都适用于批量调度。
此外，出于其它管理原因，我们无法或不被允许在内部提供服务。

---【本文完】---

近期受欢迎的文章：

我们正处于数十年未见之大机遇中

新技术爆发式发展，催生新产品

然而，颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个

Andy730

向上滑动看下一个

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

2023年美国HPC系统专业人员调查报告

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

生成图片，分享到微信朋友圈

2023年美国HPC系统专业人员调查报告

您可能也对以下帖子感兴趣