查看原文
其他

HPC中心做好量子准备意味着什么?

光子盒研究院 光子盒 2023-11-30

光子盒研究院


莱布尼茨超级计算中心(LRZ)的量子集成中心正在开展一个示范项目,该中心是欧共体范围内量子发展不可或缺的一部分,也是慕尼黑量子谷(MQV)地区工作的紧密合作者。其中,莱布尼兹量子信息中心正在开发慕尼黑量子软件栈(Munich Quantum Software Stack),旨在运行和管理在混合高性能计算-量子生态系统中运行的量子应用。 



一段时间以来,大多数量子计算机用户似乎都会通过门户网站访问量子设备。事实上,这可能仍然是事实,但最近越来越多的量子计算机开发商开始讨论提供内部解决方案:无论是嵌入到像莱布尼兹这样的大型高性能计算中心,还是像IBM在克利夫兰诊所所做的那样嵌入到私人实体中。
将量子计算整合到高性能计算(HPC)中心是一个日益受到关注和迫切的话题。随着量子计算的成熟,问题不再仅仅是其理论能力,还包括其在现实世界计算环境中的实际应用性。事实上,许多正在选购量子计算机的机构都要求量子计算机“HPC-ready”,即量子解决方案不仅要功能强大,还要能与现有的HPC基础设施协同工作。
但“HPC-ready”是什么意思呢?HPC-ready囊括了众多因素,这些因素使量子计算机不仅功能强大,而且在HPC生态系统中兼容、可靠、高效。本文将解读量子计算机真正 “HPC-ready”的含义,重点关注量子计算机的物理属性、软件栈、执行混合(经典/量子)算法的能力,以及系统监控和管理的关键管理功能。

量子计算机的物理尺寸必须与高性能计算中心的现有基础设施相匹配。与越来越紧凑的经典计算机不同,一些量子计算机可能相当笨重——确保量子硬件适合指定空间是为高性能计算做好准备的第一步
某些量子计算机,如使用超导量子比特的计算机,需要在极低的温度下运行,以保持量子相干性。这就需要稀释制冷机等专用冷却系统,这可能是一项后勤挑战。这些冷却系统必须集成到数据中心现有的冷却基础设施中,需要精心规划,并可能需要进行重大改造。
一个好消息是,与高端高性能计算资源相比,量子计算机的典型功耗很低。如今,量子计算系统的功耗最低为5千瓦,最高可达25千瓦,与经典计算系统相比,效率仍然要高得多。

一旦系统可以物理安装和支持,就应该关注软件栈。
应用编程接口(API)和软件开发工具包(SDK)对于开发人员将量子计算功能集成到现有应用中至关重要。这些应用程序接口和软件开发工具包应该功能强大、文档齐全,最好还能实现标准化,以确保量子计算机能够轻松“即插即用”到现有软件环境中。由于量子计算机仍是一项发展中的技术,因此量子计算软件方面的专家并不多。
因此,示例程序和入门指南至关重要。
中间件是量子计算机与经典高性能计算系统之间的粘合剂。它有助于执行量子算法、管理资源,并确保量子和经典系统能够有效通信。中间件解决方案必须与现有的高性能计算软件栈兼容。
许多高性能计算中心使用SLURM(用于资源管理的简单Linux实用程序)作为强大的作业调度器和资源管理器。SLURM的主要功能包括作业排队和优先级、虚拟化、具有节点选择和预订功能的资源分配,以及通过作业阵列和任务分配进行复杂的工作负载管理。SLURM还提供实时监控、报告、访问控制和会计功能。由于量子计算机将与经典HPC同时工作,提高效率的一种方法是使用SLURM在HPC和量子系统之间分配计算任务。
为优化与此类高性能计算环境的集成,量子计算机还应具备SLURM接口。
量子算法和量子计算机都很复杂,因此拥有一个灵活开放的软件栈非常重要,它可以对算法、实现算法的量子电路、用于改进电路的优化器以及驱动单个量子比特的脉冲进行精细控制。


量子计算领域最令人兴奋的发展之一是同时利用经典和量子资源的混合算法的兴起。这些算法通常使用经典系统进行预处理和后处理任务,而量子计算机则处理计算密集型核心计算。为高性能计算做好准备意味着拥有高效支持这些混合算法的软件基础设施。
这种软件基础设施的一部分是一个协调层,用于管理经典计算和量子计算之间的工作流程,确保将任务分配给最合适的计算资源。该层还可以处理纠错和优化,使整个过程更加高效可靠。
一种有趣的方法是在量子计算机中添加紧密耦合的GPU。虽然GPU在传统的HPC中心非常流行,但在量子计算机和专用GPU资源之间添加高速、低延迟的连接带来了新的机遇。GPU可以与量子计算机协同工作,执行纠错等时间敏感任务,同时还能执行混合算法。

实时监控工具对于关注量子计算机的健康状况和性能至关重要。这些工具应与高性能计算中心现有的监控解决方案无缝集成。它们应能深入了解资源利用率、错误率和其他关键性能指标(KPI)。
量子计算环境中常用的一些关键性能指标包括:
- 执行时间或运行时间:量子算法运行完成所需的时间是一个重要的KPI。这可以与经典算法进行比较,以衡量通过量子计算实现的效率提升。
- 作业成功率:有些量子作业会失败,因此必须跟踪这些失败,通知用户,并在必要时自动重启作业。量子系统通常需要经常进行自动或手动校准,监控成功率有助于确定何时需要校准。
- 队列时间:在高性能计算环境中,作业通常需要在队列中等待才能执行。监控专门针对量子作业的队列时间有助于优化资源分配策略。
- 资源利用率:就像在经典计算中一样,了解计算资源的利用情况至关重要。
- 系统正常运行时间:在高性能计算环境中,无计划外中断的持续运行是一项关键要求。系统正常运行时间指标有助于评估量子计算机在高性能计算生态系统中的可靠性。
- 用户参与指标:了解量子资源被访问的频率和目的,可以为未来的资源规划和系统改进提供有价值的信息。
经验丰富的高性能计算管理者不仅要确保中心收集并拥有这些数据,还要使用正确的分析工具将这些原始数据转化为可操作的见解。

归根结底,让量子计算机为高性能计算做好准备不仅仅是技术上的追求,更是一种变革性的努力,有可能重新定义计算科学的边界。
当我们站在这个新时代的风口浪尖上时,实现高性能计算就绪的路线图不仅是一个指南,也是创新协作精神的证明。它是对量子科学家、高性能计算专家和软件开发人员的行动号召,号召他们联合各自的专长,推动计算技术的发展。
风险很高,但回报——释放量子计算在现实世界应用中尚未开发的潜力,可能会改变游戏规则。
参考链接:[1]https://www.hpcwire.com/2023/09/14/what-does-it-mean-for-quantum-computers-to-be-hpc-ready/[2]https://www.lrz.de/english/


相关阅读:

全新计算方法,打破经典 HPC 和量子局限

ISC 2023:欧洲正建立混合HPC-量子联盟;中国超算问鼎全球!

HPC+量子:能源转型也是计算范式的转型

英伟达:通往混合量子-HPC之路


#光子盒视频号开通啦!你要的,这里全都有#


每周一到周五,我们都将与光子盒的新老朋友相聚在微信视频号,不见不散!



|qu|cryovac>

你可能会错过:|qu|cryovac>

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存