近日,腾讯量子实验室、腾讯云高性能计算产品团队、北京龙讯旷腾科技有限公司和盐城工学院石林教授团队联合攻关,成功实现了百万硅原子超大规模体系的平面波精度第一性原理计算。该项工作由腾讯量子实验室牵头,基于龙讯旷腾公司的线性标度三维分块算法(LS3DF)以及腾讯云高性能计算集群产品完成。后续腾讯量子实验室和龙讯旷腾公司将进一步深度合作,持续探索超大体系平面波精度第一性原理计算的商用化场景,助力高校和企业科研团队解决材料科学研究中的重难点问题。
第一性原理计算是研究材料物化性质的重要手段,对新材料的发展具有重要意义。通常情况下,新材料从发现到大规模应用需要经历漫长的研发周期,并需要巨额的资金投入。以半导体材料硅为例,硅最早于19世纪50年代被提纯,但直到20世纪50年代,硅才被用于晶体管并逐步被商业化。第一性原理计算是从量子理论的基本原理出发,结合高性能计算系统的强大算力,通过数值迭代方法求解材料体系的偏微分方程,以获取材料的物理或化学性质。第一性原理计算对理解材料的性质、预测材料在不同环境中的表现行为、指导新材料的发现与设计提供了更快捷的手段,进而有望将新材料的研发周期和研发成本大大降低。基于密度泛函理论的第一性原理计算,算法复杂度较高(O(N3)),其计算时间随原子体系的扩大呈三次多项式级增加。另外,受限于计算机的浮点数计算能力、内存/显存大小、存储空间以及多机并行时的通信延迟等多种因素,第一性原理计算能模拟的材料体系规模通常局限在数百原子范围内。以目前使用最广泛的平面波精度第一性原理计算软件VASP为例,要直接计算明星材料魔角石墨烯(约1万碳原子)的电子性质几乎不可能——即使利用最顶级的GPU计算资源且拥有完美的并行计算环境,也会因计算效率太低(可能耗时数天甚至数周)而使实用价值大打折扣。而针对量子结构和量子器件的相关研究,通常需要10万甚至100万原子规模的计算能力,目前的模拟计算能力是远远不够的。为了解决计算时间复杂度高的问题,科学界提出了一系列线性标度的第一性原理计算方法,计算复杂度可降低到O(N)或O(Nlog(N))。本次工作所使用的基于线性标度三维分块算法的LS3DF软件在常见的分治并行思想的基础上,巧妙引入了error cancellation策略,对分治区域边界带来的误差进行处理。这种办法相对其他计算方法的独创性优势是,能够将计算的时间复杂度降低到线性复杂度,同时保证计算的平面波级别精度和应用场景的普适性。腾讯量子实验室的研究人员基于腾讯云的黑石高性能计算集群产品,通过黑石物理服务器极致的计算能力及高速低延时的RDMA网络互联,解决了LS3DF软件的编译优化、I/O存储优化和大规模GPU通信等问题,为LS3DF软件搭建了稳定可靠的专有算力底座。通过各方的紧密协作,项目团队最终基于240张V100 GPU卡,实现了超大规模GPU并行计算,在16小时内完成了112万硅原子的电荷密度计算,首次在平面波精度的前提下,实现了百万原子超大体系的第一性原理计算。其他可实现超大材料体系计算的方法包括:(1)采用原子轨道基组而非平面波基组实现;(2)使用无轨道的密度泛函理论方法。但这两类方法通常达不到平面波精度,部分方法也有一定的适用条件。比如原子轨道基组,在计算原子力时经常会有基组重叠产生的误差,难于消除。而无轨道密度泛函的方法,目前只能用在轻原子金属上,应用范围有限。相比而言,LS3DF算法具有普适性,不受这些限制,可以用在从半导体到金属的不同体系,并且达到直接平面波计算的精度。表1汇总了最近十多年里基于上述方法的与超大规模材料体系第一性原理计算相关的工作。在现实世界里,百万原子体系等效于一个10纳米见方的纳米颗粒。这项工作的完成,将量子高精度的模拟从微观尺度推进到了介观尺度,打开了我们对量子第一性原理计算的想象空间,可以应用在诸如微电子晶体管等一系列问题。腾讯量子实验室和龙讯旷腾公司将致力于持续探索超大体系平面波精度第一性原理计算的应用场景,基于腾讯云和腾讯材料研究平台提供相关科研服务,助力高校和企业科研团队解决材料科学研究中的重难点问题。线性标度三维分块算法(Linear Scaling Three Dimensional Fragment Method,LS3DF)由龙讯旷腾首席科学家汪林望博士开发。本工作使用的LS3DF软件在汪林望博士的LS3DF开源软件上进一步开发而成。该项计算工作使用了30台腾讯云GPU型高性能计算HCCG5v服务器(单台HCCG5v服务器配备8卡V100、400G内存、11TB SSD和100Gbps的RDMA网络)。相同的计算资源分别用于1万、10万和50万个硅原子的自洽计算,自洽计算时间随原子数目的变化趋势如图1所示。可见,LS3DF算法可在获取与常规第一性原理方法相同计算精度及准确性的前提条件下实现O(N)级的计算复杂度,这将极大地降低计算资源的消耗,使得超大规模体系的平面波精度第一性原理计算成为可能。1万硅原子在不同数量的HCCG5v服务器上的计算时间对比如图2所示。这个结果呈现了LS3DF算法极佳的并行加速比。而其中令人惊喜的是,1万个硅原子在1台HCCG5v服务器上便可以很轻松完成计算。这充分证明了LS3DF算法具有极高的并行扩展度,在同类算法中具有明显优势。此次计算所获得的体系电荷分布如图3所示。通过该计算可以针对超大规模体系中每个原子周围的电荷分布及其电子性质进行细致分析,满足未来各类量子器件研发的需求。图3:1万/10万/50万/100万硅原子体系的电荷分布光子盒将为中国境内的研究机构和企业提供一个免费的垂直招聘信息发布渠道,欢迎有需求的机构或企业直接联系光子盒。(微信:Hordcore)