高性能计算已经成为衡量一所学校科研实力的最重要指标,高校其他各学科对高性能计算资源的依赖越来越强,需求递增攀升
图:《财经十一人》走访南京大学高性能计算中心
文 | 顾翎羽
无论在国内还是全球,加强基础科研工作,都是高校的机遇、责任和使命。高性能计算已成为继理论和实验之后科学研究的第三大支柱,各学科对高性能计算资源的需求不断攀升。 高性能计算 (High performance computing, 缩写HPC) ,指利用超级计算机实现并行计算,以处理标准工作站无法完成的数据密集型计算任务,常见的应用领域有仿真模拟、机器学习和深度学习等。 简单理解,高性能计算可以通过分布式计算实现单台计算机无法达到的运算速度,高性能计算系统的运行速度比商用台式机或服务器系统快一百万倍以上。原因在于高性能计算能够让整个计算机集群为同一个任务工作,以更快的速度来解决一个复杂问题。也正是因为此,在存储和处理海量数据,数据挖掘、图像处理和基因测序等场景里,如果想要获得突破性结果,高性能计算有时是唯一解法。 举例来说, 人类首次尝试基因组测序耗时达13年,而如今,高性能计算只需要不到一天的时间内便可完成这项任务。 从算力的目标和分类来看,高性能计算设计目标是提供完备、复杂的计算能力,范畴广阔,包含了超算,也包含了强调AI的智能计算。 在国内,由于成本高昂和应用领域有限,高性能计算目前主要应用于高校、科研机构以及大型制造业企业的研发侧。南京大学,北京大学、上海交通大学、南方科技大学等数十所高校均拥有自己的高性能计算平台,作为高校科研创新的底座。 这个只在科学研究领域发挥独特作用的计算平台,究竟是何样貌?它最新的发展趋势是什么?5月30日,《财经十一人》来到南京大学高性能计算中心,这所历史可以追溯到2000年的计算中心是国内最早的高校高性能计算中心之一,它的发展和变迁是国内高性能计算中心发展的缩影。
图:南京大学2015年决定投入5000万元升级高性能计算平台。新建平台主要采用联想Flex X240M5刀片服务器,理论CPU计算峰值870万亿次/秒,Linpack实测值79.62%,在2017年6月发布的全球超级计算机Top500排行榜中列第284位。来源:南京大学高性能计算中心官方网站
从外表上看,这是几间普普通通的机房:数十个机柜紧密排列,几十台空调制冷发出的巨大的轰鸣声显示出机器的繁忙,也透露出年代感。 南京大学从事高性能计算方面的建设始于1980年天文系的应用需求。随着科学技术以及教育需求的提升,各个院系也相继开始购买服务器解决自己的计算需求。但是各个院系由于成本、人力等原因自己建设科研教学用高性能计算节点过于浪费。因此,在985工程二期的项目中,南京大学拨出了专门款项购置和更新全校所需的共享大型计算设备,力求为全校理科院系提供更强大的计算能力。 南京大学高性能计算中心高级工程师盛乐标博士介绍,南京大学高性能计算中心全系统共有33280个CPU核,理论浮点运算峰值1500万亿次/秒,为南京大学流体力学模拟、系统仿真、中大尺度气象模式模拟等多个领域提供科研所需的算力支撑。 南京大学在2000年配置第一台高性能计算机,随后又进行了多次增建,但扩建速度始终难以跟上科研需求的发展。随着学校师生对高性能计算的需求日益增长,全校的计算资源缺口不断拉大。 目前我们能看到的机房,是2015年南京大学和联想打造的二期计算平台扩建而来。该平台在2017年6月发布的环球超级计算TOP500排行榜中名列第284位。六年来系统运行稳定,故障率小于1%,近三年的CPU利用率大于93%。 盛乐标告诉《财经十一人》,建超算平台或者高性能计算平台,效率和稳定性是最关键的因素 ——科研计算任务有时需要历经数月甚至数年,因此,计算平台除了追求计算效率,还要尽可能降低计算过程发生故障的可能性。 这一需求可以通过两种可行的路径来满足:首先是使用软件。包括服务器内置的节能的软件和开源的第三方软件去对整个系统来进行节能。举例来说,高性能计算平台CPU的占用通常长期维持在一个较高的水平,软件则可以在CPU占用相对比较低的时候自动判断,让机器关机;其次是通过器件,即可以采用更高转换效率的电源和低损耗的材料来构建整个高性能计算的系统。 高性能计算中心对南京大学在基础科研方面的帮助很大。 以高性能计算典型应用场景——行星物理环境模拟为例,受限于客观条件,对行星内部环境和物质的实验观测、研究挑战巨大,有必要采用理论模拟计算。依托南京大学高性能计算中心的高性能算力,物理学院师生研究了行星内部高压下的新材料,且大幅提高了研究效率,目前相关成果已在Nature、Physics、PRX、NSR等国际一流学术刊物发表。 地质探测也是高性能计算的典型应用场景,中国石油集团东方地球物理公司数据中心原总工程师赖能和表示,高性能计算与AI技术结合大幅提升了油气勘探效率,同时企业与高校的合作,进一步促进了产学研用融合发展。 上述案例之外,南大高性能计算中心已经助力产出一批杰出科研成果,覆盖流体力学模拟、系统仿真、中大尺度气象模式模拟等多个领域。仅2019至2021三年,高性能计算中心超算平台就支持了超百篇卓越学科论文的发表,并支撑学校教师承担三十多项国家重大科研项目,在学校学科发展中,发挥了不可替代的重要作用。
在科学研究领域,AI for Science是近年来的新的研究风潮。传统科学计算不能满足Ai for science的需求,高性能计算可以,AI for science的兴起会提高对高性能计算的需求。 所谓AI for Science,即在科学计算中引入AI的方法,来进行科学研究——今天的通用人工智能,通过大数据、大算力和强算法,学会了没有教过它的技能,但这些技能仍是人类已掌握的。而未来,通用人工智能则是把人类的知识压缩给到计算机,通过新的技术和模型,继续训练人工智能,从而发现过去人类未知的领域。 AI for Science不仅可以帮助科学家解决已有的问题,也可以帮助科学家发现新的问题和方向。 AI可以通过生成新的假设、设计新的实验、提出新的问题等方式,激发科学家的创造力和好奇心。例如,在医药领域,微软研究院科学智能中心 (AI4Science) 利用深度学习对药物分子进行生成和优化,从而加速药物开发和创新。在地球科学领域,美国国家气象局利用AI对气象数据进行预测和分析,从而提高灾害预警报和应对。 目前,全球各国大学目前都在高性能计算领域进行深度攻关,高性能计算 (HPC) 、理论、实验成为当今高校开展科学研究的三大支柱,尤其是高性能计算,已经成为衡量一所学校科研实力的最重要指标,高校其它各学科对高性能计算资源的依赖越来越强,需求递增攀升。 上海交通大学有“思源一号”绿色水冷高性能计算机群,总计算力为6000万亿次/秒,可实现42%的节能减排。类似的还有北京大学‘未名一号’,这是国内首个大型温水水冷高性能计算集群,理论计算峰值高达411万亿次/秒。该平台可以为数学、力学、物理学、化学、生物学、地球科学、计算机科学等学科提供了高性能计算环境。
高校建高性能计算中心,是由高校进行科研创新、培养科研人才的切实需求决定的。中国石油集团东方地球物理公司数据中心原总工程师赖能和告诉《财经十一人》,高性能计算有助于推动科技创新能力的跨越式发展,要跨越式发展就一定要使用高性能计算进行突破。 他表示,中国高性能计算已经进入全球第一梯队,TOP100高性能计算机平均能力比全球TOP500平均能力高出30%。其中自主研发的集群占95%。 不过,中国高性能计算整体实力仍有待提高。根据国防科技大学的统计数据,在全球高性能计算机性能TOP50机器制造台数上,中国虽然近年来一直保持数量稳步增长,但距离美国仍有较大差距。特别是2015年起,美国将多所中国高性能计算相关机构或企业,包括国防科大、无锡江南计算技术研究所、曙光等列入实体清单。
全球高性能计算机性能TOP50机器制造台数。数据来源:《国防科技大学学报》,东吴证券研究所。图源:东吴证券研报。 也就是说,高性能计算正在成为大国之间科技竞争的前沿。发展自主可控的高性能计算至关重要。
根据国防科技大学统计,国内高性能计算市场格局稳定,联想、曙光和浪潮分别占据市场份额前三,但是只有曙光一家拥有从硬件到软件系统的国产自主知识产权。 赖能和认为,国产GPU要获得大规模应用,需要实现与国际主流生态的兼容,并要解决自身生态建设问题。虽然目前我们还有差距,但可以一步一个脚印地来。 盛乐标则认为,ChatGPT带动了AI大模型热度居高不下,但它的热度总有一天会降下去。新的GPT模型对硬件资源需求非常大,并且开始闭源,预示着很多应用要建立自己的软件生态并要持续优化算法。通过计算方法的革新和软件算法的优化,以降低AI对硬件大规模数量的依赖,或许是国内科研领域实现弯道超车更经济的方法。 根据东吴证券的研究,目前,我国高性能计算中心建设主要通过部省 (市) 合作协议确立高性能计算中心的建设计划,国家科技部代表国家科技战略对主机性能设定目标。地方政府希望高性能计算中心能成为区域科技发展的功能载体,为其聚集人才、创新科技并推动经济发展。东吴证券2021年预计,大型高性能计算中心单个投入在 20 亿元以上,按平均每年新建5个高性能计算中心来计算,政府规划的高性能计算中心市场规模每年将达到 100 亿元。 除了高校和科研机构,更广阔的使用前景理应是在产业。 根据第三方机构观研天下数据,2022年中国整体高性能计算市场规模或超 400 亿元。除政府规划外,互联网巨头、运营商和硬件制造厂商均在均积极布局高性能计算建设。 随着高性能计算的发展,尤其是使用成本的不断下降,其应用领域也从过去传统的核武器研制、石油勘探、国防安全等专业领域向更广泛的制药、基因工程、动漫渲染、互联网等更“平民”经济领域延伸。利用高性能算力+专业数字研发平台+AI已经成为了新的趋势。吉利汽车就打造了自家的高性能计算中心,用于新车研发中碰撞试验。 不过,并不是所有企业都如此财大气粗。在高性能计算商用前景中,成本是第一道大考。 计算中心的建设成本高昂,除了后续电费运维支出,南京大学高性能计算中心2015年二期一次性建设费用为5000万,这一价格为高校采购价格,远低于企业自建高性能计算中心所需费用。 盛乐标告诉《财经十一人》,如果企业自建高性能计算中心,明面上的成本是购买服务器这些硬件基础设施和后续每年的电费、维护费,这些投入已经不菲;而超算建好以后,隐性的成本是软件和人。企业使用的商用软件非常贵,特别是一些工业软件仍旧存在卡脖子问题,对于特殊行业,甚至难以买到国外的软件。 人才也分两种:一类是会管理的人、一类是会应用的人。超算管理相关的人才在国内是短缺的;至于应用的人才,跟企业的业务密切相关,也跟企业在研发上的投入力度有关。 “到底企业能有多少相关的研发投入?企业能支持引进或招聘多少大规模应用超算平台人才?没有足够的人才的投入,即使自建了超算,也发挥不出超算的价值。国内自建超算的制造业企业,一般都是需要超算帮助其产品更新的大型制造企业,但是对于更多的企业,不一定能舍得投入这么多经费和人力来进行研发。”盛乐标说。 而如果企业选择到外面的超算/智算中心租用资源,虽然每次使用成本会高些,但是一次性的投入就少了。不过即使是外面租用,也得是认真做深入研发的企业才会投入。也就是说,只有极少数的企业,才能有需求、有资源且有人才来采用高性能计算。 因此,在未来,AI for Science将会给高性能计算带来新的机遇和挑战。巨头企业现在投入高性能计算中心,更有可能获得技术上的领先和突破。但是,高性能计算发展前景,尤其是商用前景仍旧需要生态圈里的各个角色的共同努力。