AI与HPC融合:开启科学计算的新纪元
宇宙早期的膨胀模型为我们所熟知,其中空间体积呈指数级扩张,随后增速放缓。如今,AI赋能的HPC(简称AHPC)正在科学领域开辟新的天地,使过去传统HPC数值方法难以企及的领域变得可以探索。
在数值计算的世界里,预测未来的一种方法是基于历史数据进行外推。尽管并非总是准确无误,但预测未来超级计算机运行HPC基准测试的速度通常就是这种外推的结果。这些预测反映了计算效率和瓶颈,最终塑造了对近期未来的合理期望。许多其他应用也遵循类似的模式,运行基准测试,绘制趋势线,设定合理预期。
然而,HPC的线性发展即将进入一个加速期。借助生成式AI(即大型语言模型,LLMs),HPC的能力和应用范围将迎来跨越式发展。尽管存在“幻觉”问题,经过精心训练的LLM能够发现科学家和工程师尚未察觉的关联或特征。LLM能够识别数据中的“特征性”。以“速度”为例,它存在于汽车、狗、计算机、糖浆等不同类型的对象中。每一种都有与之相关的某种形式的“速度特性”。LLM能够识别“速度特性”并在看似毫不相关的数据之间建立联系、关系或类比。(例如“汽车比狗快”或“这台电脑慢如蜗牛”)
数据中还潜藏着我们未知的“隐性特征”(dark features)。经过适当训练,LLMs擅长识别和利用数据中的“隐性特征”,即科学家和工程师尚未发现但确实存在的关系或“特征性”(feature-ness)。
AI赋能的HPC正是利用这些隐性特征拓展了HPC的计算空间。这些新工具通常被称为“代理模型”(surrogate models),它们将为科学家和工程师提供寻找潜在解决方案的捷径,推荐最佳候选方案。例如,面对1万条可能的解决路径,LLM可以将可行解决方案的范围缩小几个数量级,使曾经在计算上不可行的问题变得可以解决。
此外,使用基础模型的过程类似于一个NP难问题(NP-hard problem)。创建模型的计算成本高昂,但验证结果通常相对简单(或至少在较短时间内可行)。我们正在进入AI赋能HPC的新时代,AI被用于辅助传统HPC计算领域,通过提供计算量更小的解决方案或推荐更可行的优化解空间。
这些重大突破正在发生。与创建像ChatGPT或Llama这样的通用大型AI模型不同,AI赋能的HPC似乎更专注于为解决特定科学领域问题而设计的专门基础模型。文中描述了三个此类模型的例子。
AI赋能HPC的潜力和影响尚未可知,因为科学家和工程师无法直接看到基础模型能够识别的“隐性特征”。这一领域的进展不会是线性的。如文中所述,早期的基础模型已经预示着计算科学空间将迎来巨大的拓展。
可编程生物学:EvolutionaryScale ESM3
生物科学的终极目标是理解和掌控DNA序列、蛋白质结构以及细胞和器官功能。这些领域各自都是独立且活跃的研究方向。将这些过程整合起来将开启可编程生物学的新纪元。如同任何新兴技术一样,它既带来风险,也蕴含巨大潜力,可能催生出前所未有的新药物、治疗方法和药品。
新兴公司EvolutionaryScale开发了一种名为ESM3(EvolutionaryScale Model 3)的生命科学基础模型,它有望像设计机器、微芯片和计算机程序那样,从基本原理出发进行生物工程设计。该模型通过近28亿个来自各种生物体和生态系统(特定地理区域内具有特定气候、植被和动物群的生物群落)的蛋白质序列进行训练,相较于先前版本有了显著提升。
生物工程实验一直是一项艰巨的任务。基于人类基因组(以及其他基因组),蛋白质折叠研究试图预测蛋白质在生物环境中的三维结构。这个过程计算量巨大,其中最成功的尝试之一是AlphaFold,它利用深度学习加速了这一过程。
作为概念验证,EvolutionaryScale发布了一份预印本(目前处于预览阶段,即将提交至bioRxiv),描述了他们成功设计出一种新型绿色荧光蛋白(GFP)。荧光蛋白是水母和珊瑚发光的原因,也是现代生物技术中的重要工具。ESM3设计的新蛋白质与已知最相近的天然荧光蛋白序列仅有58%的相似度,但其荧光强度与天然GFP相当。
从海量序列和结构中随机(或通过反复试错)生成一种新的GFP几乎是不可能的。EvolutionaryScale指出,“从自然界中GFP多样化的速度来看,我们估计这种新荧光蛋白的生成相当于模拟了超过5亿年的进化过程。”
在其介绍性博客中,EvolutionaryScale提到了安全性和负责任发展的重要性。诚然,正如可以要求像ESM3这样的基础模型创造新的抗癌药物候选物一样,它也可能被用来设计比当前已知更致命的物质。随着基础模型的不断完善和普及,AI安全将变得愈发重要。
EvolutionaryScale承诺采取开放开发策略,将他们的权重和代码公开在GitHub上。他们还列举了八个使用开放ESM模型的独立研究项目。
天气和气候预测:微软ClimaX
AI赋能HPC的另一个实例是微软的ClimaX模型。作为开源模型,ClimaX是首个专为天气和气候科学训练的基础模型。
当前最先进的数值天气和气候模型基于模拟大量微分方程组,这些方程根据不同地球系统的已知物理规律描述能量和物质的流动。如此庞大的计算量需要大型HPC系统支持。尽管这些数值模型取得了显著成果,但由于底层硬件的限制,它们通常在分辨率上受到制约。机器学习(ML)模型可以利用海量数据和强大的计算能力提供一种替代方案。近期将深度学习系统应用于短期和中期天气预报的尝试取得了成功。然而,大多数ML模型是针对特定数据集上的特定预测任务进行训练的,缺乏天气和气候建模所需的通用性。
与许多基于文本的变换器(LLMs)不同,ClimaX基于谷歌研究团队改进的视觉变换器(ViT)模型。ViT最初是为处理图像数据而开发的,但经过修改后被用于天气预测。
ClimaX可以针对各种预测任务进行微调,以适应不同用途,并且在多个基准测试中表现优于最先进的预测系统。例如,在使用相同的ERA5数据时,即使在中等分辨率下,ClimaX的表现也与IFS(综合预报系统,全球数值天气预报系统)不相上下,甚至更胜一筹。
阿贡实验室运用AI追踪新冠病毒变异
美国能源部(DOE)下属的阿贡国家实验室及其合作团队成功应用了一个领域特定的基础模型。该项目开发了一种大型语言模型(LLM),用于辅助发现SARS-CoV-2的变异株。
所有病毒,包括导致COVID-19的病毒,在利用宿主细胞机制复制时都会发生进化。每一代都可能产生突变,形成新的变异株。虽然许多变异株不会表现出额外的活性,但有些变异株可能比原始病毒更具致命性和传染性。当某一特定变异株被认为更具危险性或危害性时,它会被标记为需要关注的变异株(VOC)。由于可能的变异数量庞大,预测这些VOC非常困难,关键在于识别可能引发问题的变异。
研究人员利用阿贡实验室的超级计算和AI资源,开发并应用LLM模型来追踪病毒如何变异成更危险或更具传染性的变异株。阿贡团队和其合作伙伴创建了首个基因组级语言模型(GenSLM),该模型能够分析COVID-19基因并快速识别VOC。该模型经过一整年SARS-CoV-2基因组数据的训练,能够区分病毒的各种毒株。此外,GenSLM是首个可以进行调整并应用于类似VOC识别的其他预测任务的全基因组级基础模型。
在GenSLM出现之前,识别VOC需要逐一分析每个蛋白质并映射每个突变,这一过程耗时耗力。而GenSLM则大大简化了这一过程。
图中展示了GenSLM模型能够区分各种病毒毒株的能力。
在计算生物学家Arvind Ramanathan的带领下,研究团队包括阿贡的同事以及来自芝加哥大学、NVIDIA、Cerebras公司、伊利诺伊大学芝加哥分校、北伊利诺伊大学、加州理工学院、纽约大学和慕尼黑工业大学的合作伙伴。有关这项工作的详细描述可以在他们发表的论文《GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics》中找到。值得一提的是,该项目凭借其快速识别病毒进化的创新方法,荣获了2022年戈登贝尔基于高性能计算的COVID-19研究特别奖。
助力科学创新
GenSLM的成功开发展示了AI在科学研究中的巨大潜力。尽管目前构建和运行LLM基础模型仍需要专业知识,但随着技术的进步,创建新的和增强的模型将变得更加便捷。这些基础模型有望识别特定领域的"隐性特征",推动科学和工程领域向新的高度发展。
可以预见,在不久的将来,科学和技术的疆界将被进一步拓展,为人类带来更多惊喜和机遇。
Source:Doug Eadline; AI-augmented HPC and the Inflation of Science and Technology; June 28, 2024
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)