DeepSpeed4Science:利用先进的AI系统优化技术实现科学发现
(本文阅读时间:14分钟)
本文转载自微软 DeepSpeed 团队官方知乎账号:zhihu.com/people/deepspeed,由微软 DeepSpeed 团队翻译自官方英文博客:Announcing the DeepSpeed4Science Initiative: Enabling large-scale scientific discovery through sophisticated AI system technologies,本文略作调整。
在接下来的十年中,深度学习可能会彻底改变自然科学,增强我们对自然现象进行建模和预测的能力。这可能预示着科学探索的新时代,为从药物开发到可再生能源的各个领域带来重大进展。为了响应这一机会以及微软“予力全球每一人、每一组织,成就不凡”的使命,微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划,旨在通过 AI 系统技术创新帮助领域专家解锁当今最大的科学之谜。
DeepSpeed 系统是由微软开发的业界领先的开源 AI 系统框架,它为各种 AI 硬件上的深度学习训练和推理提供了前所未有的规模和速度。图1展示了我们对 DeepSpeed4Science 这一新计划的基本方法。通过利用 DeepSpeed 当前的技术方案(训练、推理和压缩)作为基础技术推动器,DeepSpeed4Science 将创建一套专为加速科学发现而量身定制的 AI 系统技术,以应对其独特的复杂性,超越用于加速通用大型语言模型(LLMs)的常见技术方法。我们与拥有科学 AI 模型的内部和外部团队紧密合作,以发现和解决领域特定 AI 系统的挑战。这包括气候科学、药物设计、生物学理解、分子动力学模拟、癌症诊断和监测、催化剂/材料发现、和其他领域。
图1:DeepSpeed4Science 方法概述:专为加速科学发现和应对其复杂性而量身定制的 AI 系统技术开发。
我们的长期愿景是将 DeepSpeed4Science 发展成一个用于分享支持科学发现的先进 AI 技术的软件平台和统一代码仓库。DeepSpeed4Science 的设计旨在包容性,呼应微软的“AI for Good”承诺。这体现在该计划对一系列标志性科学模型的支持上,他们代表了一些最关键的 AI4Science 应用场景。在这篇博客中,我们展示了 DeepSpeed4Science 如何帮助解决结构生物学研究中的两个关键 AI 系统挑战:(1) 解决了以 Evoformer 为中心的蛋白质结构预测模型中的内存爆炸问题,以及(2)为更好地理解引发大流行的病毒的进化提供 AI 模型长序列支持。
DeepSpeed4Science 的新系统技术可以用于很多推动科学边界的标志性模型,赋能 AI 驱动的科学发现。目前,DeepSpeed4Science 很荣幸地支持来自微软研究院 AI4Science(微软研究院科学智能中心)、微软 WebXT/Bing、美国能源部国家实验室和多所大学的几个关键科学模型。
微软内部合作伙伴
科学基础模型(Scientific Foundation Model,SFM),微软研究院 AI4Science
图2:科学基础模型(Scientific Foundation Model,SFM)及其当前探索:Distributional Graphormer。
科学基础模型(SFM)旨在创建一个大规模基础模型,以支持自然科学发现。其支持多种输入模态、多个科学领域(例如,药物、材料、生物学、健康等)的计算任务。DeepSpeed4Science 合作伙伴关系将为 SFM 团队提供新的训练和推理技术,以助力他们的新 AI 方法(例如Distributional Graphormer),为其带来更高的效率与更多的研究突破。
ClimaX,微软研究院 AI4Science
图3:ClimaX 是第一个设计用于执行各种天气和气候建模任务的基础模型
分子动力学与机器学习力场 (Molecular Dynamics and Machine Learning Force Field),微软研究院 AI4Science
图4:一百万步的分子动力学模拟:RBD-蛋白(RBD-protein)与蛋白抑制剂(protein inhibitor)相互作用。
微软天气,微软WebXT/Bing
图5:微软降水预报(每4分钟一次对接下来4小时进行预测)。
展示(I):DeepSpeed4Science 通过 DS4Sci_EvoformerAttention 消除以 Evoformer 为中心的结构生物学模型的内存爆炸问题
图6:在训练过程中 OpenFold 对 PDB 链7B3A_A的预测。
展示(II):DeepSpeed4Science 通过系统和算法方法为基因组基础模型(例如,GenSLMs)提供长序列支持
图8:GenSLMs:获2022年 ACM 戈登贝尔奖的 COVID 基因组模型(基于 GPT-NeoX 的 25B/33B 模型)。它用于学习描述 SARS-CoV-2 基因组生物学意义的潜在空间。这个 GIF 展示了一个重要的蛋白质家族苹果酸脱氢酶(malate dehydrogenase)的根据重要特征着色的潜在空间的投影。
致谢
Core DeepSpeed4Science Team:
Shuaiwen Leon Song (DeepSpeed4Science lead), Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Xiaoxia (Shirley) Wu, Masahiro Tanaka, Martin Cai, Adam Graham, Charlie Zhou, Yuxiong He (DeepSpeed team lead)
Our Founding Collaborators (in alphabetical order):
Argonne National Lab team: Rick Stevens, Cristina Negri, Rao Kotamarthi, Venkatram Vishwanath, Arvind Ramanathan, Sam Foreman, Kyle Hippe, Troy Arcomano, Romit Maulik, Maxim Zvyagin, Alexander Brace, Yuntian Deng, Bin Zhang, Cindy Orozco Bohorquez, Austin Clyde, Bharat Kale, Danilo Perez-Rivera, Heng Ma, Carla M. Mann, Michael Irvin, J. Gregory Pauloski, Logan Ward, Valerie Hayot, Murali Emani, Zhen Xie, Diangen Lin, Maulik Shukla, Weili Nie, Josh Romero, Christian Dallago, Arash Vahdat, Chaowei Xiao, Thomas Gibbs, Ian Foster, James J. Davis, Michael E. Papka, Thomas Brettin, Anima Anandkumar
AMD: Ivo Bolsen, Micheal Schulte, Bo Begole, Angela Dalton, Steve Reinhart, Ashwin Aji, Jalal Mahmud, Mahesh Balashibramanian
Brookhaven National Lab team: Adolfy Hoisie, Shinjae Yoo, Yihui Ren.
Columbia University OpenFold team: Mohammed AlQuraishi, Gustaf Ahdritz
Microsoft Research AI4Science team: Christopher Bishop, Bonnie Kruft, Tie-Yan Liu, Christian Bodnar, Wessel Bruinsma, Chan Cao, Yuan-Jyue Chen, Peggy Dai, Patrick Garvan, Liang He, Elizabeth Heider, PiPi Hu, Peiran Jin, Fusong Ju, Yatao Li, Chang Liu, Renqian Luo, Qi Meng, Frank Noé, Tao Qin, Janwei Zhu, Bin Shao, Yu Shi, Wenlei Shi, Gregor Simm, Megan Stanley, Lixin Sun, Yue Wang, Tong Wang, Zun Wang, Lijun Wu, Yingce Xia, Leo Xia, Shufang Xie, Shuxin Zheng, Jianwei Zhu
Oakridge National Lab team: Prassana Balaprakash, Georgia Tourass
Princeton University: William Tang, Kyle Felker, Alexey Svyatkovskiy (Microsoft liaison)
Rutgers University: Hang Liu
WebXT Weather team: Pete Luferenko, Divya Kumar, Jonathan Weyn, Ruixiong Zhang, Sylwester Klocek, Volodymyr Vragov
你也许还想看: