探讨:如何发现AI+Science中的下一个AlphaFold和ChatGPT?| 周日直播·AI+Science读书会
导语
什么是AI+Science?有哪些重要的未解决的AI for Science问题?哪些是潜在可能瓶颈以及中期解决方案?斯坦福大学计算机科学系博士后研究员吴泰霖将综述性地介绍AI+Science的领域图景,看AI+Science的范式如何赋能科学和技术,最重要的是,作为一个该领域的科研工作者,希望借集智俱乐部的平台,跟大家共同探讨一些「重要问题」,互相激发,去找到「AI+Science」领域中类似于Alphafold和ChatGPT这样跨时代的想法和工具。
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,从2023年3月26日开始,每周日早上 10:00-12:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。
分享内容简介
分享内容简介
分享大纲
分享大纲
为什么要研究 「AI + Science」 从微观到宏观跨尺度视角看「AI+Science」 AI for Science重要问题、进展以及与各机器学习分支的关系 Science for AI重要问题、进展和挑战 探讨:有哪些未解决的重要问题
下一个AlphaFold:有哪些重要的未解决的AI for Science问题,它的解决能够开辟一个全新的领域,促进上百个问题的解决?
主讲人
主讲人
吴泰霖是斯坦福大学计算机科学系的博士后研究员,由Jure Leskovec教授指导。他从麻省理工物理学博士毕业,其毕业论文主题为AI for Physics and Physics for AI,本科毕业于北京大学。他的研究兴趣为AI+Science,包括开发机器学习方法用于大规模科学和工程模拟,开发神经符号方法用于科学发现,以及由科学问题启发的表示学习(运用图神经网络、信息理论和物理等方法)。他的工作发表在NeurIPS、ICLR、UAI等顶级机器学习会议以及物理学顶级期刊上,并被MIT Technology Review报道。他是美国国家科学院院刊(PNAS)、Nature Communications、Nature Machine Intelligence、Science Advances等综合期刊的审稿人。
个人主页:https://tailin.org/
直播信息
直播信息
为了帮助大家更好地了解这个领域,接下来我会介绍 AI + Science 领域的一些背景知识和基本概念。主要围绕以下三个问题展开:
什么是AI +Science ?
AI + Science领域取得了哪些令人兴奋的进展?
AI + Science领域里面有哪些令人激动的研究问题?
什么是AI +Science ?
AI + Science领域取得了哪些振奋人心的进展?
自2020年以来,AI+Science的发展迎来了爆炸性增长阶段,其中比较有影响力的技术发展里程碑如下:
AlphaFold 2:成功预测了98.5%的人类蛋白质结构,具有原子级准确度,与复杂实验(如低温电子显微镜)的结果相媲美。
DeePMD-kit:结合了机器学习、高性能计算和物理建模,将分子动力学推向了10亿个原子的极限,同时保持高精度。
FourCastNet:基于新型算子学习的神经网络模型,将天气预报加速了45,000倍。
用AI解决物理问题:在工业领域,将数据和物理机制相结合,解决复杂高维物理问题,如流体和结构PDE方程求解。
AI + Science领域里面有哪些令人激动的研究问题?
集智俱乐部读书会视角
AI for scientific simulation
科学仿真(scientific simulation)是科学中的核心任务之一。在AI用于科学仿真中,无论是微观还是宏观,以下的几点是核心问题:
对称性和守恒律:如何设计机器学习的模型架构使得物理系统的对称性和守恒律能被严格遵守?
多尺度和多分辨率:很多系统的时空动力学横跨多个尺度和分辨率,往往某些部分非常动态,需要非常精细的分辨率来准确模拟,而其他部分则比较静态。如何设计机器学习的模型架构能够达到准确度和计算量的合理权衡?
大规模特性:当需要模拟系统的自由度有上百万甚至上亿时,如何设计模型以降低计算量,或者让机器学习的架构能够适应这样大规模的特性?
长时预测的准确性:很多系统的模拟需要用相同的模型自回归地预测几十步甚至上千步,在这个过程中,模型的预测误差会累积,导致在自回归中机器学习模型的输入会来自分布外(out-of-distribution)。如何降低长时预测的误差,提高准确性?
由于任务的复杂度,AI用于科学模拟也能为机器学习和计算机科学提供全新的挑战,在如何设计全新的结合对称性的神经网络、表示学习、泛化理论、高性能计算、不确定性量化(uncertainty quantification)等方面有很多全新的机会。
AI for scientific design
设计和控制是科学和工程中的另一个核心任务。这个领域目前刚刚起步,其复杂性和难度为AI提供了一个极佳的施展空间,能够极大促进强化学习、扩散模型、图神经网络、泛化等机器学习领域新算法的开发。一些可能性如下:
如何优化可控核聚变的托克马克装置的形状,或者设计新的托克马克装置?
如何通过机器学习设计政策(比如碳市场)或者设计大气工程以减缓全球变暖?
如何通过model-free的方式设计高鲁棒性的量子操控方案,实现高保真度多比特量子门?是否可以通过强化学习的方式来设计新的量子纠错码,帮助实验实现可纠错量子计算?
AI for scientific discovery
科学发现是科学中最激动人心的过程。而AI可以极大地加速这一过程。在AI用于科学发现中,有以下一些重要问题:
如何识别复杂系统中重要的自由度?比如虽然一团物质有很多微观自由度,但仍可以很好地被少数几个宏观自由度描述,如压强,体积,温度等。
如何发现观测数据所遵循的理论(theory)?比如发现万有引力定律,发现麦克斯韦方程等。
如何发现系统中的重要概念,比如对称性和守恒律?
如何发现系统各个组成部分之间的关系?
如何预测系统在外界微扰下产生的变化(比如细胞对于基因的敲除的反应)?
如何构建AI Scientists?科学中哪些问题可以被AI自动化?
以上的这些问题,也与机器学习中的神经符号模型(neurosymbolic models)、不变学习(invariant learning)、因果学习、世界模型(world models)、主动学习(active learning)等有深刻联系。
Physics-inspired generative models
概率生成模型,简称生成模型(Generative Model),是概率统计和机器学习中的一类用于随机生成可观测数据的模型。生成模型的应用十分广泛,可以对不同类型数据进行建模,包括图像、文本、声音。目前有许多非常成功的生成模型源自某些经典的物理学模型/理论,比如Stable Diffusion借鉴扩散思想、受限玻尔兹曼机(RBM)借鉴统计力学中的玻尔兹曼分布、自组织映射(SOM)借鉴复杂系统的自组织概念... 物理学和生成模型的交叉已经/可能给出以下问题的答案:
如何利用量子计算的巨大潜力,构建量子生成模型算法?
如何矫正对实验的数值建模和实际实验之间的误差(Deconvolution)?
如何从已经建立的物理学理论中挖掘出可以迁移为生成算法的理论框架(DMP,RBM,SOM...)?
如何建立一个大型数值模拟系统(e.g.一个大型的基于PDE的流体系统)的快速响应的版本?
Physics-inspired learning theory
物理学启发的机器学习(physics-inspired machine learning,简称PIML,注意区别于physics-informed machine learning)是一种结合了物理学理论和机器学习技术的新兴领域。PIML的目标是利用物理学中的基本原理来设计新的机器学习算法和模型。PIML通常涉及到在机器学习模型中引入物理学中的概念,如对称性、能量、熵、自组织、重整化群等,并利用它们来设计、约束、优化机器学习模型。以下是一些PIML已经/可能解决的问题:
如何借鉴物理理论以提高ML算法效率、设计可解释性更好的算法?
是否可以从物理的角度,解释某些算法为什么对特定问题/场景非常有效?
如何针对问题/应用场景利用相应的物理知识来减少训练所需的数据量?
怎样利用最小作用量原理(包括能量最低原理)、粒子群优化等等来设计新的优化算法?
《科学智能(AI4S)全球发展观察与展望》报告视角
Advancing Scientific Discovery with Artificial Intelligence
AI+Science 读书会启动
点击“阅读原文”,报名读书会