科学研究的目标是建立数学模型,准确描述观察到的现象。创建模型有两种常见方法: 根据领域知识手动创建模型并用数据做拟合,或者使用机器学习算法从大型数据集自动创建模型。然而,这两种方法都并非完美。如何从数值数据中寻找有意义的模型,并保持与通过一般逻辑公理表达的先验知识一致,仍然是一个开放的问题。4月12日发表于 Nature Communications 的论文提出了名为 AI 笛卡尔的系统,该系统是一个人工智能科学家,可以结合逻辑推理和符号回归,从公理化知识和实验数据中提取自然现象的模型。研究者在三个系统中测试了 AI 笛卡尔,包括开普勒行星运动第三定律、爱因斯坦相对论和朗缪尔吸附方程。
论文标题:Combining Data and Theory for Derivable Scientific Discovery with AI-Descartes论文地址:https://www.nature.com/articles/s41467-023-37236-y
该研究提出的 AI 笛卡尔系统,通过将逻辑推理与符号回归相结合,从公理知识和实验数据中得出自然现象模型的原则推导。该系统对真实世界的数据和小的数据集有效,即当逻辑推理被用来区分具有相似误差的候选公式时,AI 笛卡尔可以从很少的数据点发现支配规律。这个名字是对17世纪数学家和哲学家勒内·笛卡尔的致敬。笛卡尔认为自然界可以用一些基本的物理定律来描述,而逻辑推理在科学发现中起着关键作用。图1. AI 笛卡尔的发现循环
1. AI 笛卡尔
该系统将推理系统和一种新的基于最优化的符号回归(SR)算法结合。符号回归模型通常比神经网络(NN)模型更易于解释,并且需要更少的数据。符号回归寻找方程来拟合数据。给定基本的运算符,如加法、乘法和除法,系统可以生成数亿到数百万个候选方程,搜索那些最准确地描述数据关系的方程。AI 笛卡尔的端到端发现系统通过符号回归从数据中提取公式,然后从一组公理中提供公式可导性的形式证明或不一致性的证明。当模型被证明是不可推导时,AI 笛卡尔还提供新措施,表明如何构建近似可推导的模型。如果有多个候选方程与数据匹配,该系统确定哪些方程最适合背景科学理论。推理能力也将 AI 笛卡尔与 ChatGPT 等“生成式人工智能”程序区分开来。ChatGPT 的大型语言模型逻辑能力有限,有时还会搞乱基础数学运算。
因此,AI 笛卡尔方法旨在发现一种未知的符号模型,该模型应该可以拟合一组数据点,从背景理论推导而来,具有低复杂性,并具有有界预测误差。系统的输入是四元组,包括背景知识、数据、一个假设类和一组建模者偏好(例如精度的误差限制)。AI 笛卡尔可以从几个数据点发现支配定律,而且逻辑推理可以用来区分数据上具有类似误差的候选公式。研究将 AI 笛卡尔用于发现开普勒行星运动的第三定律,爱因斯坦相对论中的时间延迟定律,以及朗缪尔吸附方程。
图3. AI 笛卡尔重新发现开普勒第三定律AI 笛卡尔的目标是从实际测量的成对质量,它们之间的距离,和它们的轨道周期中重新发现开普勒第三定律。使用符号回归模块得到一组候选公式。三种逻辑度量方法被用来评估这些公式的质量:逐点推理误差、泛化推理误差,和变量相关性。结果表明,AI 笛卡尔能够利用符号回归模块重新发现原始定律,并且能够从一组具有相似数值误差的候选集中识别出可推导的原始定律。
AI 笛卡尔的一个缺陷是假设背景理论的正确性和完整性,这原则上可以通过引入溯因或概率推理来解决。然而,这项工作中使用的背景理论是人为生成的:因为针对物理学和其他自然科学的机器可读公理目前是有限的。另一个限制是自动定理证明程序和符号回归工具的可扩展性,这些工具具有过多的计算复杂性。最后,AI 笛卡尔可以从单个组件的改进,以及通过引入技术如实验设计等中获益。论文第一作者、剑桥人工智能研究所的科学家 Cristina Cornelio 表示,与其他系统相比,AI 笛卡尔的最大优势在于逻辑推理能力。“我们正在将第一性原理方法与机器学习时代更为常见的数据驱动方法相结合,第一性原理方法从现有的背景理论中推导出新的公式,已经被科学家们用了几个世纪。这种结合使我们能够利用两种方法,为广泛的应用创建更准确、更有意义的模型。”将逻辑推理与符号回归相结合,AI 笛卡尔能够从公理化的知识和实验数据中对自然现象模型进行原理性的推导。该系统尤其适用于嘈杂的、真实世界的数据,这些数据可能使传统的符号回归程序出错。它还可以很好地处理小型数据集,甚至可以在只有10个数据点的情况下找到可靠的方程。该方法在各个科学领域都有潜在应用,可以帮助发现有意义的公式,准确地描述实验数据,同时将先验知识表示为约束结合进来。未来的目标还包括训练计算机阅读科学论文,并自己构建背景理论。
本文编译自:https://ai-descartes.github.io原文题目:AI-Descartes: A tool for science discovery
AI+Science 读书会启动
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。读书会从2023年3月26日开始,每周日早上 9:00-11:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。详情请见:人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动