论文题目:Causal Reasoning and Large Language Models: Opening a New Frontier for Causality论文链接:https://arxiv.org/abs/2305.00050作者:E Kıcıman, R Ness, A Sharma, C Tan [Microsoft Research & University of Chicago]
诺贝尔物理学奖得主尤金·维格纳在1960年曾撰文“数学在自然科学中不合理的有效性”(The Unreasonable Effectiveness of Mathematics in the Natural Sciences),表达他惊奇于数学对物理世界的深刻描述能力,数学常常指引物理理论的发展,甚至指引实验预测。这项新研究的论文作者之一 Amit Sharma 则发表博客文章“大语言模型对于因果推理不合理的有效性”,探讨大语言模型进行因果推理的惊人准确性。
文章题目:On the unreasonable effectiveness of LLMs for causal inference文章链接:https://threadreaderapp.com/thread/1653457971844874240.html
在这项研究中,基于大语言模型的方法在多个因果基准测试任务上表现出最高的准确性。基于GPT-3.5/4的算法在多项因果推理任务中胜过现有算法,包括成对因果发现任务(97%,提高13个百分点),反事实推理任务(92%,提高20个百分点),和实际因果关系(在确定事件的必要和充分原因方面具有86%的准确性)。 图灵奖得主、计算机科学家 Judea Pearl 在推特转发论文并评论道,大语言模型应用于因果推理任务具有巨大的潜力,可能为“因果之梯”添加新的层级。
图1. Judea Pearl 的因果之梯包括三个层级:关联(association)、干预(intervention)和反事实(counterfactual),分别对应逐级复杂的因果问题。
这些发现意味着大语言模型可以作为工具,直接从混乱的人类文本中进行因果归因。虽然大语言模型可以从文本中推断相关变量,但评估人类因素(例如,一个行动是否被认为合乎社会规范的?)对大语言模型来说仍然是艰难的任务。在需要算法匹配人类直觉的 Big Bench 因果判断任务上,GPT-3.5/4获得了较低的准确率。
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。 集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣,共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。读书会从2023年3月26日开始,每周日早上 9:00-11:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。 详情请见:人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动