大语言模型做科研的N种可能性：从自主进行科学实验到写综述文章

Original 郭瑞东集智俱乐部 2024-03-18

导语

大语言模型的通用性带来了广泛的应用前景。大语言模型可以自主进行科学实验，合成化合物，预测新材料性能，写综述文章，预测股票价格...... 本文罗列了将大语言模型应用于科学研究的种种尝试，包括生物医药、化学、材料科学、气候科学、工程、经济金融、科学学等各个领域。

关键词：大语言模型，科学发现

郭瑞东 | 作者

大语言模型 x 科研

1. 自主进行科学实验

论文标题：Emergent autonomous scientific research capabilities of large language models论文地址：https://arxiv.org/abs/2304.05332

该研究构建了名为 agent 的结合多种大语言模型的智能主体系统，可根据用户提示，自主进行科学实验的设计、计划和执行。论文展示 agent 从事科学研究能力的三个不同例子，分别为搜索制定合成布洛芬的流程，控制多仪器系统进行试管移液，成功地催化交叉偶联反应。

与 AutoGPT 类似，Agent 的核心是一个基于大语言模型的规划器，可根据用户输入的提示开展行动，可开展的行动包括访问互联网搜索信息，通过 python 执行计算，获取文档中的信息，并展开实验。如图1所示：

图1：Agent 的系统模块，在多个模块之间交换信息。

大语言模型 x 生物医学

2. 生成生物实验的操作指令

论文标题：LLMs can generate robotic scripts from goal-oriented instructions in biological laboratory automation论文地址：https://arxiv.org/abs/2304.10267

研究人员使用实验室自动化可大大加快科学活动。然而，使用计算机程序操作机器人以实现实验室自动化，需要技术知识和技能，可能不会成为研究人员训练或专业知识的一部分。在过去几年中，已经出现了令人瞩目的大语言模型，如 GPT-4 可以基于自然语言指令生成计算机代码。

这项研究使用大语言模型，包括 GPT-4，在基于模糊指令的生物实验中生成机器人操作脚本。GPT-4 成功根据自然语言的简单指令为 OT-2 生成脚本，OT-2 是一种不指定机器人行动的基础上，自动化进行液体处理的机器人语言。

传统上，将生物学的细微差别翻译为底层的机器人动作指令，需要研究人员同时了解生物学和机器人学，想象机器动作，写机器脚本。该研究显示 GPT-4 可以通过简单的提示，结合专家级的上下文理解，指挥机器人操作生物学实验。对于生物学研究人员，考虑机器操作细节编写指令是一项繁琐的任务，而通过自然语言给出指令，不必考虑机器人的行为，大大增加了能够从自动化生物实验中受益的研究人员的数量。

图2：GPT4生成操作指令的架构

3. 提高生物医学相关信息获取的效率

论文标题：GeneGPT: Teaching Large Language Models to Use NCBI Web APIs论文地址：https://arxiv.org/abs/2304.09667

NCBI （美国国家生物技术信息中心）维护着世界上最大的生物医学数据库，包括基因序列、蛋白质结构、化合物性质，以及生物医学文本，并通过统一的 Web API 提供数据接口。通过让GPT 获取相关 web 接口，可以提升相关研究者获取信息的效率，让普通人能够通过自然语言获取相关的生物学知识。相比 New bing，ChatGPT 等通用工具，准确性更高。该研究代表了大语言模型的一类应用范式，即通过接入学科数据库和工具接口，提升大模型在具体学科的能力。

图3：GeneGPT 问答示例，能够回答领域相关的问题，例如基因变异与那些疾病有关

4. 从医学文本中递归地提取结构化信息

论文标题：Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning论文地址：https://arxiv.org/abs/2304.02711

基于大语言模型的零尝试学习能力，该工具（SPIRES）可以从医学相关文本中，通过递归地向GPT3+模型提出问题，获取文本中包含的知识，并将其输出以结构化的表的形式。SPIRES 在不同领域的应用，包括食物配方的提取、多物种细胞信号通路，疾病治疗，多步药物机制等。相比现有的关系抽取（Relation Extraction, RE）方法，SPIRES 易于定制，更加灵活。最重要的是，具有在没有任何训练数据的情况下执行新任务的能力。

图4：SPIRES架构，其输入是文本与预期的结构化模板，通过OntoGPT产生prompt与GPT3+互动，结合公开数据库生成，产生输入文本中包含的结构化知识

5. 生成药物研发相关综述

论文标题：The Role of AI in Drug Discovery: Challenges, Opportunities, and Strategies论文地址：https://arxiv.org/abs/2212.08104

人工智能有可能彻底改变药物发现过程，提高效率、准确性和速度。然而，人工智能的成功应用取决于高质量数据的提供、伦理问题的解决，以及对基于人工智能方法局限性的认识。本文综述了人工智能在这一领域的优势、挑战和不足，并提出克服目前障碍的可能策略和途径。文章讨论了人工智能的数据增强、解释性人工智能的应用、人工智能与传统实验方法结合，以及人工智能在药物研究中的潜在优势。总的来说，这篇综述强调了人工智能在药物发现中的潜力，并提供了在这一领域实现其潜力的挑战和机遇的深刻见解。

该文测试了使用 ChatGPT 撰写评论性综述的能力，研究者将向 ChatGPT 提问生成的文本作为起点，在进行彻底的信息真实性审查，并对 ChatGPT 的文本生成能力进行评估之后，人类作者实际上重写了手稿，努力在原始输出和科学标准之间保持平衡。最后一节讨论了使用人工智能实现论文综述这一目的的优点和局限性。

6. 根据视频回答手术相关问题

论文标题：SurgicalGPT: End-to-End Language-Vision GPT for Visual Question Answering in Surgery论文地址：https://arxiv.org/abs/2304.09974

这项研究设计了一个端到端可训练的语言-视觉 GPT（LV-GPT）模型，扩展 GPT2 模型以包括视觉输入。LV-GPT 包含一个特征提取器（视觉标记器）和视觉标记嵌入（标记类型和姿态）。为了产生连贯的长段落，作者模仿人类理解问题并从图中获得答案思维习惯，仔细排列单词的顺序，即出现在图片之前的那个词。在定量评估中，作者证明 LV-GPT 模型在两个公开可用的手术 VQA 数据集上优于其他最先进的 VQA 模型（基于内窥镜视觉挑战机器人场景分割和 CholecTriplet）。

图6：端对端 LV-GPT 回答手术相关问题时的的流程

大语言模型 x 化学

7. 合成全新化合物

论文标题：ChemCrow: Augmenting large-language models with chemistry tools论文地址：https://arxiv.org/abs/2304.05376

大语言模型在跨领域的任务中表现出了很强的性能，但是却很难解决与化学相关的问题。此外，这些模型缺乏外部知识来源，限制了它们在科学应用中的有用性。在项研究介绍了 ChemCrow，一种基于大语言模型的化学研究工具，用于完成有机合成、药物发现和材料设计任务。

通过整合13个专家设计的工具，ChemCrow 增强了大语言模型在化学方面的性能，并且涌现出了新的能力。对ChemCrow的评估，包括大语言模型和专家评估，证明 ChemCrow 在自动化一系列不同的化学任务方面的有效性。令人惊讶的是，作者发现GPT-4 作为评估者，不能将明显错误的、由 GPT-4 给出的回答，与正确的 GPT-4 + ChemCrow 回答区分开。滥用 ChemCrow 等工具的风险很大，研究中讨论了它们的潜在危害。负责任地使用 ChemCrow 不仅帮助专家化学家，降低非专家的障碍，而且通过弥合实验和计算化学之间的差距，促进科学进步。

图7：ChemChow 的架构与输入输出示意

大语言模型 x 材料科学

8. 选择并预测材料性能

论文标题：Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT论文地址：https://arxiv.org/abs/2304.02213

对于探索尖端材料，数据的多少具有越来越重要的意义。这些数据通过手工或自动化方法产生。然而，材料科学领域对于如何利用这些丰富的数据存在挑战，特别是当材料是根据器件性能而不是它们的特性来评估时。

该研究提出了一种新的自然语言处理任务——结构化信息推理解决材料科学中设备级信息提取的复杂性。在现有的钙钛矿型太阳能电池 FAIR (可查找，可访问，互操作，可重用）数据集，结构化信息推理取得了91.8% 的F1得分和扩展数据集，并将生成的数据经过格式化和规范化处理，使其能够直接被用作在随后的数据分析的输入。这一特点赋予材料科学家通过选择高质量的评论文章以在其所在领域研发模型的能力。

此外，作者使用大语言模型设计预测太阳能电池的电气性能，和设计材料或器件的目标参数实验。大语言模型无需经过传统机器学习方法的特征选择，就可达到相近的性能，突出了大语言模型获取科学知识和设计类似材料的新材料的潜力。

图8：结构化信息推理在多任务学习中负责理解任务并产生相应的输出

大语言模型 x 工程

9. 搜索土力工程相关信息

论文标题：Geotechnical Parrot Tales (GPT): Harnessing Large Language Models in geotechnical engineering论文地址：https://arxiv.org/abs/2304.02138

本文探讨 chatgPT 及其在土力工程（geotechnical）中的应用。讨论与这些模型相关的挑战和陷阱，并强调在应对这些挑战方面进行工程设计，以确保可靠和准确的结果方面及时行动的重要性。具体的应用场景包括构建一个上下文相关的专业搜索引擎，生成复杂的土力工程任务流的整合界面，以及基于思维链的推理。

图9. 基于向量数据库的上下文相关专业搜索的框架

大语言模型 x 经济金融

10. 根据新闻标题分析情绪，预测股票价格

论文标题：Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models论文地址：https://arxiv.org/abs/2304.07619

作者研究了 ChatGPT 和其他大型语言模型利用新闻标题进行情绪分析，进而预测股市收益方面的潜力。研究用 ChatGPT 指出一个给定标题对公司的股票是好的、坏的还是不相关的新闻。然后计算一个数值得分，并记录这些“ChatGPT 得分”和随后的每日股市收益之间的正相关性。

研究发现 ChatGPT 优于传统的情绪分析方法，研究还发现更简单的 GPT-1、 GPT-2和 BERT 等模型不能准确预测收益率，表明收益率可预测性是大模型的一种涌现能力。这些研究结果表明，在投资决策过程中引入大语言模型可以提供更准确的预测，并提高投资者在定量交易策略中的表现。

图10：基于 ChatGPT 的份进行模拟交易的收益，其中黑线代表使用所有新闻而非与投资公司相关新闻的基线组

大语言模型 x 气候科学

11. 基于权威文档可靠回答气候变化问题

论文标题：chatIPCC: Grounding Conversational AI in Climate Science论文地址：https://arxiv.org/abs/2304.05510

大语言模型在问答任务 (QA) 中取得了显著的进展。然而，仍然面临两大挑战: 幻觉和训练阶段后过时的信息。这些挑战在气候变化等关键领域处于中心地位，因为在这些领域，在有限的时间内从可靠来源获得准确和最新的信息是必不可少的，也非常困难。为了克服这些障碍，一个潜在的解决方案是为大语言模型提供外部的、科学准确的和可靠的来源（长期记忆），以不断更新它们的知识，并防止传播不准确、不正确或过时的信息。

这项研究通过整合政府间气候变化专门委员会第六次评估报告（IPCC AR6）中的信息来加强 GPT-4，这是该领域中最全面、最新和可靠的信息来源。研究展示了对话 AI chatIPCC，可以在https://www.chatclimate.ai上试用，并展示了它在三个不同的 QA 场景中准确回答具有挑战性问题的能力。评估表明，混合 chatIPCC 提供了更准确的答案，突出了该解决方案的有效性。这种方法可以很容易地为特定领域的聊天机器人定制，使其交付可靠和准确的信息。

图11：chatIPCC的信息处理流

大语言模型 x 科学学

12. 基于 GPT 的科学计量学研究

论文标题：A GPT-Based Approach for Scientometric Analysis: Exploring the Landscape of Artificial Intelligence Research论文地址：https://arxiv.org/abs/2304.09487

这项研究提出了一个全面的方法，以解决科学计量分析在人工智能（AI）这个快速发展领域的挑战。通过将与人工智能相关的搜索词与GPT的高级语言处理能力相结合，该研究开发了一种高度精确的方法来识别和分析 Web of Science (WoS) 数据库中与人工智能相关的文章。多步骤过滤方法包括基于 WoS 引文主题、类别、关键词筛选和 GPT 分类以找出相关论文。

研究通过准确率召回率评估了该方法的有效性，发现该方法在整个 WoS 语料库中捕获了大约94% 的人工智能相关文章，准确率达到 90% 。随后作者分析了出版物数量的趋势，揭示了从2013～2022年的持续增长模式和不断增长的跨学科水平。作者对顶级国家和机构进行了引文分析研究，并利用关键词分析和 GPT 确定了共同的研究主题。这项研究展示了基于GPT的方法可促进准确的科学计量分析，提供关于跨学科性质和该领域关键参与者的洞察。

图12：论文搜索的相关流程

“后ChatGPT”读书会

2022年11月30日，一个现象级应用程序诞生于互联网，这就是OpenAI开发的ChatGPT。从问答到写程序，从提取摘要到论文写作，ChatGPT展现出了多样化的通用智能。于是，微软、谷歌、百度、阿里、讯飞，互联网大佬们纷纷摩拳擦掌准备入场……但是，请先冷静一下…… 现在 all in 大语言模型是否真的合适？要知道，ChatGPT的背后其实就是深度学习+大数据+大模型，而这些要素早在5年前的AlphaGo时期就已经开始火热了。5年前没有抓住机遇，现在又凭什么可以搭上大语言模型这趟列车呢？

集智俱乐部特别组织“后 ChatGPT”读书会，由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起，旨在系统性地梳理ChatGPT技术，并发现其弱点与短板。本系列读书会线上进行，2023年3月3日开始，每周五晚，欢迎报名交流。

详情请见：

“后 ChatGPT”读书会启动：从通用人工智能到意识机器

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的“第五范式”。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以“AI+Science”为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会从2023年3月26日开始，每周日早上 9:00-11:00 线上举行，持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

详情请见：

人工智能和科学发现相互赋能的新范式：AI+Science 读书会启动

推荐阅读

1. 圣塔菲学者：AI 大语言模型真的理解人类语言吗？

2. “意识机器”初探：如何让大语言模型具备自我意识？

3. Science前沿：大语言模型涌现演化信息，加速蛋白质结构预测

4. 《张江·复杂科学前沿27讲》完整上线！

5. 成为集智VIP，解锁全站课程／读书会

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

继续滑动看下一个

集智俱乐部

向上滑动看下一个

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

大语言模型做科研的N种可能性：从自主进行科学实验到写综述文章

大语言模型 x 科研

大语言模型 x 生物医学

大语言模型 x 化学

大语言模型 x 材料科学

大语言模型 x 工程

大语言模型 x 经济金融

大语言模型 x 气候科学

大语言模型 x 科学学

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

生成图片，分享到微信朋友圈

大语言模型做科研的N种可能性：从自主进行科学实验到写综述文章

大语言模型 x 科研

大语言模型 x 生物医学

大语言模型 x 化学

大语言模型 x 材料科学

大语言模型 x 工程

大语言模型 x 经济金融

大语言模型 x 气候科学

大语言模型 x 科学学

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时