UCLA发布SciBench，评估大语言模型的科学问题解决能力

Original Xiaoxuan Wang PaperWeekly

2024-08-22

©PaperWeekly 原创 · 作者 | Xiaoxuan Wang

单位 | UCLA

研究方向 | 大语言模型评测

论文题目：

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

论文链接：

https://arxiv.org/abs/2307.10635

代码链接：

https://github.com/mandyyyyii/scibench/

研究背景

近年来，大语言模型（LLMs）的发展取得了显著进展，极大地扩展了人工智能的应用领域。由于这些模型在很多数学任务方面展现出出色的表现，大模型被认为具备了推理的能力。

然而，当前对 LLMs 在数学推理任务中表现优异的基准评估可能过于乐观，原因在于这些基准的局限性。许多现有基准问题 1）过于简单，在逻辑推理和运算上缺乏足够的复杂性 2）而且对于 LLMs 的推理能力深度评估不足。此外，3）一些基准问题的设计，例如多项选择题，容易让 LLMs 从备选选项中猜测答案，从而掩盖了它们在问题理解和推理过程中的实际能力。

新的数据集

为了更好的评估大模型解决科学问题的能力，我们引入了一个全新的数据集，名为 SCIBENCH。该数据集包含两个部分：教科书习题（开放集）和考试题目（封闭集）。教科书习题包含来自大学课程中常用教科书的 695 个问题，涵盖了多个学科，如物理学、化学、数学等。这些问题都是开放式的，需要多步推理和复杂的数学运算。考试题目包含了来自大学课程的 7 套期中和期末考试，在计算机和数学领域上。

我们的数据集以简答题的形式呈现，不会提供模型可能所需的任何与答案相关的信息。数据集还包含了一定量的带答案的题目，以供进一步分析。我们的数据集采用了复杂的运算方式，例如求导和微积分。

实验结果

我们对两种代表性大语言模型 GPT-3.5 和 GPT-4 进行了实验评估，并采用了多种提示（prompt）策略和外部工具来辅助解决问题。实验结果显示，在没有提示（prompt）或外部工具的情况下，LLMs 在教科书习题的数据集上的平均准确率仅为 10.62% 和 16.81%。在提示（prompt）策略与外部工具相结合的情况下，GPT-4 在教科书习题的数据集上的平均得分为 35.80%，在考试习题的数据集上为 51.57%。这些结果表明，未来 LLMs 在科学问题解决方面有很大的提升潜力。

自动分析

为了全面了解 LLMs 在解决科学问题中的局限性，我们提出了一种自动分析方法：首先，我们通过分析模型解答错误的问题，概括出了十项 LLMs 在解决问题上表现欠佳的关键技能：

逻辑分解和分析技巧（Logical decomposition）：这项能力涉及将问题分解为较小的、可管理的部分，并理解这些部分之间的关系。
假设的识别（Identification of assumption）：这项技能涉及识别问题中相关的和必要的假设的能力。
空间感知（Special perception）：这对理解如物理和化学等领域的问题非常重要，其中模型需要可视化分子、力、场等。
因果推理（Causal reasoning）：这是理解因果关系的能力。
问题推理能力（Problem deduction）：这指的是从问题中给定的信息推断和推导可能的解决方案或潜在原理的能力。
抽象推理（Abstract reasoning）：这项技能涉及理解无法通过物理感知的复杂概念的能力，以及在具体例子之外识别模式或关系的能力。
科学知识掌握（Scientific literacy）：这项技能需要全面理解各个学科的关键科学原理、专业术语以及研究方法。
代码转换技巧（Code conversion）：这涉及能够准确地将解决步骤转换为不同的编程语言，如 Python 或 Wolfram 语言的能力。
逻辑推理（Logical reasoning）：这是进行有理论论证和识别论点或数据集中的谬误或不一致的能力。
计算技巧（Calculation）：这涉及能够准确执行数学运算和计算的能力。

然后，通过将这十个关键技能的描述提供给新的 LLM，让其在每个题目上自动分类之前模型在解题中缺乏的技能。我们把这项分析作用到了六种实验情况下。通过分析这六种实验情况发现，任何现有的提示策略或者工具运用的方法都不能全面地提升大语言模型的技能，改善某一方面的技能可能导致原有的技能缺失。

更多的例子

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

UCLA发布SciBench，评估大语言模型的科学问题解决能力

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

生成图片，分享到微信朋友圈

UCLA发布SciBench，评估大语言模型的科学问题解决能力

您可能也对以下帖子感兴趣