ACL 2023长文 | 先计划再求解：提升大型语言模型的零样本链式推理

Original 王磊 PaperWeekly 2023-09-02

收录于合集

#ACL 2023 25 个

#大语言模型 102 个

#自然语言处理 371 个

©PaperWeekly 原创 · 作者 | 王磊

单位 | 新加坡管理大学

研究方向 | 自然语言处理

论文标题：

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

收录会议：

ACL 2023

论文链接：

https://arxiv.org/abs/2305.04091

开源链接：

https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting

志在千里，源远流长

最近，在各种自然语言处理任务中，大型语言模型（LLMs）展现出了优越的性能。为了解决多步推理任务，少样本链式思维（CoT）提示包括一些手工设计的逐步推理演示，使 LLMs 能够明确生成推理步骤并提高推理准确性 [1]。为了消除少样本链式思维（CoT）中的手工工作，零样本 CoT 将目标问题与 “Let’s think step by step” 一起作为输入提示连接到 LLMs 上 [2]。尽管零样本 CoT 取得了成功，但仍然存在三个问题：计算错误、缺失步骤错误和语义误解错误。

方略布局，谋定而动

为了解决缺失步骤错误，我们提出了 PS（Plan-and-Solve）提示，即制定一个计划将整个任务分解为较小的子任务并按照计划执行子任务，使 LLMs 能够明确制定解决问题的计划，并在预测输入问题的最终答案之前生成中间推理过程。

我们通过更详细的说明扩展了 PS 提示基于计划的触发句，并得到了 PS+ 提示。具体而言，我们在触发句中添加了“pay attention to calculation”，要求 LLMs 尽可能准确地进行计算。

为了减少由于缺失必要推理步骤而导致的错误，我们在 PS+ 提示中增加了“extract relevant variables and their corresponding numerals”，指示 LLMs 不要忽略输入问题陈述中的相关信息。此外，我们在提示中添加了“calculate intermediate results”，以增强 LLM 生成推理步骤的能力。

具体的 PS 和 PS+ 提示如下所示：

成果丰盈，硕果累累

我们在三个推理任务的十个数据集上评估了我们提出的提示策略。通过对 GPT-3 的实验结果表明，我们提出的零样本提示在所有数据集上始终明显优于零样本 CoT，并且在数学推理问题上与 8-shot CoT 提示性能相当。

6 个算术推理数据集的实验结果如下所示，6 个算术推理数据集分别是：（1）MultiArith；（2）GSM8K；（3）AddSub；（4）AQuA；（5）SingleEq；（6）SVAMP。

2 个常识推理数据集的实验结果如下所示，2 个常识推理数据集分别是：（1）CSQA；（2）StrategyQA。

2 个符号推理数据集的实验结果如下所示，2 个常识推理数据集分别是：（1）Last Letter；（2）Coin Flip。

参考文献

[1] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q., & Zhou, D. (2022). Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.

[2] Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. 2022. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

大摩宏观策略谈：2025中美变局展望

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

ACL 2023长文 | 先计划再求解：提升大型语言模型的零样本链式推理

您可能也对以下帖子感兴趣

大摩宏观策略谈：2025中美变局展望

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

生成图片，分享到微信朋友圈

ACL 2023长文 | 先计划再求解：提升大型语言模型的零样本链式推理

您可能也对以下帖子感兴趣