2023年大语言模型智能体规划技术(LLM Agent Planning)研究进展汇总
规划,无论是针对人类还是智能体都是一种核心能力。规划本质上是一种预先设定行动的过程,旨在通过这些行动达到特定的目标或解决特定的问题。制定一个优秀的规划需要考虑未来情景的预测、资源的合理分配、步骤的有序安排以及对可能出现的挑战的充分准备等多个因素。
图源:旺知识
作者:张长旺,旺知识,CCF理论计算机科学专业委员会
我们整理汇总了2023年大语言模型智能体规划技术(LLM Agent Planning)主要研究进展,并提供每个研究的概要和关键结果,希望能够启发更多相关的研究。
作为零样本规划器的语言模型:为具体代理提取可操作的知识
Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied AgentsWenlong Huang, Pieter Abbeel, Deepak Pathak, Igor Mordatch. [abs], [code], ICML 2022, https://arxiv.org/pdf/2201.07207.pdf.
大型语言模型(LLM)学习到的世界知识能否用于交互环境中的行动?在本文中,我们研究了将用自然语言表达的高级任务(如 "做早餐")转化为一组选定的可操作步骤(如 "打开冰箱")的可能性。以前的工作主要集中在从明确的分步行动示例中学习,而我们却意外地发现,如果预先训练的 LM 足够大,并有适当的提示,它们就能有效地将高级任务分解为中级计划,而无需任何进一步的训练。然而,LLM 生成的计划往往无法精确映射到可接受的行动。我们提出了一种程序,它以现有的演示为条件,并从语义上将计划转化为可接受的行动。我们在最近的 VirtualHome 环境中进行的评估表明,由此产生的方法比 LLM 基线大大提高了可执行性。所进行的人工评估显示了可执行性和正确性之间的权衡,但也显示了从语言模型中提取可操作知识的良好前景。从少到多的提示使大型语言模型中的复杂推理成为可能
Least-to-Most Prompting Enables Complex Reasoning in Large Language ModelsDenny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, Ed Chi. [abs], ICLR 2023, https://arxiv.org/pdf/2205.10625.pdf.
在各种自然语言推理任务中,思维链提示都表现出了不俗的性能。然而,它在需要解决比提示中的示例更难的问题时往往表现不佳。为了克服这种由易到难的挑战,我们提出了一种新颖的提示策略--由少到多的提示。这种策略的主要思想是将复杂问题分解成一系列较简单的子问题,然后依次解决。先前已解决的子问题的答案将有助于解决每个子问题。我们在符号操作、组合概括和数学推理相关任务上的实验结果表明,从最少到最多的提示能够概括出比提示中更难的问题。一个值得注意的发现是,当 GPT-3 代码-davinci-002 模型与最少到最多提示一起使用时,只需使用 14 个示例,就能在任何分割(包括长度分割)中以至少 99% 的准确率解决组合概括基准 SCAN,而使用思维链提示时,准确率仅为 16%。这一点尤其值得注意,因为文献中专门解决 SCAN 问题的神经符号模型是在包含 15000 多个示例的整个训练集上训练出来的。我们在附录中提供了所有任务的提示。论利用语言模型进行嵌入式任务的基础规划
On Grounded Planning for Embodied Tasks with Language ModelsBill Yuchen Lin, Chengsong Huang, Qian Liu, Wenda Gu, Sam Sommerer, Xiang Ren. [abs], [code], AAAI 2023, https://arxiv.org/pdf/2209.00465.pdf.
语言模型(LMs)已经证明它们有能力掌握物理世界的常识性知识,这是日常生活中执行任务的一个重要方面。然而,由于语言模型缺乏通过视觉和物理环境反馈感知环境的能力,因此这是一项具有挑战性的任务。在本文中,我们探讨了这一重要的研究问题,并首次对这一主题进行了研究。我们新颖的问题表述方式被命名为**G-PlanET**,它输入一个高层次目标和一个关于特定环境中物体的数据表,然后输出一个可逐步执行的计划供机器人代理遵循。为便于研究,我们制定了**评估协议**,并设计了专门的指标来评估计划的质量。我们的实验证明,使用表格对环境进行编码,并采用迭代解码策略,可以显著提高 LM 的落地规划能力。我们的分析还揭示了一些有趣的、非同小可的发现。大型语言模型的规划能力:批判性研究
On the Planning Abilities of Large Language Models : A Critical InvestigationKarthik Valmeekam, S. Sreedharan, Matthew Marquez, Alberto Olmo Hernandez, Subbarao Kambhampati. [abs], NeurIPS 2023, https://arxiv.org/pdf/2305.15771.pdf.
在本文中,我们对在一般网络语料库中训练的 LLMs 所具备的新兴推理能力的说法感到好奇,并着手研究它们的规划能力。我们的目标是评估:(1) LLMs 在常识规划任务中自主生成规划的有效性;(2) LLMs 在 LLM-Modulo 环境中作为外部规划者和验证者的启发式指导来源的潜力。我们进行了一项系统性研究,在与国际规划竞赛类似的领域中生成了一系列实例,并以两种不同的模式对 LLM 进行了评估:自主模式和启发式模式。我们的研究结果表明,LLM 自主生成可执行计划的能力相当有限,最佳模型(GPT-4)在各领域的平均成功率约为 12%。不过,LLM-Modulo 环境下的结果显示出更大的前景。在 LLM-Modulo 环境中,我们证明了 LLM 生成的计划可以改善底层健全计划器的搜索过程,此外还证明了外部验证器可以帮助提供生成计划的反馈,并反向提示 LLM 以生成更好的计划。大型语言模型具身智能体的少样本基础规划
LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language ModelsChan Hee Song, Jiaman Wu, Clayton Washington, Brian M. Sadler, Wei-Lun Chao, Yu Su. [abs], [code], ICCV 2023, https://arxiv.org/pdf/2212.04088.pdf.
本研究的重点是使用大型语言模型(LLMs)作为可根据自然语言指令在视觉感知环境中完成复杂任务的化身机器人的规划器。现有方法的数据成本高、采样效率低,阻碍了能够胜任多种任务并能快速学习新任务的多功能代理的发展。在这项工作中,我们提出了一种新方法--LLM-Planner,它能利用大型语言模型的强大功能,来为化身机器人进行少量规划。我们进一步提出了一种简单而有效的方法,利用物理基础来增强 LLM,从而生成和更新基于当前环境的计划。在 ALFRED 数据集上的实验表明,我们的方法可以实现极具竞争力的少次规划性能:尽管只使用了不到 0.5% 的配对训练数据,LLM-Planner 的性能仍可与使用全部训练数据进行训练的最新基线相媲美。现有的方法在相同的少量数据设置下几乎无法成功完成任何任务。我们的工作为开发可快速学习多项任务的多功能、样本效率高的嵌入式代理打开了大门。描述、解释、规划和选择:利用大型语言模型进行交互式规划,实现开放世界多任务智能体
Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task AgentsZihao Wang, Shaofei Cai, Anji Liu, Xiaojian Ma, Yitao Liang. [abs], [code], NeurIPS 2023, https://arxiv.org/pdf/2302.01560.pdf.
我们研究了开放世界环境中多任务化身智能体的任务规划难题。我们发现了两个主要困难:1)由于任务的长期性,在开放世界环境(如 Minecraft)中执行计划需要精确的多步骤推理;2)由于虚构计划者在复杂计划中排列并行子目标时不会考虑当前智能体实现给定子任务的难易程度,因此产生的计划可能是低效甚至不可行的。为此,我们提出了 "D--描述、E--解释、P--规划和S--选择"(DEPS),这是一种基于大语言模型(LLM)的交互式规划方法。DEPS 整合了对计划执行过程的描述,并在扩展计划阶段遇到故障时提供自我解释反馈,从而有助于更好地对 LLM 生成的初始计划进行纠错。此外,它还包括一个目标选择器,这是一个可训练的模块,可根据估计的完成步骤对并行的候选子目标进行排序,从而完善初始计划。我们的实验标志着第一个零镜头多任务智能体的里程碑,它可以稳健地完成 70 多个 Minecraft 任务,并将总体性能提高近一倍。进一步的测试表明,我们的方法在流行的非开放式领域(即 ALFWorld 和桌面操作)中也具有普遍的有效性。消融和探索性研究详细说明了我们的设计是如何击败同行的,并为我们的方法在 "获取钻石 "大挑战中取得最新进展提供了希望。计划和解决提示:通过大型语言模型改进零样本思维链推理
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language ModelsLei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, Ee-Peng Lim. [abs], [code], ACL 2023, https://arxiv.org/pdf/2305.04091.pdf.
最近,大型语言模型(LLM)在各种 NLP 任务中表现出令人印象深刻的性能。为了应对多步骤推理任务,少许思维链(CoT)提示包括一些人工制作的分步推理演示,使 LLM 能够明确地生成推理步骤,并提高其推理任务的准确性。为了省去人工操作,Zero-shot-CoT 将目标问题陈述与 "让我们逐步思考 "串联起来,作为对 LLM 的输入提示。尽管 Zero-shot-CoT 取得了成功,但它仍然存在三个缺陷:计算错误、步骤遗漏错误和语义误解错误。为了解决步骤遗漏错误,我们提出了 "计划与解决"(Plan-and-Solve,PS)提示法。它由两部分组成:首先,设计一个计划,将整个任务划分为更小的子任务,然后根据计划执行子任务。为了解决计算错误并提高生成推理步骤的质量,我们将 PS 提示扩展为更详细的指令,并衍生出 PS+ 提示。我们在三个推理问题的十个数据集上评估了我们提出的提示策略。在 GPT-3 上的实验结果表明,在所有数据集上,我们提出的零次提示策略始终远远优于 Zero-shot-CoT 方法,与 Zero-shot-Program-of-Thought Prompting 方法不相上下,甚至更胜一筹,而且在数学推理问题上,我们提出的零次提示策略与 8 次 CoT 提示策略的性能相当。大型语言模型作为用于大规模任务规划的常识性知识
Large Language Models as Commonsense Knowledge for Large-Scale Task PlanningZirui Zhao Wee Sun Lee David Hsu. [abs], NeurIPS 2023, https://arxiv.org/pdf/2305.14078.pdf.
大规模任务规划是一项重大挑战。最近的工作将大型语言模型(LLM)直接作为一种策略加以利用,并取得了令人惊讶的有趣结果。本文表明,LLM 除了提供一个世界的常识模型外,还提供了一个作用于世界的策略。世界模型和策略可以结合到蒙特卡洛树搜索(MCTS)等搜索算法中,从而扩大任务规划的规模。在我们新的 LLM-MCTS 算法中,LLM 引导的世界模型为 MCTS 实现有效推理提供了常识性先验信念;LLM 引导的策略则作为启发式方法指导搜索,大大提高了搜索效率。实验表明,在复杂、新颖的任务中,LLM-MCTS 远远优于单独的 MCTS 和由 LLM(GPT2 和 GPT3.5)诱导的策略。对乘法、多跳旅行规划、物体重排等多个任务的进一步实验和分析表明,最小描述长度(MDL)是一个普遍的指导原则:如果世界模型的描述长度大大小于策略的描述长度,那么使用 LLM 作为基于模型的规划的世界模型可能比仅使用 LLM 作为策略更好。通过文本图像双提示实现多模态程序规划
Multimodal Procedural Planning via Dual Text-Image PromptingYujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, William Yang Wang. [abs], [code], Preprint 2023, https://arxiv.org/pdf/2305.01795.pdf.
仿生机器人在按照人类指令完成任务方面表现突出。然而,通过文本和图像提供指令以协助人类完成任务的潜力仍未得到充分开发。为了发掘这种能力,我们提出了多模态程序规划(MPP)任务,在该任务中,模型被赋予一个高层次目标,并生成文本与图像配对步骤的计划,提供比单模态计划更互补、更翔实的指导。MPP 面临的主要挑战是如何确保跨模态计划的信息量、时间连贯性和准确性。为了解决这个问题,我们提出了文本-图像提示法(TIP),这是一种双模态提示方法,它充分利用了大语言模型(LLM)中的零镜头推理能力和基于扩散模型的文本-图像生成能力。TIP 利用文本到图像桥接(Text-to-Image Bridge)和图像到文本桥接(Image-to-Text Bridge)改进了双模式中的交互,使 LLM 能够指导以文本为基础的图像计划生成,并利用图像计划的描述反向支持文本计划。为了解决缺乏相关数据集的问题,我们收集了 WIKIPLAN 和 RECIPEPLAN 作为 MPP 的测试平台。我们的结果表明,在 WIKIPLAN 和 RECIPEPLAN 上,在信息量、时间连贯性和计划准确性方面,人的偏好和自动评分都优于单模态和多模态基线。LLM+P:用最优规划能力增强大型语言模型的能力
LLM+P: Empowering Large Language Models with Optimal Planning ProficiencyBo Liu, Yuqian Jiang, Xiaohan Zhang, Qiang Liu, Shiqi Zhang, Joydeep Biswas, Peter Stone. [abs], [code], Preprint 2023, https://arxiv.org/pdf/2304.11477.pdf.
大型语言模型(LLM)已经展示了非凡的零点泛化能力:最先进的聊天机器人可以为日常生活中出现的许多常见问题提供可信的答案。然而,到目前为止,LLMs 还不能可靠地解决长期规划问题。相比之下,经典规划者一旦以格式化的方式给出问题,就能使用高效的搜索算法快速确定正确甚至最优的规划。为了两全其美,本文介绍了 LLM+P,这是第一个将经典规划器的优势融入 LLM 的框架。LLM+P 接收规划问题的自然语言描述,然后用自然语言返回解决该问题的正确(或最优)计划。LLM+P 首先将语言描述转换成用规划域定义语言(PDDL)编写的文件,然后利用经典规划器快速找到解决方案,再将找到的解决方案翻译回自然语言。除了 LLM+P,我们还从常见的规划场景中定义了一系列不同的基准问题。通过对这些基准问题的综合实验,我们发现 LLM+P 能够为大多数问题提供最优解,而 LLM 甚至无法为大多数问题提供可行的计划。思想树:使用大型语言模型进行深思熟虑的问题解决
Tree of Thoughts: Deliberate Problem Solving with Large Language ModelsShunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan. [abs], [code], NeurIPS 2023, https://arxiv.org/pdf/2305.10601.pdf.
语言模型越来越多地被用于解决各种任务中的一般问题,但在推理过程中仍局限于标记级、从左到右的决策过程。这意味着在需要探索、战略前瞻或初始决策起关键作用的任务中,它们可能会出现不足。为了克服这些挑战,我们引入了一种新的语言模型推理框架--思维树(ToT),它在流行的 "思维链"(Chain of Thought)方法的基础上进行了扩展,能够对作为解决问题中间步骤的连贯文本单元(思维)进行探索。ToT 允许 LM 通过考虑多种不同的推理路径和自我评估选择来执行深思熟虑的决策,以决定下一步行动,并在必要时进行前瞻或回溯以做出全局选择。我们的实验表明,ToT 能显著提高语言模型在三项需要非繁琐规划或搜索的新任务中解决问题的能力:游戏 24、创意写作和迷你填字游戏。例如,在游戏 24 中,使用思维链提示的 GPT-4 仅解决了 4% 的任务,而我们的方法则达到了 74% 的成功率。PEARL:提示大型语言模型在长文档上计划和执行操作
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long DocumentsSimeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer. [abs], [code], Preprint 2023, https://arxiv.org/pdf/2305.14564.pdf.
思维链提示(chain-of-thought prompting)等策略通过将输入示例分解为中间步骤,提高了大型语言模型(LLM)在复杂推理任务中的性能。然而,如何将这些方法应用于长输入文档的推理仍不清楚,因为在长输入文档中,每个中间步骤的分解和输出都是难以获得的。在这项工作中,我们提出了一个用于改进长文档推理的提示框架 PEARL,它包括三个阶段:行动挖掘、计划制定和计划执行。更具体地说,给定一个关于长文档的问题,PEARL 将问题分解为一系列动作(例如,SUMMARIZE、FIND_EVENT、FIND_RELATION),然后在文档中执行这些动作以获得答案。PEARL 的每个阶段都是通过对 LLM(在我们的工作中为 GPT-4)进行零次或少量提示来实现的,只需极少的人工输入。我们在QuALITY数据集的一个具有挑战性的子集上对PEARL进行了评估,该数据集包含需要对长叙事文本进行复杂推理的问题。在该数据集上,PEARL 的表现优于零点提示和思维链提示,消融实验表明 PEARL 的每个阶段对其性能都至关重要。总之,PEARL 是利用 LLM 对长文档进行推理的第一步。用语言模型推理就是用世界模型规划
Reasoning with Language Model is Planning with World ModelShibo Hao, Yilan Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, D. Wang, Zhiting Hu. [abs], [code], EMNLP 2023, https://arxiv.org/pdf/2305.14992.pdf.
大型语言模型(LLM)已显示出非凡的推理能力,尤其是在提示生成中间推理步骤(如思维链,CoT)时。然而,LLMs 在处理对人类来说很容易的问题时仍会遇到困难,例如生成在给定环境中执行任务的行动计划,或执行复杂的数学、逻辑和常识推理。这种缺陷源于一个关键事实,即 LLMs 缺乏一个内部世界模型来预测世界状态(如环境状态、中间变量值)和模拟行动的长期结果。这就使得 LLM 无法像人脑那样进行深思熟虑的规划,包括探索其他推理路径、预测未来状态和回报,以及迭代改进现有的推理步骤。为了克服这些限制,我们提出了一种新的 LLM 推理框架,即通过规划进行推理(RAP)。RAP 将 LLM 重新用作世界模型和推理代理,并结合了一种原则性规划算法(基于蒙托卡罗树搜索),以便在广阔的推理空间中进行战略性探索。在推理过程中,LLM(作为代理)在 LLM(作为世界模型)和特定任务奖励的指导下逐步建立推理树,并在探索与利用之间取得适当平衡,从而高效地获得高回报推理路径。我们将 RAP 应用于各种具有挑战性的推理问题,包括计划生成、数学推理和逻辑推理。这些任务的实证结果表明,RAP 优于各种强基线,包括 CoT 和具有自一致性的从最少到最多提示。LLAMA-33B 上的 RAP 超越了 GPT-4 上的 CoT,在计划生成设置中相对提高了 33%。了解大型语言模型在自动规划方面的能力
Understanding the Capabilities of Large Language Models for Automated PlanningVishal Pallagani, Bharath Muppasani, K. Murugesan, F. Rossi, Biplav Srivastava, L. Horesh, F. Fabiano, Andrea Loreggia. [abs], Preprint 2023, https://arxiv.org/pdf/2305.16151.pdf.
自动规划涉及开发高效算法,以生成在给定环境中实现特定目标的计划或行动序列。新兴的大型语言模型(LLMs)可以回答问题、编写高质量的程序代码和预测蛋白质折叠,展示了它们在解决语言问题之外的各种任务方面的多功能性。在本文中,我们旨在探讨 LLM 如何也能用于自动规划。为此,我们试图回答四个关键问题。首先,我们希望了解 LLM 在多大程度上可用于计划生成。其次,我们希望确定哪些预训练数据在促进计划生成方面最为有效。第三,我们研究微调或提示是否是更有效的计划生成方法。最后,我们探索 LLM 是否能够实现计划泛化。通过回答这些问题,本研究试图揭示 LLM 在解决复杂规划问题方面的能力,并为在此背景下使用 LLM 的最有效方法提供见解。利用预训练的大型语言模型构建和利用世界模型进行基于模型的任务规划
Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task PlanningVishal Pallagani, Bharath Muppasani, K. Murugesan, F. Rossi, Biplav Srivastava, L. Horesh, F. Fabiano, Andrea Loreggia. [abs], [code], NeurIPS 2023, https://arxiv.org/pdf/2305.14909.pdf.
将预先训练好的大型语言模型(LLM)应用于规划问题的兴趣日益浓厚。然而,直接将 LLMs 用作规划器的方法目前并不实用,原因有几个,包括规划的正确性有限、严重依赖与模拟器甚至实际环境的交互反馈,以及利用人类反馈的效率低下。在这项工作中,我们引入了一种新颖的替代范例,即用规划域定义语言(PDDL)构建一个明确的世界(领域)模型,然后用它来规划与领域无关的健全规划器。为了解决 LLM 最初可能无法生成功能完备的 PDDL 模型这一问题,我们将 LLM 用作 PDDL 与纠正反馈源(如 PDDL 验证器和人类)之间的接口。对于缺乏 PDDL 背景的用户,我们表明 LLM 可以将 PDDL 翻译成自然语言,并有效地将纠正反馈编码回底层领域模型。我们的框架不仅享有外部规划器提供的正确性保证,而且还允许用户在一开始就纠正领域模型,而不是像以前的工作那样检查和纠正(通过交互式提示)每个生成的规划,从而减少了人工参与。在两个 IPC 领域和一个比常用基准(如 ALFWorld)更复杂的家居领域中,我们证明了 GPT-4 可以为 40 多个行动生成高质量的 PDDL 模型,然后利用修正后的 PDDL 模型成功解决了 48 个具有挑战性的规划任务。AdaPlanner:根据语言模型反馈进行自适应规划
AdaPlanner: Adaptive Planning from Feedback with Language ModelsHaotian Sun, Yuchen Zhuang, Lingkai Kong, Bo Dai, Chao Zhang. [abs], [code], Preprint 2023, https://arxiv.org/pdf/2305.16653.pdf.
大型语言模型(LLMs)最近展示了作为自主代理执行连续决策任务的潜力。然而,现有的大多数方法要么是在没有计划的情况下贪婪地采取行动,要么是依赖于无法适应环境反馈的静态计划。因此,随着问题复杂度和计划周期的增加,LLM 代理的顺序决策性能也会下降。我们提出了一种闭环方法--AdaPlanner,它允许 LLM 代理根据环境反馈自适应地完善其自我生成的计划。在 AdaPlanner 中,LLM 代理可通过计划内和计划外的完善策略,根据反馈自适应地完善其计划。为了减少幻觉,我们开发了一种代码风格的 LLM 提示结构,它有助于在各种任务、环境和代理能力中生成计划。此外,我们还提出了一种技能发现机制,利用成功的计划作为寥寥数语的范例,使代理能够在较少任务演示的情况下制定和完善计划。我们在 ALFWorld 和 MiniWoB++ 环境中进行的实验表明,AdaPlanner 的性能比最先进的基线软件分别高出 3.73% 和 4.11%,而使用的样本分别少了 2 倍和 600 倍。具有规划、长语境理解和程序合成功能的真实世界 WebAgent
A Real-World WebAgent with Planning, Long Context Understanding, and Program SynthesisIzzeddin Gur , Hiroki Furuta , Austin Huang , Mustafa Safdari , Yutaka Matsuo , Douglas Eck , Aleksandra Faust. [abs], Preprint 2023, https://arxiv.org/pdf/2307.12856.pdf.
最近,预训练的大型语言模型(LLM)在自主网络自动化中实现了更好的泛化和采样效率。然而,在真实世界网站上的表现仍然受到以下因素的影响:(1)领域开放性;(2)上下文长度有限;(3)缺乏对 HTML 的归纳偏差。我们介绍的 WebAgent 是一种 LLM 驱动的代理,它能从自我经验中学习,按照自然语言指令在真实网站上完成任务。WebAgent 通过将指令分解为规范子指令来提前制定计划,将冗长的 HTML 文档归纳为与任务相关的片段,并通过由这些片段生成的 Python 程序在网站上执行任务。我们在设计 WebAgent 时使用了 Flan-U-PaLM(用于基础代码生成)和 HTML-T5(用于长 HTML 文档的新型预训练 LLMs),后者使用了局部和全局注意力机制以及长跨度去噪目标混合物,用于规划和总结。我们通过实证证明,我们的模块化方法在真实网站上的成功率提高了 50%,HTML-T5 是解决各种 HTML 理解任务的最佳模型;在 MiniWoB 网页自动化基准测试中,我们的成功率比先前的方法高出 18.7%,在离线任务规划评估 Mind2Web 中,我们的成功率也比先前的方法高出 SoTA。MetaGPT:多代理协作框架的元编程
MetaGPT: Meta Programming for Multi-Agent Collaborative FrameworkSirui Hong, Xiawu Zheng, Jonathan Chen, Yuheng Cheng, Jinlin Wang, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu. [abs], [code], Preprint 2023, https://arxiv.org/pdf/2308.00352.pdf.
通过基于大型语言模型(LLM)的代理群体自动解决问题的研究取得了显著进展。现有的基于 LLM 的多代理系统已经可以解决简单的对话任务。然而,由于天真地将 LLM 串联起来会产生层叠幻觉,导致逻辑不一致,从而使更复杂任务的解决方案变得复杂。在此,我们介绍一种创新的元编程框架--MetaGPT,它将高效的人类工作流程融入基于 LLM 的多机器人协作中。MetaGPT 将标准化操作程序(SOP)编码为提示序列,以简化工作流程,从而让具有类似人类领域专业知识的代理验证中间结果并减少错误。MetaGPT 利用流水线范式为不同的代理分配不同的角色,有效地将复杂任务分解为涉及多个代理协同工作的子任务。在协同软件工程基准测试中,MetaGPT 生成的解决方案比以往基于聊天的多代理系统更加协调一致。使用 LLM 进行动态规划
Dynamic Planning with a LLMGautier Dagan, Frank Keller, Alex Lascarides. [abs], Preprint 2023, https://arxiv.org/pdf/2308.06391.pdf.
虽然大语言模型(LLM)可以解决零样本场景下的许多 NLP 任务,但涉及具身代理的应用仍然存在问题。尤其是需要多步推理的复杂计划,随着上下文窗口的增加,变得困难重重、成本过高。规划需要了解自己的行动可能产生的影响,并确定当前环境是否满足目标状态。虽然符号规划器能快速找到最优解,但它们需要对规划问题进行完整而准确的表述,这严重限制了它们在实际场景中的应用。相比之下,现代 LLM 在对任务进行推理时,可以应对噪声观测和高度不确定性。我们的研究提出了 LLM 动态规划器 (LLM-DP):一种神经符号框架,其中 LLM 与传统规划器携手合作,共同解决体现任务。在给定行动描述的情况下,LLM-DP 比的 LLM ReAct 基线更快、更高效地解决了 Alfworld 问题。TPTU:基于大语言模型的任务规划和工具使用人工智能代理
TPTU: Task Planning and Tool Usage of Large Language Model-based AI AgentsJingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao, Guoqing Du, Shiwei Shi, Hangyu Mao, Xingyu Zeng, Rui Zhao. [abs], Preprint 2023, https://arxiv.org/pdf/2308.03427.pdf.
随着自然语言处理技术的不断进步,大型语言模型(LLM)已成为各种实际应用的强大工具。尽管 LLM 具备强大的功能,但其内在的生成能力可能不足以处理复杂的任务,这就需要结合任务规划和使用外部工具。在本文中,我们首先提出了一个专为基于 LLM 的人工智能代理定制的结构化框架,并讨论了处理复杂问题所需的关键能力。在这个框架内,我们设计了两种不同类型的代理(即一步代理和顺序代理)来执行推理过程。随后,我们使用各种 LLM 将该框架实例化,并评估它们在典型任务上的任务规划和工具使用(TPTU)能力。通过强调主要发现和挑战,我们的目标是为研究人员和从业人员在人工智能应用中利用 LLM 的力量提供有用的资源。我们的研究强调了这些模型的巨大潜力,同时也指出了需要进一步研究和改进的领域。CodePlan:使用 LLM 和规划进行存储库级编码
CodePlan: Repository-level Coding using LLMs and PlanningRamakrishna Bairi , Atharv Sonwane , Aditya Kanade , Vageesh D C , Arun Iyer , Suresh Parthasarathy , Sriram Rajamani , B. Ashok , Shashank Shet. [abs], Preprint 2023, https://arxiv.org/pdf/2309.12499.pdf.
软件工程活动(如软件包迁移、修复静态分析或测试报告中的错误、为代码库添加类型注释或其他规范)涉及对整个代码库的全面编辑。我们将这些活动称为版本库级编码任务。最近,由大型语言模型(LLM)驱动的 GitHub Copilot 等工具成功地为本地化编码问题提供了高质量的解决方案。资源库级编码任务涉及的问题更多,无法直接使用 LLMs 解决,因为资源库中的代码是相互依赖的,而且整个资源库可能太大,无法纳入提示。我们将资源库级编码视为一个规划问题,并提出了一个名为 CodePlan 的任务无关框架来解决这个问题。CodePlan 综合了一个多步骤的编辑链(计划),其中每一步都会导致调用代码位置上的 LLM,而 LLM 的上下文来自整个代码库、之前的代码更改和特定任务的指令。CodePlan 基于增量依赖性分析、变更可能影响分析和自适应规划算法的新颖组合。我们评估了 CodePlan 在两个版本库级任务上的有效性:包迁移(C#)和时态代码编辑(Python)。每项任务都在多个代码库上进行评估,每个代码库都需要对许多文件(2-97 个文件)进行相互依赖的更改。这种复杂程度的编码任务以前从未使用过 LLM 自动完成。我们的结果表明,与基线相比,CodePlan 与基本事实的匹配度更高。CodePlan 能够让 5/6 个资源库通过有效性检查(例如,无差错构建和正确的代码编辑),而基线(没有规划,但与 CodePlan 具有相同类型的上下文信息)无法让任何资源库通过有效性检查。分层规划的组合基础模型
Compositional Foundation Models for Hierarchical PlanningAnurag Ajay , Seungwook Han , Yilun Du , Shaung Li , Abhi Gupta , Tommi Jaakkola , Josh Tenenbaum , Leslie Kaelbling , Akash Srivastava , Pulkit Agrawal. [abs], NeurIPS 2023, https://arxiv.org/pdf/2309.08587.pdf.
要在具有长远目标的新环境中做出有效决策,关键是要在空间和时间尺度上进行分层推理。这需要规划抽象的子目标序列,对基础计划进行视觉推理,并通过视觉运动控制按照设计好的计划执行行动。我们提出了分层规划的组合基础模型(HiP),这种基础模型利用语言、视觉和动作数据单独训练的多个专家基础模型,共同解决长视距任务。我们使用大型语言模型来构建符号计划,这些计划通过大型视频扩散模型在环境中落地。然后,生成的视频计划通过一个反动力学模型,从生成的视频中推断出动作,从而实现视觉运动控制。为了在这一层次结构中实现有效推理,我们通过迭代改进来加强模型之间的一致性。我们在三个不同的长视距桌面操作任务中展示了我们方法的有效性和适应性。VideoDirectorGPT:通过 LLM 引导的规划生成一致的多场景视频
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided PlanningHan Lin , Abhay Zala , Jaemin Cho , Mohit Bansal. [abs], Preprint 2023, https://arxiv.org/pdf/2309.15091.pdf.
尽管最近的文本到视频(T2V)生成方法取得了重大进展,但这些方法大多侧重于生成具有单一背景的单一事件的短视频片段(即单场景视频)。与此同时,最近的大型语言模型(LLM)已经证明了它们在生成布局和程序以控制下游视觉模块(如图像生成模型)方面的能力。这就提出了一个重要问题:我们能否利用这些 LLM 中蕴含的知识来生成时间上一致的长视频?在本文中,我们提出了 VideoDirectorGPT,这是一种用于多场景一致视频生成的新型框架,它利用 LLM 的知识进行视频内容规划和基础视频生成。具体来说,在给定单个文本提示的情况下,我们首先要求我们的视频规划器 LLM(GPT-4)将其扩展为 "视频规划",其中包括生成场景描述、实体及其各自的布局、每个场景的背景以及实体和背景的一致性分组。接下来,在视频规划器输出结果的指导下,我们的视频生成器 Layout2Vid 可以明确控制空间布局,并保持实体/背景在不同场景中的时间一致性,同时只使用图像级注释进行训练。我们的实验证明,VideoDirectorGPT 框架大大改进了单场景和多场景视频生成中的布局和移动控制,并能生成具有跨场景视觉一致性的多场景视频,同时在开放域单场景 T2V 生成中取得了与 SOTAs 相当的性能。我们还证明,我们的框架可以动态控制布局引导的强度,还可以生成带有用户提供的图像的视频。我们希望我们的框架能激励未来的工作,更好地将 LLM 的规划能力整合到一致的长视频生成中。用 CogEval 评估大型语言模型中的认知地图和规划
Evaluating Cognitive Maps and Planning in Large Language Models with CogEvalIda Momennejad , Hosein Hasanbeig , Felipe Vieira , Hiteshi Sharma , Robert Osazuwa Ness , Nebojsa Jojic , Hamid Palangi , Jonathan Larson. [abs], Preprint 2023, https://arxiv.org/pdf/2309.15129.pdf.
最近,大量研究声称大型语言模型(LLM)具有新的认知能力。然而,大多数研究依赖于趣闻轶事,忽略了训练集的污染,或者缺乏涉及多个任务、控制条件、多次迭代和统计稳健性测试的系统性评估。在此,我们做出了两大贡献。首先,我们提出了 CogEval,这是一个受认知科学启发的协议,用于对大型语言模型的认知能力进行系统评估。CogEval 协议可用于评估各种能力。其次,在此我们按照 CogEval 对八个大型语言模型(OpenAI GPT-4、GPT-3.5-turbo-175B、davinci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B 和 Alpaca-7B)的认知地图和规划能力进行系统评估。我们的任务提示以人类实验为基础,这些实验既能为评估规划提供已确立的建构有效性,也是 LLM 训练集所不具备的。我们发现,虽然 LLM 在一些结构较为简单的规划任务中表现出了明显的能力,但系统性评估却揭示了规划任务中惊人的失败模式,包括对无效轨迹的幻觉和陷入循环。这些发现并不支持LLMs具有突发性开箱即用规划能力的观点。这可能是因为 LLMs 不了解规划问题背后的潜在关系结构(即认知图谱),因此无法根据潜在结构展开目标导向轨迹。本文讨论了该研究的应用意义和未来发展方向。大型语言模型能成为优秀的路径规划者吗?时空推理基准与研究
Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal ReasoningMohamed Aghzal, Erion Plaku, Ziyu Yao. [abs], Preprint 2023, https://arxiv.org/pdf/2310.03249.pdf.
大型语言模型(LLMs)在各种任务中都取得了令人瞩目的成就;然而,在需要长期规划和空间推理的场景中,它们仍然面临着局限性。为了促进这方面的研究,我们在这项工作中提出了一个新的基准,称为 "自然语言路径规划"(PPNL)。我们的基准通过制定 "路径规划 "任务来评估 LLM 的时空推理能力,这些任务要求 LLM 在避开障碍物和遵守限制条件的同时导航到目标位置。利用这一基准,我们系统地研究了各种 LLM,包括通过不同的少量提示方法研究的 GPT-4,以及通过微调研究的各种规模的 BART 和 T5。我们的实验结果表明,在空间推理中,当 GPT-4 被提示以交错方式进行推理和行动时,虽然它仍然无法进行长期的时间推理,但它的前景是光明的。与此相反,虽然经过微调的 LLM 在分布推理任务中取得了令人瞩目的成绩,但它们却难以推广到更大的环境或障碍物更多的环境中。树状规划器:使用大型语言模型进行高效闭环任务规划
Tree-Planner: Efficient Close-loop Task Planning with Large Language ModelsMengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo. [abs], NeurIPS 2023, https://arxiv.org/pdf/2310.08582.pdf.
本文研究闭环任务规划,它是指生成一系列技能(计划)以完成特定目标,同时根据实时观察调整计划的过程。最近,促使大型语言模型(LLM)迭代生成动作的方法因其性能优越和用户友好性而成为一种流行的范例。然而,这种模式存在两个效率低下的问题:令牌消耗量大和冗余纠错,这两个问题阻碍了它在大规模测试和应用中的可扩展性。为了解决这些问题,我们提出了 Tree-Planner,它将使用 LLM 的任务规划重构为三个不同的阶段:计划采样、行动树构建和基础判定。Tree-Planner 首先使用 LLM 在执行前对一组潜在计划进行采样,然后将它们汇总形成一棵行动树。最后,考虑到实时环境信息,LLM 对行动树执行自上而下的决策过程。实验表明,Tree-Planner 在保持高效率的同时,还实现了最先进的性能。通过将 LLM 查询分解为单个计划采样调用和多个接地决策调用,相当一部分提示符不太可能被重复消耗。因此,与之前性能最好的模型相比,令牌消耗减少了 92.2%。此外,通过根据需要对行动树进行回溯,纠错过程变得更加灵活,从而使纠错率降低了 40.5%。把钱用在刀刃上:评估拍卖场中 LLM 代理的战略规划和执行情况
Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction ArenaJiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson. [abs], Preprint 2023, https://arxiv.org/pdf/2310.05746.pdf.
大型语言模型(LLM)能模拟复杂环境中的人类行为吗?大型语言模型最近被证明具有高级推理能力,但大部分 NLP 评估仍依赖于静态基准。要回答这个问题,就需要能在涉及长期规划的竞争性动态场景中探究战略推理的评估环境。我们介绍了 AucArena,这是一种新颖的模拟环境,用于评估拍卖中的 LLM,这种环境具有高度不可预测性,涉及许多与资源和风险管理相关的技能,同时也易于评估。我们使用最先进的 LLM 作为竞标代理,进行了几次受控模拟。我们发现,通过简单的提示,LLMs 确实展示了有效参与拍卖所需的许多技能(例如,管理预算、坚持长期目标和优先事项),我们发现这些技能可以通过明确鼓励模型适应性和观察过去拍卖中的策略来提高。这些结果意义重大,因为它们显示了使用 LLM 代理来模拟错综复杂的社会动态的潜力,尤其是在竞争环境中。不过,我们也观察到单个 LLM 的能力存在相当大的差异。值得注意的是,即使是我们最先进的模型(GPT-4)有时也会被启发式基线和人类代理所超越,这凸显了进一步改进 LLM 代理设计的潜力,以及我们的模拟环境在进一步测试和完善代理架构方面所能发挥的重要作用。用规划标记指导语言模型推理
Guiding Language Model Reasoning with Planning TokensXinyi Wang, Lucas Caccia, Oleksiy Ostapenko, Xingdi Yuan, Alessandro Sordoni. [abs], Preprint 2023, https://arxiv.org/pdf/2310.05707.pdf.
大型语言模型(LLM)最近因其执行复杂推理任务(如思维链推理)的能力而引起了广泛关注。然而,现有的大多数增强推理能力的方法都严重依赖于数据驱动方法,而忽视了模型推理能力的结构方面。我们发现,虽然 LLM 可以很好地管理单个推理步骤,但在保持整个推理链的一致性方面却很吃力。为了解决这个问题,我们在每个推理步骤的开始引入了 "规划标记",作为模型的指南。然后,这些标记嵌入与模型的其他参数一起进行微调。我们的方法所需的可训练参数增加量微乎其微(仅为 0.001%),可通过完全微调或参数效率更高的方案进行应用。我们将这种方法应用于三种不同的 LLM,证明了它的有效性,在三个数学单词问题数据集上,与普通的思维链微调基线相比,准确率有了显著提高。语言代理树搜索将语言模型中的推理行为和规划统一起来
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language ModelsAndy Zhou, Kai Yan, Michal Shlapentokh-Rothman, Haohan Wang, Yu-Xiong Wang. [abs], Preprint 2023, https://arxiv.org/pdf/2310.04406.pdf.
虽然大型语言模型(LLM)在一系列决策任务中表现出了令人印象深刻的性能,但它们依赖于简单的行动过程,无法作为自主代理进行广泛部署。我们引入了 LATS(语言代理树搜索),这是一个能协同 LLM 在规划、行动和推理方面能力的通用框架。LATS 从基于模型的强化学习中的蒙特卡洛树搜索中汲取灵感,将 LLMs 用作代理、价值函数和优化器,重新利用它们的潜在优势来增强决策能力。这种方法的关键在于使用外部反馈环境,它提供了一种更深思熟虑和自适应的问题解决机制,超越了现有技术的局限性。我们对编程、HotPotQA 和 WebShop 等不同领域进行了实验评估,结果表明 LATS 可用于推理和行动。特别是,LATS 在使用 GPT-4 的 HumanEval 编程中取得了 94.4% 的平均分,在使用 GPT-3.5 的 WebShop 网页浏览中取得了 75.9 的平均分,证明了我们方法的有效性和通用性。使用大型语言模型导航:将语义猜测作为规划的启发式方法
Navigation with Large Language Models: Semantic Guesswork as a Heuristic for PlanningDhruv Shah, Michael Equi, Blazej Osinski, Fei Xia, Brian Ichter, Sergey Levine. [abs], Preprint 2023, https://arxiv.org/pdf/2310.10103.pdf.
在陌生环境中导航是机器人面临的一大挑战:虽然绘图和规划技术可用于建立世界的表征,但在陌生环境中使用这些方法快速发现通往所需目标的路径往往需要长时间的绘图和探索。人类可以利用语义快速浏览新环境,尤其是布局合理的室内环境,例如厨房通常与起居室相邻,出口标志指示出路等等。语言模型可以为机器人提供此类知识,但直接使用语言模型来指导机器人如何到达某个目的地也是不切实际的:虽然语言模型可能会产生关于如何到达某个目标的叙述,但由于它们并非基于真实世界的观察,这种叙述可能会任意出错。因此,在本文中,我们将研究如何利用语言模型产生的 "语义猜测 "作为规划算法的指导性启发式。我们的方法,即语言前沿指南(LFG),通过将语言模型中存储的语义知识作为使用拓扑图或度量图进行规划的搜索启发式,利用语言模型对新奇的真实世界环境进行偏向性探索。我们在具有挑战性的真实世界环境和模拟基准中对 LFG 进行了评估,结果表明它优于无信息探索和其他使用语言模型的方法。利用语言模型进行交互式任务规划
Interactive Task Planning with Language ModelsBoyi Li, Philipp Wu, Pieter Abbeel, Jitendra Malik. [abs], Preprint 2023, https://arxiv.org/pdf/2310.10645.pdf.
交互式机器人框架可完成长视距任务规划,即使在执行过程中,也能轻松扩展到新的目标或不同的任务。然而,大多数传统方法都需要预定义的模块设计,这使得它很难通用于不同的目标。最近基于大型语言模型的方法可以实现更开放的规划,但通常需要大量的提示工程或特定领域的预训练模型。为了解决这个问题,我们提出了一个简单的框架,利用语言模型实现交互式任务规划。我们的系统通过语言将高级规划和低级功能执行结合在一起。我们验证了我们的系统在为未知目标生成新的高级指令方面的鲁棒性,以及它在适应不同任务方面的易用性,只需替换任务指南即可,无需额外的复杂提示工程。此外,当用户发送新请求时,我们的系统能够根据新请求、任务指南和先前执行的步骤进行相应的精确重新规划。BioPlanner:自动评估生物学协议规划的 LLM
BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in BiologyOdhran O'Donoghue, Aleksandar Shtedritski, John Ginger, Ralph Abboud, Ali Essa Ghareeb, Justin Booth, Samuel G Rodriques. [abs], EMNLP 2023, https://arxiv.org/pdf/2310.10632.pdf.
为科学实验自动生成准确协议的能力将是向科学自动化迈出的重要一步。大型语言模型(LLM)在问题解答、生成连贯的文本和代码等一系列任务中都具有令人印象深刻的能力。然而,LLM 在处理多步骤问题和长期规划方面可能会遇到困难,而这对于设计科学实验至关重要。此外,评估科学协议的准确性也很有挑战性,因为实验可以用多种不同的方式进行正确描述,需要专家知识才能进行评估,而且通常无法自动执行。在此,我们提出了一个用于规划实验方案任务的自动评估框架,并介绍了 BioProt:一个具有相应伪代码表示的生物学方案数据集。为了衡量生成科学协议的性能,我们使用 LLM 将自然语言协议转换为伪代码,然后评估 LLM 从高级描述和可接受的伪代码函数列表中重建伪代码的能力。我们对 GPT-3 和 GPT-4 进行了评估,并探讨了它们的鲁棒性。我们通过使用检索到的伪代码生成准确的新协议,从外部验证了文本伪代码表示法的实用性,并在我们的生物实验室中成功运行了生成的协议。我们的框架具有可扩展性,可用于评估和改进其他科学领域或其他缺乏自动评估的领域的语言模型规划能力。DiagrammerGPT:通过 LLM 规划生成开放域、开放平台图表
DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM PlanningAbhay Zala, Han Lin, Jaemin Cho, Mohit Bansal. [abs], Preprint 2023, https://arxiv.org/pdf/2310.12128.pdf.
文本到图像(T2I)生成技术在过去几年中取得了长足的发展。尽管如此,利用 T2I 模型生成图表的工作还很少。图表是一种符号/示意图,它使用结构丰富、空间复杂的可视化(如相关对象、文本标签、方向箭头、连接线等的密集组合)来解释信息。现有的先进 T2I 模型在生成图表时往往会失败,因为当许多对象通过箭头/线条等复杂关系密集连接时,这些模型缺乏细粒度的对象布局控制,而且往往无法呈现可理解的文本标签。为了弥补这一缺陷,我们提出了 DiagrammerGPT,这是一种新型的两阶段文本到图表生成框架,它利用 LLM(如 GPT-4)的布局指导功能生成更精确的开放域、开放平台图表。在第一阶段,我们使用 LLM 生成并迭代完善 "图表计划"(在计划者-审核者反馈回路中),其中描述了所有实体(对象和文本标签)、它们之间的关系(箭头或线条)以及它们的边界框布局。在第二阶段,我们使用图表生成器 DiagramGLIGEN 和文本标签渲染模块,按照图表计划生成图表。为了对文本到图表的生成任务进行基准测试,我们引入了 AI2D-Caption,这是一个建立在 AI2D 数据集基础上的带有密集注释的图表数据集。我们在定量和定性方面都表明,我们的 DiagrammerGPT 框架能生成更准确的图表,性能优于现有的 T2I 模型。我们还提供了全面的分析,包括开放域图表生成、不同平台上的矢量图形图表生成、人在环图表计划编辑以及多模态计划器/审核器 LLM(如 GPT-4Vision)。我们希望我们的工作能对通过 T2I 模型和 LLM 生成图表的进一步研究有所启发。PromptAgent:利用语言模型进行战略规划,实现专家级提示优化
PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt OptimizationXinyuan Wang, Chenxi Li, Zhen Wang, Fan Bai, Haotian Luo, Jiayou Zhang, Nebojsa Jojic, Eric P. Xing, Zhiting Hu. [abs], Preprint 2023, https://arxiv.org/pdf/2310.16427.pdf.
高效的特定任务提示通常是由专家根据对大型语言模型(LLM)的本能和目标任务的复杂性的深刻理解,将详细说明和领域洞察整合在一起而精心设计的。然而,自动生成这种专家级提示信息的工作仍然难以实现。现有的提示优化方法往往会忽略领域知识的深度,难以有效探索专家级提示的广阔空间。为了解决这个问题,我们提出了 PromptAgent 这种优化方法,它能自动生成与专家手工生成的提示质量相当的提示。PromptAgent 的核心是将提示优化视为一个战略规划问题,并采用植根于蒙特卡洛树搜索的原则性规划算法,在专家级提示空间中进行战略导航。受到类似人类试错探索的启发,PromptAgent 通过反思模型错误和生成建设性错误反馈,诱导精确的专家级见解和深入指导。这种新颖的框架允许代理迭代检查中间提示(状态),根据错误反馈(行动)完善提示,模拟未来奖励,并寻找通往专家提示的高回报路径。我们将 PromptAgent 应用于跨越三个实际领域的 12 项任务:BIG-Bench Hard (BBH) 以及特定领域和一般 NLP 任务,结果表明它明显优于强大的思维链和最近的提示优化基线。广泛的分析表明,它能够以极高的效率和通用性制作专家级的、详细的和具有领域洞察力的提示。大语言模型驱动对话代理的即插即用策略规划器
Plug-and-Play Policy Planner for Large Language Model Powered Dialogue AgentsICLR 2024 Conference Submission7048 Authors. [openreview], 2023, https://openreview.net/pdf?id=MCNqgUFTHI.
大型语言模型(LLM)时代,主动对话是一个既实用又具有挑战性的对话问题,对话策略规划是提高大型语言模型主动性的关键。现有的大多数研究利用各种提示方案实现 LLM 的对话策略规划,或通过人工智能口头反馈迭代增强处理给定案例的能力。然而,这些方法要么受限于被冻结的 LLMs 的政策规划能力,要么很难被移植到新的案例中。在这项工作中,我们引入了一种新的对话策略规划范式,利用可调整的语言模型插件作为即插即用的对话策略规划器(名为 PPDPP),为主动对话问题制定 LLM 策略。具体来说,我们开发了一个新颖的训练框架,以促进对现有人类标注数据进行有监督的微调,以及通过基于 LLM 的自我游戏模拟收集的动态交互数据,从面向目标的人工智能反馈中进行强化学习。通过这种方式,LLM 驱动的对话代理不仅可以在训练后泛化到不同的案例中,而且只需替换所学插件即可适用于不同的应用。此外,我们还建议评估对话系统在交互环境下的政策规划能力。实验结果表明,在谈判、情感支持和辅导对话等三种不同的主动对话应用中,PPDPP的性能始终大大优于现有方法。PlaSma:基于语言的规划和再规划程序性知识模型
PlaSma: Procedural Knowledge Models for Language-based Planning and Re-PlanningICLR 2024 Conference Submission8605 Authors. [openreview], 2023, https://openreview.net/pdf?id=dFcXJgnrGB.
程序规划需要将高层次目标分解为一连串按时间顺序排列的步骤,对于机器来说是一项重要而又复杂的任务。它涉及整合常识性知识,以推理复杂的、通常与上下文相关的情况,例如 "在没有电话的情况下安排医生预约"。虽然目前的方法使用大型语言模型(LLMs)取得了令人鼓舞的成果,但它们也存在一些弊端,如昂贵的 API 调用和可重复性问题。在本文中,我们提倡使用较小的语言模型进行规划。我们提出的 PlaSma 是一种新颖的双管齐下的方法,可为小型语言模型赋予程序知识和(受限的)基于语言的规划能力。更具体地说,我们开发了符号化程序知识提炼技术,以增强小型语言模型中的常识性知识,并开发了一种推理时间算法,以促进更有条理、更准确的推理。此外,我们还引入了一项新的相关任务--重新规划(Replanning),该任务要求修改计划以应对受限情况。在规划和重新规划设置中,我们都证明了数量级更小的模型(770M-11B 个参数)也能与较大的教师模型相抗衡,而且往往能超越它们的能力。最后,我们展示了 PlaSma 在虚拟环境 VirtualHome 中的成功应用。