大模型工具学习系统性综述+开源工具平台,清华、人大、北邮、UIUC、NYU、CMU等40多位研究者联合发布
近期,来自清华大学、中国人民大学、北京邮电大学、UIUC、NYU、CMU 等高校的研究人员联合 OpenBMB 开源社区、知乎、面壁智能公司探索了基础模型调用外部工具的课题,联合发表了一篇 74 页的基础模型工具学习综述论文,并发布了开源工具学习平台。该团队提出了基础模型工具学习的概念,系统性地整理和阐述了其技术框架,同时展示了未来可能面临的机遇和挑战。这项研究对于了解基础模型工具学习的最新进展及其未来发展趋势具有重要价值。
论文链接:
BMTools 工具包:
工具学习论文列表:
研究背景
工具学习是指让模型能够理解和使用各种工具来完成任务的学习过程。从学习目标的角度来看,现有工具学习主要可以分为两类:
工具增强学习(Tool-augmented Learning),利用各种工具的执行结果,增强基础模型性能。在这一范式中,工具执行结果被视为辅助生成高质量输出的外部资源。
工具导向学习(Tool-oriented Learning),将学习过程重点从增强模型性能转向工具执行本身。这一类研究关注开发能够代替人类控制工具并进行序列决策的模型。
工具学习框架
通用的工具学习框架包含人类用户和四个关键组成部分:工具集、控制器、感知器和环境:
工具集(Tool Set):可供模型使用的各种工具。从交互接口的视角可以分为三类:基于物理交互的工具、基于 GUI 交互的工具、基于程序交互的工具。
控制器(Controller):通常使用基础模型建模,负责接收用户的指令,并根据这些指令制定可执行的计划并调用工具执行。
感知器(Perceiver):负责接收来自环境和用户的反馈信息,并将其汇总给控制器。
环境(Environment):模型所处的场景,包括物理环境和虚拟环境等。
形式化定义:
关键研究问题
➢ 意图理解
➢ 工具理解
▲ 零样本提示学习描述工具的功能、输入输出格式等,少样本提示学习则通过具体的使用案例来提示模型如何使用对应工具。
➢ 规划与推理
对于复杂任务,控制器需要具备一定的规划和推理能力,以便将任务拆分成若干子任务。这一过程中的推理能力可以分为两类:内省推理(Introspective Reasoning),是指控制器在不涉及与环境交互的情况下,仅根据指令对任务进行推理和规划,无需中间执行结果。这种推理方式侧重于分析任务的本质,通过对指令的理解来生成相应的规划;与之相反,外省推理(Extrospective Reasoning),涉及控制器与环境的交互。在这种情况下,控制器会根据先前步骤的执行结果逐步推理并生成规划。这种方式强调了模型的实时调整和适应能力,使得控制器能够在完成任务过程中不断优化规划策略。
▲ 工具学习内省推理和外省推理
工具间的协同配合:为了完成复杂任务,模型不仅需要理解各个工具的功能,还应该理解它们之间的相互作用和依赖关系。这有助于控制器更有效地使用工具,确保任务的顺利完成。
并行执行:对于彼此不存在依赖关系的子任务,模型需要具有并行执行的能力以提高执行效率。这将有助于在有限的时间内完成更多任务,提高整体性能。
多智能体协作:复杂任务通常需要多个智能体彼此协作,在这种情况下,每个智能体都具有其独特的能力和专业知识,彼此协作可以实现更高效和有效的问题解决。因此,探索多智能体协作机制对于提升控制器在复杂任务中的表现具有重要意义。
➢ 可泛化的工具学习训练方法
从演示中学习:模型模仿人类使用工具,可采用监督学习、半监督学习或自监督学习来实现。
从反馈中学习:环境或人类的反馈可以帮助模型理解其行为的结果并调整其行为,据此改进其工具使用策略,从而增强模型的使用工具能力。强化学习便是实现从反馈中学习的一个代表性解决方案。
语义接口:模型通过使用特定的文本片段(如动作名称)作为动作触发器,从而来操作工具。
GUI 接口:模型模仿人类使用图形界面(GUI)来与工具交互。
编程接口:模型通过编写代码来使用工具。这种方式具有广阔的应用前景,首先是因为编写代码可以实现复杂的工具使用逻辑,其次通过执行程序可以更加方便地调用外部工具。
元工具学习:元工具学习体现了模型的元认知能力,使其能够反思自身的学习过程并在必要时调整新的工具使用策略。通过元认知,模型可以识别工具使用策略中的基本原则或共同模式,并将其迁移到新的任务或领域中去。
课程工具学习:课程工具学习则采用逐步学习的方法,让模型从简单的工具开始学习,然后逐渐学习更复杂的工具。这种方法有助于模型理解复杂工具,将其视为简单工具的进阶版。通过课程工具学习,模型能够更有效地识别抽象工具间的共性和差异,从而实现知识和技能的迁移。
开源平台BMTools
ChatGPT Plugins 的出现补充了 ChatGPT 最后的短板,使其可以支持连网、解决数学计算,被称为 OpenAI 的“App Store”时刻。然而,由于目前其支持的工具数量有限,并且仅支持部分OpenAI Plus用户,大多数开发者仍然无法使用。
为解决这个痛点,研究团队推出了工具学习包 BMTools,一个基于语言模型的开源可扩展工具学习平台。团队将各种各样的工具(例如文生图模型、搜索引擎、股票查询等)调用流程都统一到一个框架上,使整个工具调用流程标准化、自动化。开发者可以通过 BMTools,使用给定的模型(ChatGPT、GPT4)调用多种多样的工具接口,实现特定功能。
▲ BMTools Huggingface Spaces演示
前瞻开放讨论
工具学习的安全性:在期待基础模型与工具学习结合所带来的生活改变之前,审视其中潜在的风险尤为重要。团队强调了需要防止恶意用户误导模型调用工具,以及提升模型使用工具的可信度等问题。
AI 创造工具:基础模型可能具有自发创造工具的潜力。一直以来,创造和使用工具被认为是人类智能的独特特征,而基础模型的出现可能颠覆这一观念。越来越多的证据表明,创造工具的能力不再是人类专有的领域。
工具学习个性化:模型通常在通用文本语料库上训练,并使用广泛定义的人类偏好进行校准。然而,这种方法无法满足具有不同需求的用户的个性化需求。探索如何实现个性化的工具学习将成为未来研究的重要课题。
知识冲突:引入工具后,模型需要解决来自不同来源的知识冲突问题,包括模型自身、外部知识库等。解决不同知识库间的知识冲突,以实现知识的有效整合,是迎接工具学习挑战的关键一步。
开放性问题:最后,团队提出了一系列开放性问题,包括:工具能力是否应当内化进模型中?如何准确评判模型的工具使用能力?如何规避工具学习场景下的安全性、隐私性问题?如何在工具学习框架下促进更好的人机协同?
总结
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧