工具调用效果比肩GPT-4!本地可微调的多模型协作工具学习agent框架α-UMi
目前,基于大模型调用 API、function 和代码解释器的工具学习 agent,例如 OpenAI code interpretor [1],AutoGPT [2] 等项目,在工业界和学术界均引起了广泛关注。在外部工具的加持下,大模型能够自主完成例如网页浏览、数据分析、地址导航等更复杂的任务,因此 AI agent 也被誉为大模型落地的一个重要方向[3]。
论文地址:
https://arxiv.org/abs/2401.07324
https://github.com/X-PLUG/Multi-LLM-Agent
https://modelscope.cn/models/iic/alpha-umi-planner-7b/summary
提出了一种多模型协作的 agent 框架,该框架利用三个小模型:planner、caller 和 summarizer 分别负责路径规划、工具调用和总结回复,对小模型进行工作负荷的卸载。同时该框架对比单模型 agent 支持更灵活的 prompt 设计。其在 ToolBench [5],ToolAlpaca corpus [6] 等多个 benchmark 上超过单模型 agent 框架,获得比肩 GPT-4的性能。 提出了一种“全局-局部”的多阶段微调范式(GLPFT),利用该范式成功在开源小模型上训练了多模型协作框架,实验结果表明这种两阶段范式为目前探索出的最佳训练多模型协作 agent 范式。
GLPFT:全局-局部多阶段微调范式
实验结果
3.1 静态评估
系统表现显著超过了 ChatGPT 和工具调用开源模型 ToolLLaMA,性能与 GPT-4 比肩。值得一提的是,ToolLLaMA 需要 8192 的输出长度以获得令人满意的结果,当输入长度为 4096 时,其效果急剧下降,幻觉率飙升,而对比之下 只需要 4096 的输入长度,这得益于多模型框架带来的更灵活的 prompt 设计。 对比本文作者团队复现的单模型 agent 框架, 也取得了性能的显著提高。 在多模型协作框架模型的微调方案对比上,直接微调三个模型、或单个模型多任务微调均无法使多模型协作框架发挥效果,只有使用多阶段微调 GLPFT 才能达到最佳性能,突出了文章提出的 GLPFT 在多模型协作框架微调中的必要性。
3.2 真实api调用评估
单纯与标注比对无法全面展示 agent 框架性能,因此作者也在 ToolBench 数据集上引入了一种真实 api 调用的评估方式,该评估方式对比 agent 框架完成任务的成功率(pass rate)和 agent 框架与标准 baseline 框架(ChatGPT-ReACT)对比的胜率(win rate)。实验结果如下:
在该真实 api 调用实验结果中,依然战胜了 ChatGPT 和 ToolLLaMA,并在成功率上取得了与 GPT-4 相当的结果。
3.3 Data scaling law
除了 rouge-L 指标外,多模型协作的 在不同训练数据量、不同指标下都一致地超过了单模型 agent 架构。特别是在 Plan ACC 和 Aug F1 这类关系到工具调用 agent 到规划能力和工具调用能力的指标上, 对比单模型 agent 的表现提升更加明显,反映了文章提出的多模型协作架构对于工具调用 agent 的适用性。 可以观察到,单模型 agent 在各项指标上达到峰值所需的数据量是不同的,而 却能随着数据量的增加,在各个指标上都获得稳定的表现提升,这更加凸显了多模型协作的必要性:我们很难找到一个在所有指标上达到峰值的数据量和模型检查点,而通过多模型协作,我们可以解决这个问题。
3.4 模型开销
总结
本文以缓解小模型在工具调用 agent 任务中的容量限制为出发点,设计了多个小模型协作的工具调用 agent 框架及其对应的多阶段微调方法,在多个工具调用 benchmark 上取得了超过单模型 agent baseline,比肩 GPT-4 的工具调用结果。
该框架的成功主要得益三点:
1. 多模型协作框架减轻了单个模型的工作负载,通过任务分解让工具调用任务变得更简单,更适合能力稍差的开源小模型;
2. 多模型协作框架支持更精细的 prompt 制定,能够让每个模型专注于自身任务,减少其他冗余信息的干扰;
3. “全局-局部”的多阶段微调方式综合了各种微调范式的优势,是多模型协作在开源模型底座下成为可能。
该工作未来仍有一定扩展空间,例如增强 planner 的泛化性,使其使用于更广泛的 agent 任务场景,进行 caller 模型的本地私有化,使其专注于本地工具调用任务,以及云端大模型结合本地小模型的“大-小”模型协同框架。
参考文献
[1] GPT-4 code interpretor: https://chat.openai.com/?model=gpt-4-code-interpreter
[2] AutoGPT: https://github.com/Significant-Gravitas/Auto-GPT
[3] Navigating the AI Agent Landscape: Insights into Advancements and Opportunities: https://medium.com/@VAI_LABS/navigating-the-ai-agent-landscape-insights-into-advancements-and-opportunities-75c4e67ffc8e
[4] How abilities in large language models are affected by supervised fine-tuning data composition.
[5] ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
[6] ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧