为什么多模态基础智能体是下一个必争之地?清华发布全新评测基准VisualAgentBench
背景:从“基础模型”到“基础智能体”
去年 8 月,笔者和合作者一起完成了 AgentBench 这一工作,成为了首个系统评估 LLM-as-Agent 能力的评测基准,得到了许多关注。从 AgentBench 发布一年来,基础模型和智能体领域都发生了翻天覆地的变化。
在基础模型领域,一个尤其重要的进展是多模态大模型的出现和逐渐成熟(如 GPT-4o)。这改变了大模型智能体的输入类型(文本-> 文本+视觉),并大大扩展了智能体的应用范围。
在智能体领域,一个重要的概念——基础智能体,开始引起大家的注意(参考 Jim Fan 在 TEDx 的演讲)。理想中的智能体,不应当只能完成一个特定的任务,而是能同时掌握应对多种环境的能力并实现泛化。
而面向智能体进行 Trajectory SFT(轨迹微调)数据的合成和 RL from Agent Feedback(智能体反馈强化学习),可能尚有巨大的空间,并且能直接面向具体应用进行落地。
在近期的另一个工作 AutoWebGLM 中,笔者和合作者就一起初步探索了在网页浏览方面合成训练 Trajectory 并采用强化学习的效果,并实现了基于 ChatGLM3-6B 模型媲美 GPT-4 在多个网页浏览数据集上的效果。因此,笔者也非常好奇合成轨迹这一方案,对于更广泛的多模态智能体环境的效果。而这也就是 VisualAgentBench 开发的缘由。
论文链接:
https://arxiv.org/abs/2408.06327
具身智能:居家机器人模拟器(VAB-OmniGibson),我的世界(VAB-Minecraft)
GUI:智能手机(VAB-Mobile)和网页浏览(VAB-WebArena-Lite,通过改造和修正 WebArena 实现)
视觉设计:前端 CSS(VAB-CSS)
目标为大家更系统地理解多模态大模型和智能体的进展并投入开发铺平道路。在整个 VAB 的设计过程中,我们考虑到了几个重要的设计特性:
以视觉为中心:基础智能体应当具有良好的通过视觉获取环境信息的能力。尽管像网页这样的场景中,HTML 是非常有益的补充信息,但人类却无需阅读原始 HTML 仅通过视觉就完成网页上的复杂任务。这说明在评测基准中重点关于通过视觉如何完成智能体任务是十分必要的。
高层次的决策推理:VAB 关注多模态大模型在高层次上的决策能力。许多此前的工作比较关注多模态大模型在具体智能体低层次操控上的能力(如 Steve-1,RT-1),但大模型的能力优势主要还是结合常识、知识和指令遵从的复杂推理和工具调用。因此,VAB 重点希望探究和开发多模态大模型执行长序列决策和应对环境变化的准确性。
交互式评测:在真实世界智能体任务上评估大模型非常具有挑战性,因为实现目标往往可以有许多可行的路径。此前,许多评估数据集会采用在收集的某条成功轨迹上的平均单步成功率(Step Success Rate)作为评估方式,但这和真实世界的差异巨大,也无法考虑模型自我纠错的能力。
因此,开发 VAB 过程中,我们的许多工程努力在于实现在 5 个环境中的交互式评测(即通过最终智能体是否完成了特定目标来作为评判标准),并采用完整的成功率(Success Rate)作为评估标准。这也与当前许多特定领域智能体评估基准(SWE-Bench,WebArena,AgentBench 中的部分环境,OS-World)对齐。
评估结果整体见下:
Chain-of-Thought(或者说 ReAct 方法)并不总是有效,对于一些 Agent 任务而言反而是负面效果
当前多模态大模型对于多图的对比理解能力普遍很差
纠错能力在许多任务的成功中是不可或缺的
VAB的轨迹合成策略
如何获取大量多样的用户指令:与基础模型开发中的 Self-Instruct 方式类似,在合成智能体轨迹训练数据前,需要先合成指令数据。然而,相比 Self-Instruct 等方式更困难的点在于,智能体指令数据需要面向环境本身设计,并且绝大多数时候需要保证指令在环境中是可完成的。
如何获取对于指令的轨迹:这又存在两个问题。一是如何获得正确的轨迹,并且有办法让我们判断这一轨迹最终的确成功达成目标了。二是,如何有办法在轨迹中体现出模型的纠错,而非每一步的无比正确。
程序求解器:通过人类专家利用自动化脚本撰写一系列判断条件以实现程序化的轨迹合成。例如,在网页上对于具体某类任务,可以使用 Playwright 工具来实现 RPA 的功能,从而获取求解的轨迹用于训练。
多模态智能体自举(Bootstrapping):对于有判断函数的指令,可以通过对比较强的多模态大模型(如 GPT-4o)进行提示以构建能力较弱的智能体,然后执行任务并筛选正确轨迹的方式来构造训练集。我们为了提高正确率,还可以结合一些复杂的智能体设计策略(例如引入记忆模块)。
人类标注:许多场景最终可能前两种策略都不够高效,反而人类的标注更加合算和有效,那就不如采用更多的人工标注来完成。
综合以上众多考虑因素,我们在 VAB 中对于每一个具体环境,最终采用了相当混合和灵活的策略。更多具体的考量,可以参考论文中的表述。我们相信,这些经验对于之后有意愿从事合成轨迹数据开发的研究者来说,会是十分重要的参考。
VAB 在笔者看来,会成为多模态智能体研究中一个重要的平台,为接下来研究者们更深入地评估和开发多模态智能体铺平了道路。我们也希望对 VAB 感兴趣的同学一起加入 VAB 的下一个版本的迭代,包括引入更多环境和支持强化学习等。
笔者相信,要实现 AGI,仅仅让模型停留在思考(Think)的层面是远远不够的,只有当基础模型变成基础智能体,能在真实环境中大规模地采取行动(Act)以获取真实反馈实现自我提升时,才是实现将人类从繁琐工作中解放的 AGI 的真正黎明。
🌟本文内容已获论文原作者独家授权发布,如需转载请联系PaperWeekly工作人员微信:pwbot02,添加时请备注「转载」。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧