查看原文
其他

《2024年人工智能指数报告》- 2.8 AI Agents 哪家强?

renee创业狗 Renee 创业随笔
2024-10-10

前天正好讲到微软发表的Agent AI论文(【微软Paper】Agent AI 、整体智能Holistic Intelligence、大基础模型LFM),今天再把斯坦福人工智能研究院(HAI)的报告中的Agent部分进一步讨论。关于copilot vs agent,这个视频挺有意思的,在编程老师傅的视频号里看到的:回到斯坦福的报告,这章节中主要是介绍了两个benchmark和一个研究。

AgentBench

AgentBench,一个新的基准测试,专为评估基于LLM的代理设计,涵盖了八种不同的交互场景,包括网页浏览、在线购物、家庭管理、解谜以及数字卡片游戏。

以上是各大语言模型的对比,GPT-4仍然处于领先地位。

MLAgentBench

MLAgentBench,一个用于评估AI研究代理性能的新基准测试,测试AI代理能否从事科学实验。更具体地说,MLAgentBench评估它们作为计算机科学研究助理的潜能,通过15种不同的研究任务来评估它们的表现。


在这些任务中,GPT-4一直呈现出最佳结果。如上图。

除了这两个基准测试,报告里关于research的部分突出介绍了Voyageur(Voyager:Minecraft中embodied agent具身智能体),但由于我之前已经分享过这项研究,今天的笔记便不再详细说明。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存