《2024年人工智能指数报告》- 2.8 AI Agents 哪家强？

Original renee创业狗 Renee 创业随笔

2024-10-10

前天正好讲到微软发表的Agent AI论文（【微软Paper】Agent AI 、整体智能Holistic Intelligence、大基础模型LFM），今天再把斯坦福人工智能研究院（HAI）的报告中的Agent部分进一步讨论。关于copilot vs agent，这个视频挺有意思的，在编程老师傅的视频号里看到的：回到斯坦福的报告，这章节中主要是介绍了两个benchmark和一个研究。

AgentBench

AgentBench，一个新的基准测试，专为评估基于LLM的代理设计，涵盖了八种不同的交互场景，包括网页浏览、在线购物、家庭管理、解谜以及数字卡片游戏。

以上是各大语言模型的对比，GPT-4仍然处于领先地位。

MLAgentBench

MLAgentBench，一个用于评估AI研究代理性能的新基准测试，测试AI代理能否从事科学实验。更具体地说，MLAgentBench评估它们作为计算机科学研究助理的潜能，通过15种不同的研究任务来评估它们的表现。

在这些任务中，GPT-4一直呈现出最佳结果。如上图。

除了这两个基准测试，报告里关于research的部分突出介绍了Voyageur（Voyager：Minecraft中embodied agent具身智能体），但由于我之前已经分享过这项研究，今天的笔记便不再详细说明。

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

《2024年人工智能指数报告》- 2.8 AI Agents 哪家强？

AgentBench

MLAgentBench

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

《2024年人工智能指数报告》- 2.8 AI Agents 哪家强？

AgentBench

MLAgentBench

您可能也对以下帖子感兴趣