查看原文
其他

【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布

SuperCLUE CLUE中文语言理解测评基准 2024-01-03

LLM大模型作为 AI Agent(智能体)的研究和应用正在不断发展,AI Agent智能体无疑最大程度释放了LLM潜能,逐渐成为了通向AGI的技术共识。

AI Agent是一个能够自主理解、规划决策和执行复杂任务的智能体,有代表性的Agent比如AutoGPT、AgentGPT等。

现有关于Agent能力的测评,主要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评,这无疑限制了国内Agent的发展。

为此,我们推出了SuperCLUE-Agent。这是一个聚焦于Agent能力的多维度基准测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力

经过对16个支持中文的大语言模型的测评,我们发现:在Agent的核心基础能力中文任务上,GPT4模型大幅领先;同时,代表性国内模型,包括开源和闭源模型,已经较为接近GPT3.5水平。
测评体系、代表性示例、榜单已经在这里发布:

www.cluebenchmarks.com/superclue_agent.html

https://github.com/CLUEbenchmark/SuperCLUE-Agent

SuperCLUE-Agent

SuperCLUE-Agent包括10个任务,分布于3大核心基础能力。

具体任务如下:

维度一:工具使用

#调用API:该任务的主要目的是评估AI Agent调用API的能力。主要考察AI Agent是否可以根据给定API的描述精确调用API,并正确响应API返回的能力。

#检索API:该任务的主要目的是评估AI Agent检索API的能力。主要考察AI Agent选择可能解决用户需求的API,并通过阅读文档来学习如何使用它们。
#规划API:该任务的主要目的是评估AI Agent在检索和调用API之外的规划能力。考虑到不明确的用户请求(例如预订航班/酒店进行旅行)或者更复杂的请求,模型可能需要进行多次API调用来解决问题。

#通用工具使用:评估大模型使用通用工具的能力。包括但不限于:使用搜索引擎、浏览网页、操作本地文件、搜索本地文件、使用数据库等等。

维度二:任务规划

#任务分解:该类任务的目的是评估AI Agent对任务规划的能力,总体来说,它评估的是AI Agent将大型任务分解为较小的、可管理的子目标,从而能够高效地处理复杂任务的能力。

#自我反思:该类任务的目标评估AI Agent 对过去的行为进行自我批评和反思,从错误中吸取教训,并为未来的步骤进行改进,从而提高最终结果的质量的能力。

#思维链(CoT):该任务主要考察的是AI Agent利用更多的推理时间和过程,将困难的任务分解为更小、更简单的步骤的能力,着重考察AI Agent是如何一步一步通过思考来解决问题的能力。

维度三:长短期记忆

#多文档问答:主要考察AI Agent在多个文档中提取并组合答案的能力。

#长程对话:在现实世界中的长对话中,用户通常会使用大模型谈论几个话题并在其中切换。比如主题检索任务,是通过要求大模型检索由多个主题组成的长对话中的开头和中间过程的主题来测试这种场景。

#少样本示例学习(In-context Learning)也称情境学习,是一种特定的提示工程方法,其中任务的示例作为提示的一部分提供给模型。它是一种高阶的涌现能力,你可以使用现成的大型语言模型(LLM)来解决新任务,而无需进行微调。

评测结果

我们首批测评选择了国内外有代表性的16个闭源/开源的模型,整体表现情况如下:

各模型在多层次能力上的表现如下:

榜单地址:www.SuperCLUEAI.com

我们选择了一些代表性模型,通过雷达图展示在各个基础任务上的能力分布。

结论及分析

在我们的研究中,我们可以得出三个主要结论:
结论1:在Agent核心基础能力上,国内模型已经较为接近GPT3.5水平。
国内大模型经过近一年的大跃迁,最好的两个模型与GPT3.5的差距在6-10分。其中既有闭源的中文大模型,也有开源的中文大模型。当然我们也要看到,即便是GPT3.5,总分依然没有达到60分。这说明类似Agent这种要求大模型高阶能力的任务,对当前支持中文的大模型是非常有挑战性的。
结论2:国内开源模型已经具备比较强的竞争力,某些方面超过了一些闭源模型。
在SuperCLUE-Agent上,当前测试的首批大模型中,国内最好的模型是开源模型。这可能与大家之前的认识有所不同。开源模型甚至超过了多个比较有代表性的国内闭源模型。
在大模型时代的开源模型,就像Meta发布的Llama2一样,我们国内的开源大模型可以具有很大的影响力和竞争力。
结论3:GPT4效果仍然遥遥领先。
GPT-4在SuperCLUE-Agent的10个任务中有8个任务表现最佳,即使在「任务分解」上也取得了76.15分的成绩。这表明GPT4在智能体方面具有非常大的优势,但值得肯定的是,国内有部分模型在某些任务上表现也可圈可点。
但同时,国内的一些模型,声称媲美甚至超越GPT4,但是在SuperCLUE-Agent上,我们看到仍有非常大的进步空间(30分的差距)。
另外,通过分析各个模型在具体任务上的表现,我们观察到了一些值得注意的地方 :
支持上下文的长度。在长程对话任务上,Claude2超过了GPT4,这可能是由于Claude2支持100K上下文远大于GPT4的8K,所以扩展上下文窗口或许是国内模型在Agent能力上突破的方向之一。
使用工具的广度和深度。在考验模型对各种开源API的使用时,很多模型并未按要求写出最好的完成方法。例如在执行一些python任务时,调用方法有误或未意识到去调用高效的库和软件包。
任务规划的指令理解和拆解能力。我们会考察一些资源规划(时间、花费上的计算分配)的任务,某些模型未遵循指令,或意识到了资源的分配计算,但是在计算时往往出错,同时未能通过【自我反思】进行纠正。


SuperCLUE-Agent榜单会定期进行更新,会纳入更多可用中文大模型。欢迎对大模型评测感兴趣的个人和机构联系与交流。

   点击阅读原文,查看SuperCLUE基准详情

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存