SOTA！ChatGLM3刷新智能体中文基准SuperCLUE-Agent最好成绩

Original SuperCLUE CLUE中文语言理解测评基准 2024-05-17

本测评结果仅用于学术研究。

10月27日，清华&智谱AI推出了全自研的第三代基座大模型ChatGLM3及相关系列产品。

据悉，ChatGLM3 集成了自研的 AgentTuning 技术，激活了模型智能体能力，尤其在规划和执行方面，相比于ChatGLM二代提升明显，并且支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。

那么，ChatGLM3在SuperCLUE-Agent评测集上的表现如何？与国内外代表性大模型相比处于什么位置？在各项智能体关键能力上如工具使用、任务规划等任务上的表现如何？

CLUE团队基于SuperCLUE-Agent基准，对ChatGLM3进行全方位的智能体能力测评。

SuperCLUE-Agent是聚焦于Agent能力的多维度基准测试，包括3大核心能力、10大基础任务，可以用于评估大语言模型在核心Agent能力上的表现，包括工具使用、任务规划和长短期记忆能力。

具体详情可查看：

https://github.com/CLUEbenchmark/SuperCLUE-Agent

测评环境

参考标准：SuperCLUE-Agent中文智能体测评基准

评测模型：ChatGLM-Turbo（v3）的API版本

评测集：SuperCLUE-Agent中文智能体测评基准，包括工具使用、任务规划和长短期记忆能力三大维度的十项基础任务。

模型GenerationConfig配置：

temperature：0.95
top_p：0.7

测评方法：

本次测评为自动化评测，具体评测方案可查阅SuperCLUE-Agent中文智能体测评基准。本次测评经过人工抽样校验。

先说结论

结论1：在SuperCLUE-Agent基准上，ChatGLM3在智能体能力上表现不俗，刷新了SuperCLUE-Agent国内模型最高分，暂列榜单首位。

结论2：相比ChatGLM二代模型，ChatGLM三代模型有67.95%的显著提升。

结论3：ChatGLM3在任务分解、检索API、通用工具使用、多文档对话、少样本示例学习等任务处于国内头部水平，在自我反思任务上有一定的优化空间。

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析

1 定量分析

在SuperCLUE-Agent测评中，ChatGLM3的表现如下：

SuperCLUE-Agent评测

在SuperCLUE-Agent测评基准上，ChatGLM3-Turbo刷新了国内模型最高分，并一举超过了gpt-3.5-turbo和Claude2-100K的分数。

详情查看SuperCLUE排行榜：

https://www.superclueai.com

在工具使用、任务规划、长短期记忆的三个Agent维度上，ChatGLM3-Turbo均刷新了国内模型的最好成绩。

ChatGLM3在Agent十大基础能力上的表现

ChatGLM3在十大任务上较为均衡，尤其是在任务分解、调用API、检索API、规划API、通用工具使用、多文档问答等多个能力上有较大优势。

ChatGLM3与二代GLM模型相比，在所有的任务上均有明显的提升，其中，任务分解、多文档问答的能力提升最大。

小结：

从评测结果我们发现，ChatGLM3在综合能力上表现优异，在总分上处于国内大模型第一梯队。并且在任务分解、检索API、通用工具使用、多文档对话、少样本示例学习等任务处于国内头部水平，在自我反思、思维链任务上有一定的优化空间。

2 定性分析

通过一些典型示例，对比定性分析ChatGLM3的特点。

检索API

我们可以看到两者采用了不同的方法来处理这个问题。根据任务描述，我们需要"监测和统计用户行为数据"。这说明我们需要监测的是已经发生的行为，而不是创建新的会话或记录新的事件。因此，ChatGLM3的答案更贴近任务需求。

规划API

两个模型都正确地规划了在这种情况下调用API的逻辑顺序。然而，ChatGLM3在描述每个步骤时提供了更多的细节，包括API的调用示例，这有助于理解和实施。ChatGLM3还提醒用户在调用API时设置合适的请求头（如API密钥、认证信息等），并建议添加错误处理和异常处理机制，这些都是在实际操作中非常重要的注意事项。

任务分解

在本示例中，ChatGLM3的回答提供了一个完整的游戏开发流程，覆盖了从市场调研到游戏上线的所有步骤，而且每个步骤都有明确的预算分配，所以我认为ChatGLM3的方案能够完成任务。而GPT3.5的回答虽然也提出了一个任务方案，但是它没有提供预算分配，所以它的方案不如ChatGLM3完整。思维链

在本示例中，ChatGLM3在计算字母总数和阶乘计算时均出现了错误。GPT3.5的答案则正确地计算了"banana"的字母总数为6，并且正确地应用了阶乘公式来计算所有可能的排列，最后正确地考虑了字母"a"和"n"的重复出现，得到最终正确的答案60种不同的排列。

自我反思

在本示例中，ChatGLM3和GPT3.5都没有识别出问题在步骤1中，应该搜索从纽约出发，达到洛杉矶，再从洛杉矶出发，到达东京的航班，而非从纽约出发，达到东京，再从东京出发，到达洛杉矶的航班。以下为GPT4的回答，非常精准的识别出步骤1中地点选错的问题，并做出了正确的修正。

长程对话

在本示例中ChatGLM3和GPT3.5都正确地回答了用户关于对话的第一个主题和第二个主题的问题。

小结：

从定性分析的示例我们可以发现，ChatGLM3在几个关键基础能力上接近并优于gpt-3.5-turbo，尤其在任务分解、规划API上有很不错的表现。但在自我反思和思维链的能力上是ChatGLM后续需要提升的方向。

更多模型评测信息，请关注CLUE中文语言理解测评基准公众号。

延伸阅读：技术报告：SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark，https://arxiv.org/abs/2307.15020

SuperCLUE排行榜：https://www.superclueai.com

CLUE官网地址：https://www.cluebenchmarks.com

GitHub地址：https://github.com/CLUEbenchmark/SuperCLUE-Agent

长按扫码入群

获取更多评测信息

SuperCLUE交流群

点击阅读原文，查看SuperCLUE排行榜

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

SOTA！ChatGLM3刷新智能体中文基准SuperCLUE-Agent最好成绩

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

生成图片，分享到微信朋友圈

SOTA！ChatGLM3刷新智能体中文基准SuperCLUE-Agent最好成绩

您可能也对以下帖子感兴趣