查看原文
其他

SOTA!ChatGLM3刷新智能体中文基准SuperCLUE-Agent最好成绩

SuperCLUE CLUE中文语言理解测评基准 2024-05-17

本测评结果仅用于学术研究。

10月27日,清华&智谱AI推出了全自研的第三代基座大模型ChatGLM3及相关系列产品。
据悉,ChatGLM3 集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在规划和执行方面,相比于ChatGLM二代提升明显,并且支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。
那么,ChatGLM3在SuperCLUE-Agent评测集上的表现如何?与国内外代表性大模型相比处于什么位置?在各项智能体关键能力上如工具使用、任务规划等任务上的表现如何?

CLUE团队基于SuperCLUE-Agent基准,对ChatGLM3进行全方位的智能体能力测评。

SuperCLUE-Agent是聚焦于Agent能力的多维度基准测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力。

具体详情可查看:

https://github.com/CLUEbenchmark/SuperCLUE-Agent

测评环境

参考标准:SuperCLUE-Agent中文智能体测评基准

评测模型:ChatGLM-Turbo(v3)的API版本


评测集:SuperCLUE-Agent中文智能体测评基准,包括工具使用、任务规划和长短期记忆能力三大维度的十项基础任务。


模型GenerationConfig配置:

  • temperature:0.95

  • top_p:0.7


测评方法:

本次测评为自动化评测,具体评测方案可查阅SuperCLUE-Agent中文智能体测评基准本次测评经过人工抽样校验。

先说结论
结论1:在SuperCLUE-Agent基准上,ChatGLM3在智能体能力上表现不俗,刷新了SuperCLUE-Agent国内模型最高分,暂列榜单首位。
结论2:相比ChatGLM二代模型,ChatGLM三代模型有67.95%的显著提升。
结论3:ChatGLM3在任务分解、检索API、通用工具使用、多文档对话、少样本示例学习等任务处于国内头部水平,在自我反思任务上有一定的优化空间。
以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析
1  定量分析
在SuperCLUE-Agent测评中,ChatGLM3的表现如下:
SuperCLUE-Agent评测
在SuperCLUE-Agent测评基准上,ChatGLM3-Turbo刷新了国内模型最高分,并一举超过了gpt-3.5-turbo和Claude2-100K的分数
详情查看SuperCLUE排行榜:
https://www.superclueai.com
在工具使用、任务规划、长短期记忆的三个Agent维度上,ChatGLM3-Turbo均刷新了国内模型的最好成绩。
ChatGLM3在Agent十大基础能力上的表现
ChatGLM3在十大任务上较为均衡,尤其是在任务分解、调用API、检索API、规划API、通用工具使用、多文档问答等多个能力上有较大优势。
ChatGLM3与二代GLM模型相比,在所有的任务上均有明显的提升,其中,任务分解、多文档问答的能力提升最大。

小结


从评测结果我们发现,ChatGLM3在综合能力上表现优异,在总分上处于国内大模型第一梯队。并且在任务分解、检索API、通用工具使用、多文档对话、少样本示例学习等任务处于国内头部水平,在自我反思、思维链任务上有一定的优化空间。
2  定性分析
通过一些典型示例,对比定性分析ChatGLM3的特点。
检索API
我们可以看到两者采用了不同的方法来处理这个问题。根据任务描述,我们需要"监测和统计用户行为数据"。这说明我们需要监测的是已经发生的行为,而不是创建新的会话或记录新的事件。因此,ChatGLM3的答案更贴近任务需求。
规划API
两个模型都正确地规划了在这种情况下调用API的逻辑顺序。然而,ChatGLM3在描述每个步骤时提供了更多的细节,包括API的调用示例,这有助于理解和实施。ChatGLM3还提醒用户在调用API时设置合适的请求头(如API密钥、认证信息等),并建议添加错误处理和异常处理机制,这些都是在实际操作中非常重要的注意事项。
任务分解
在本示例中,ChatGLM3的回答提供了一个完整的游戏开发流程,覆盖了从市场调研到游戏上线的所有步骤,而且每个步骤都有明确的预算分配,所以我认为ChatGLM3的方案能够完成任务。而GPT3.5的回答虽然也提出了一个任务方案,但是它没有提供预算分配,所以它的方案不如ChatGLM3完整。思维链

在本示例中,ChatGLM3在计算字母总数和阶乘计算时均出现了错误。GPT3.5的答案则正确地计算了"banana"的字母总数为6,并且正确地应用了阶乘公式来计算所有可能的排列,最后正确地考虑了字母"a"和"n"的重复出现,得到最终正确的答案60种不同的排列。
自我反思在本示例中,ChatGLM3和GPT3.5都没有识别出问题在步骤1中,应该搜索从纽约出发,达到洛杉矶,再从洛杉矶出发,到达东京的航班,而非从纽约出发,达到东京,再从东京出发,到达洛杉矶的航班。以下为GPT4的回答,非常精准的识别出步骤1中地点选错的问题,并做出了正确的修正。长程对话

在本示例中ChatGLM3和GPT3.5都正确地回答了用户关于对话的第一个主题和第二个主题的问题。

小结


从定性分析的示例我们可以发现,ChatGLM3在几个关键基础能力上接近并优于gpt-3.5-turbo,尤其在任务分解、规划API上有很不错的表现。但在自我反思和思维链的能力上是ChatGLM后续需要提升的方向。

更多模型评测信息,请关注CLUE中文语言理解测评基准公众号。
延伸阅读:技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark,https://arxiv.org/abs/2307.15020

SuperCLUE排行榜:https://www.superclueai.com

CLUE官网地址:https://www.cluebenchmarks.com

GitHub地址:https://github.com/CLUEbenchmark/SuperCLUE-Agent

长按扫码入群

获取更多评测信息

SuperCLUE交流群

   点击阅读原文,查看SuperCLUE排行榜
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存