10月27日,清华&智谱AI推出了全自研的第三代基座大模型ChatGLM3及相关系列产品。 据悉,ChatGLM3 集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在规划和执行方面,相比于ChatGLM二代提升明显,并且支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。 那么,ChatGLM3在SuperCLUE-Agent评测集上的表现如何?与国内外代表性大模型相比处于什么位置?在各项智能体关键能力上如工具使用、任务规划等任务上的表现如何? CLUE团队基于SuperCLUE-Agent基准,对ChatGLM3进行全方位的智能体能力测评。
SuperCLUE-Agent 是聚焦于Agent能力的多维度基准测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力。
具体详情可查看:
https://github.com/CLUEbenchmark/SuperCLUE-Agent
参考标准:SuperCLUE-Agent中文智能体测评基准 评测模型 :ChatGLM-Turbo(v3)的API版本
评测集: SuperCLUE-Agent中文智能体测评基准,包括工具使用、任务规划和长短期记忆能力三大维度的十项基础任务。
模型GenerationConfig配置:
temperature:0.95
top_p:0.7
测评方法: 本次测评为自动化评测,具体评测方案可查阅SuperCLUE-Agent中文智能体测评基准 。 本次测评经过人工抽样校验。
结论1: 在SuperCLUE-Agent基准上,ChatGLM3在智能体能力上表现不俗,刷新了SuperCLUE-Agent国内模型最高分,暂列榜单首位。结论2: 相比ChatGLM二代模型,ChatGLM三代模型有67.95%的显著提升。 结论3: ChatGLM3在任务分解、检索API、通用工具使用、多文档对话、少样本示例学习等任务处于国内头部水平,在自我反思任务上有一定的优化空间。 以下是我们从定量和定性 两个角度对模型进行的测评分析。 在SuperCLUE-Agent测评中,ChatGLM3的表现如下: 在S uperCLUE-Agent测评基准上,ChatGLM3-Turbo刷新了国内模型最高分,并一举超过了gpt-3.5-turbo和Claude2-100K的分数 。 https://www.superclueai.com 在工具使 用、任务规划、长短期记忆的三个Agent维度上,ChatGLM3-Turbo均刷新了国内模型的最好成绩。 ChatGLM3在十大任务上较为均衡,尤其是在任务分解、调用API、检索API、规划API、通用工具使用、多文档问答等多个能力上有较大优势。 ChatGLM3与二代GLM模型相比,在所有的任务上均有明显的提升,其中,任务分解、多文档问答的能力提升最大。 小结 :
从评测结果我们发现,ChatGLM3在综合能力上表现优异,在总分上处于国内大模型第一梯队。并且在任务分解、检索API、通用工具使用、多文档对话、少样本示例学习等任务处于国内头部水平,在自我反思、思维链任务上有一定的优化空间。 通过一些典型示例,对比定性分析ChatGLM3的特点。 我们可以看到两者采用了不同的方法来处理这个问题。 根据任务描述,我们需要"监测和统计用户行为数据"。这说明我们需要监测的是已经发生的行为,而不是创建新的会话或记录新的事件。因此,ChatGLM3的答案更贴近任务需求。 两个模型都正确地规划了在这种情况下调用API的逻辑顺序。 然而,ChatGLM3在描述每个步骤时提供了更多的细节,包括API的调用示例,这有助于理解和实施。ChatGLM3还提醒用户在调用API时设置合适的请求头(如API密钥、认证信息等),并建议添加错误处理和异常处理机制,这些都是在实际操作中非常重要的注意事项。 在本示例中,ChatGLM3的回答提供了一个完整的游戏开发流程,覆盖了从市场调研到游戏上线的所有步骤,而且每个步骤都有明确的预算分配,所以我认为ChatGLM3的方案能够完成任务。而GPT3.5的回答虽然也提出了一个任务方案,但是它没有提供预算分配,所以它的方案不如ChatGLM3完整。 思维链
在本示例中,ChatGLM3在计算字母总数和阶乘计算时均出现了错误。GPT3.5 的答案则正确地计算了"banana"的字母总数为6,并且正确地应用了阶乘公式来计算所有可能的排列,最后正确地考虑了字母"a"和"n"的重复出现,得到最终正确的答案60种不同的排列。 自我反思 在本示例中,ChatGLM3和GPT3.5都没有识别出问题在步骤1中,应该搜索从纽约出发,达到洛杉矶,再从洛杉矶出发,到达东京的航班,而非从纽约出发,达到东京, 再从东京出发,到达洛杉矶的航班。 以下为GPT4的回答,非常精准的识别出步骤1中地点选错的问题,并做出了正确的修正。 长程对话
在本示例中ChatGLM3和GPT3.5都正确地回答了用户关于对话的第一个主题和第二个主题的问题。 小结 :
从定性分析的示例我们可以发现,ChatGLM3在几个关键基础能力上接近并优于gpt-3.5-turbo,尤其在任务分解、规划API上有很不错的表现。但在自我反思和思维链的能力上是ChatGLM后续需要提升的方向。 更多模型评测信息,请关注CLUE中文语言理解测评基准 公众号。 延伸阅读: 技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark,https://arxiv.org/abs/2307.15020 SuperCLUE排行榜: https://www.superclueai.com
CLUE官网地址: https://www.cluebenchmarks.com GitHub地址:https://github.com/CLUEbenchmark/SuperCLUE-Agent
长按扫码入群
获取更多评测信息
SuperCLUE交流群