解读｜SuperCLUE中文大模型评测方法及说明（10月）

Original SuperCLUE CLUE中文语言理解测评基准

2024-09-09

10月25日，CLUE社区发布了SuperCLUE中文大模型测评基准10月榜单。

本文会对10月SuperCLUE的评测报告进行全方位解读。

10月SuperCLUE的评测方法

10月SuperCLUE评测主要包括多轮开放问题测评（OPEN）和三大能力客观题测评（OPT）。共3754题，其中OPEN有606道多轮简答题，OPT有3148道选择题。

10月SuperCLUE总排行榜的总分由SuperCLUE-OPEN和OPT两部分合并组成，总分=60%*OPEN分+40%*OPT分。

OPEN多轮开放问题测评

OPEN主观题的测评聚焦在反应大模型用于真实用户场景的能力，特别是开放式问题的生成能力、指令遵循和多轮交互能力，包括四大能力上百个任务。

10月OPEN主观题由测试库（2.4万道题）中采取不重复抽样获得，并人工进行校验。

OPEN基准使用超级模型（如GPT4）作为评判官，使用一个待评估模型与一个基准模型（如gpt-3.5-turbo）进行对比，让超级模型选出哪个模型更好。

答案是A模型好，B模型好，或平局。评估的标准，是要求超级模型作为一个公证的评估者，评估模型的质量。回答的质量包括回答有针对性、准确和全面，并且可以对多轮能力进行评测。

示例

可以上下滚动的图片OPT三大能力客观题测评

OPT选择题的测评维度主要包括基础能力、学术与专业能力和中文特性三个维度，共计有74个评测任务。

10月OPT选择题是在SuperCLUE十万量级测试库中抽取，并移除了过去历月评测集，保证10月选择题是全新独立的。针对每一个题目，我们构造了统一的prompt供模型使用，要求模型选取ABCD中一个唯一的选项。

如果模型的回答不是标准的答案，而是一段文字，系统会采取特定的策略自动提取出模型的答案。该策略结合模型的表现进行优化和完善。当无法提取有效答案的时候，则表明模型没有按照人类做题的要求，未正确理解指令，则认为模型回答错误。

10月SuperCLUE的评测模型变动

10月新增模型：

1.Moonshot

月之暗面最新推出的支持输入20万汉字的大模型moonshot，本次测评的是搭载该模型的智能助手产品Kimi Chat，网页版本。

www.moonshot.cn

2.文心一言4.0

百度于10月17日在百度世界大会上发布文心一言4.0版本，本次测评的是ERNIE-Bot-4（API）。

3.讯飞星火V3.0

科大讯飞于10月24日发布的讯飞星火V3.0，本次测评的是星火V3.0的API。

4.Qwen-14B-Chat

阿里巴巴最新开源模型Qwen-14B-Chat，本次测评的是阿里巴巴灵积平台的qwen-14b-chat的API。

具体模型配置信息见Github的ModelCard。

https://github.com/CLUEbenchmark/SuperCLUE

10月评测结果解读

1.与GPT3的水平极为接近，与GPT4的差距仍然较大

在SuperCLUE10月测评结果中，国内第一梯队大模型的综合能力上已经较为接近GPT3.5的分数，最高分数仅差0.38分。在部分任务上也有超过GPT3.5的表现，如传统安全、逻辑与推理、知识百科、工具使用等，尤其在知识百科任务上国内模型相对于GPT3.5的优势较为明显。

但和GPT4对比发现，除在传统安全外，在各项任务上都有落后，尤其在计算、角色扮演、上下文对话、生成创作任务上差距尤为明显。

注：国内各任务最优成绩取自国内模型中各项任务的最高分

2.国内模型更擅长做选择题，GPT更均衡

国内大模型多数擅长做选择题，在三大能力客观题OPT分数上有11个国内模型已经超过GPT3.5，而GPT系列模型在OPEN多轮开放评测中表现较好，为此我们计算了OPT与OPEN的波动差值，代表模型在选择题和简答题上的不同表现。

注：波动差值=OPT分-OPEN分

可以看到国际上表现较好的三个模型在OPEN（简答题）上的表现都要好于OPT（选择题），但国内模型的差值要大很多，最高有38.38分数差值。

SuperCLUE认为，客观题相对主观题更容易通过题库形式进行训练和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一定的优势，所以应该综合来看模型的评测效果。

3.国内模型在语言类任务上，回答规范但需增加点睛之笔

国内大部分在语言类任务上（生成与创作、角色扮演、上下文对话），回答长度和格式普遍较好，而且基本上都能遵循指令。但较少出现高质量和有深度的内容，往往缺少创造力，如何出现点睛之笔是国产模型需要研究的方向之一。

我们看一个例子：

GPT的回答：

国内模型回答：

我们可以发现国内模型在表述“自研芯片”都没有很直接，而GPT创作的内容则可以容易让用户广泛理解。同时GPT3.5的“与星共舞”是一句非常惊艳的描述，富有创造力。

4.在逻辑与推理任务上，个别国内模型表现惊艳。

在逻辑与推理任务上，Moonshot和文心一言3.0表现惊艳，均超过了GPT3.5的成绩，而且Moonshot拿到了满分，是SuperCLUE历史上唯一在中文子任务上拿到满分的中文模型。所以SuperCLUE认为，长期来看在中文推理任务上中文模型的机会很大。

有任何关于SuperCLUE大模型评测相关的疑问和建议，可关注下方CLUE官方公众号与我们联系。

CLUE官方账号

进交流群可关注👇

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

解读｜SuperCLUE中文大模型评测方法及说明（10月）

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

生成图片，分享到微信朋友圈

解读｜SuperCLUE中文大模型评测方法及说明（10月）

您可能也对以下帖子感兴趣