中文大模型基准测评2024年4月报告

Original SuperCLUE CLUE中文语言理解测评基准 2024-06-17

SuperCLUE团队

2024/04

背景

自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年4月，全球大模型竞争态势并未衰减，随着Claude3、Gemini1.5和Llama3的发布，更是推动国内外大模型领域进入到更为激进的大模型发展新常态。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。

基于此，我们发布了《中文大模型基准测评2024年度4月报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。

点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2404

一、国内大模型关键进展1. 2024年大模型关键进展与全景图2. 国内外大模型发展趋势

二、测评体系1. 中文大模型基准SuperCLUE介绍2. 测评体系、方法说明

三、大模型通用能力测评及结果1. 测评层级2. 测评模型列表3. SuperCLUE模型象限4. 国内外大模型总体表现5. 评测与人类一致性验证1： SuperCLUE VS Chatbot Arena6. 评测与人类一致性验证2：自动化评价可靠性的人工评估7. 国内大模型竞争格局8. 国内大模型历月前三甲9. 大模型对战胜率分布图10. SuperCLUE成熟度指数11. 开源竞争格局四、通用四大维度分析及示例1.SuperCLUE十大能力得分2.测评及示例：计算3.测评及示例：长文本4.测评及示例：代码5.测评及示例：逻辑推理6.测评及示例：安全7.测评及示例：工具使用8.测评及示例：角色扮演9.测评及示例：生成创作10.测评及示例：语言理解五、SuperCLUE2.0专项与行业1. 专项基准：SuperCLUE-Math6数学推理2. 专项基准：SuperCLUE-RAG检索增强生成3. 专项基准：SuperCLUE-Code3代码生成4. 专项基准：SuperCLUE-Agent智能体5. 专项基准：SuperCLUE-Safety安全6. 专项基准：SuperCLUE-200K超长文本7. 专项基准：SuperCLUE-Role角色扮演8. 专项基准：SuperCLUE-Video文生视频9. 行业基准：SuperCLUE-Auto汽车11. 行业基准：SuperCLUE-Fin金融12. 行业基准：SuperCLUE-Industry工业13. 行业基准：SuperCLUE-ICabin智能座舱14. 未来两个月基准发布计划

六、优秀模型案例介绍

1. 优秀模型案例介绍

正文

一、国内大模型关键进展1. 2023年大模型关键进展与中文大模型全景图

国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。

截止目前为止，国内已发布开源、闭源通用大模型及行业大模型已有上百个，SuperCLUE梳理了2024年值得关注的大模型全景图。

二、测评体系、方法说明1. 中文大模型基准SuperCLUE介绍中文语言理解测评基准CLUE（The Chinese Language Understanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题，SuperCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。传统测评与SuperCLUE的区别

SuperCLUE三大特征1) 独立第三方测评，非大模型方主导在人工智能大模型开发的竞争日益激烈的今天，模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是，SuperCLUE作为一个完全独立的第三方评测机构，承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术，有效消除人为因素带来的不确定性，确保每一项评测都公正无私。通过这种方法，SuperCLUE帮助用户准确理解各种AI模型的真实性能，支持他们做出更明智的选择。

2) 测评方式与真实用户体验目标一致

不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目标保持一致，所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，真实模拟大模型的应用场景，真实有效的考察模型生成能力。

同时，SuperCLUE通过构建多轮对话场景，更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。

3) 不限于学术领域的测评，更为了服务产业界

不同于传统学术领域的评测，SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计，到行业大模型测评基准的推出，所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距，引导大模型提升技术落地效果，在通用能力的基础上更好的进行垂直领域的应用。

2. 测评体系及测评方法

为更真实反应大模型能力，本次测评采用多维度、多视角的综合性测评方案，由十大基础任务组成，题目为多轮开放式简答题。评测集共2194题，以下为评测集与测评方法简述。

评测流程：

我们采用高级AI模型（例如GPT-4 Turbo）来评估不同任务的表现，根据设定的评价标准进行打分（1-5分）。

以【逻辑推理】任务为例，设定的评价标准包括：符合基本要求、推理准确性、结论合理性。

假设在一个具体的题目中，模型A的得分如下：符合基本要求3分、推理准确性4分、结论合理性5分。首先，我们计算这一题目的平均得分：

因此，该题目的具体得分为4分。

最后，将所有题目的得分进行归一化处理，以确保满分为100分。这样，每个任务的得分都能清晰地反映模型在不同标准下的表现。

问题

模型答案（通义千问2.1）

超级模型（裁判）

更多示例请查看完整报告。关注公众号，后台回复“202404报告”，获取高清版完整PDF。

三、大模型通用能力测评及结果1. 测评层级本次测评，SuperCLUE构建了不同视角、不同范围的多层次评测基准，形成相对完善的评价大模型能力的测评框架，对大模型研发机构及应用开发者，为优化模型和场景应用提供了相对全面的视角。

2. 测评模型列表本次测评数据选取了SuperCLUE-4月测评结果，模型选取了国内外有代表性的32个大模型在4月份的版本。

3. SuperCLUE模型象限

SuperCLUE评测任务可划分为基础能力和应用能力两个维度。

基础能力，包含：专业与技能、语言与知识（不包括角色扮演）、传统安全；

应用能力，包括：工具使用、角色扮演。

基于此，SuperCLUE构建了大模型四个象限，它们代表大模型所处的不同阶段与定位，其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力；【技术领跑者】代表模型聚焦基础技术研究；【实用主义者】代表模型在场景应用上处于领先定位；【卓越领导者】代表模型在基础和场景应用上处于领先位置，引领国内大模型发展。

SuperCLUE模型象限

4. 国内外大模型总体表现

1）GPT-4 Turbo领跑，国内奋起直追

GPT-4-Turbo以 79.13 分的绝对优势领跑 SuperCLUE 基准测试，展现出强大的语言理解、生成和推理能力。国内大模型发展迅速，但与 GPT-4 仍存在差距，例如百度文心一言4.0、Baichuan3和GLM-4与GPT-4-Turbo均相差5分以上。国内企业需持续投入研发，缩小差距，提升模型性能。

2）国内梯队初现，头部企业引领发展

国内大模型市场形成多梯队格局，头部企业凭借快速迭代、技术积累或资源优势，引领国内大模型发展。例如大厂模型以文心一言4.0、通义千问2.1和腾讯混元分别以 72+的分数位居国内模型前列。大模型创业公司的代表如GLM-4、Baichuan3、Moonshot和Minimax均超过70分位于大模型第一梯队。随着技术进步和应用场景拓展，国内市场竞争将加剧，推动技术创新和产业升级。

3）开源力量崛起，生态日益繁荣

Llama3、Qwen1.5等开源大模型系列表现优异，例如 Llama-3-70B-Instruct获得 68.77分、qwen-1.5-72b-chat获68.07，接近第一梯队。开源模型的崛起推动技术开放与普及，丰富大模型生态，为各行各业带来更多应用可能性。5. 评测与人类一致性验证1：SuperCLUE VS Chatbot ArenaChatbot Arena是当前英文领域较为权威的大模型排行榜，由LMSYS Org开放组织构建，它以公众匿名投票的方式，对各种大型语言模型进行对抗评测。其中，斯皮尔曼相关系数：0.91，P值：5.50e-6 ；皮尔逊相关系数:0.87，P值：5.74e-5；说明SuperCLUE基准测评的成绩，与人类对模型的评估（以大众匿名投票的Chatbot Arena为典型代表），具有高度一致性。

6. 评测与人类一致性验证2：自动化评价可靠性的人工评估

为验证自动化评价的可靠性，SuperCLUE团队在进行正式测评之前，从2000+道题目中针对4个模型，每个模型随机抽取了100道题目进行人工复审。

审核内容及标准包括：

评价质量分为：优秀，良好，及格，不及格

完全不符合自己的判断：不及格（60以下）

基本符合自己的判断：及格（60或以上）或良好（75或以上）

特别符合自己的判断：评价的特别好：优秀（85或以上）最后统计可靠性指标，将基本符合、特别符合的结果认定为是可靠性较高的评价。
最终各模型可靠性指标结果如下：

通过4个模型的可靠性分析验证，我们发现可靠性数据分别为96.00%、93.14%、92.93%、93.14%，其中可靠性最低的模型3有92.93%，最高为模型1的96.00%。平均有93.80%的可靠性。

所以，经过验证，SuperCLUE自动化评价有较高的可靠性。

7. 国内大模型竞争格局通过SuperCLUE测评结果发现，国内大模型的第一梯队有了更多新的模型加入。Baichuan3在本次测评中表现不俗拔得头筹，头部模型如文心一言4.0、通义千问2.1、GLM-4继续引领国内大模型的研发进度，Hunyuan-pro-32K-0423（腾讯混元）首次进入国内大模型第一梯队表现出较强的竞争力。Moonshot(Kimi)、从容大模型V1.5、Mimimax-abab6.1表现同样可圈可点。

从国内TOP20大模型的数量来看，创业公司稍占优势，高于大厂的大模型数量10%。

从大厂和创业公司的平均成绩来看，大厂与创业公司差值约3.95分，较2月份差距在快速缩小。这说明进入2024年创业公司的大模型研发有了更强竞争力。

8. 国内大模型历月前三甲过去十个月国内模型在SuperCLUE基准上的前三名。

来源：SuperCLUE

1）前三甲竞争激烈

通过统计过去10个月国内模型在SuperCLUE基准上的前三名，可以发现，每个月前三甲的竞争非常激烈，共有13个大模型取得过前三名。出现频次最高的有文心一言（9次）、GLM系列（5次）、讯飞星火（3次）。

2）榜首模型更替频繁

曾经取得过SuperCLUE月榜首位的大模型有5个。分别是文心一言、BlueLM、SenseChat、Baichuan、360智脑。其中，百度的文心一言登顶SuperCLUE月榜的次数最多，分别在7月、11月、12月、24年2月取得了SuperCLUE最好成绩。

3）新发布高质量模型引起榜单的变化

我们可以看到，在国内大模型技术发展初期阶段，各家大模型公司都投入了巨大的人力、算力和数据资源，以至于每个月测评结果的前三甲都有不同程度的变化，经常会因为新发布的模型引起榜单的变化。预计今年同样会发生类似的情况。也非常期待有高质量模型能够持续保持非常高的水准。

9. 大模型对战胜率分布图

我们统计了所有大模型在测评中与GPT-4(官网)的对战胜率。模型在每道题上的得分与GPT-4(官网)相比计算差值，得到胜（差值大于0.5分）、平（差值在-0.5～+0.5分之间）、负（差值低于-0.5）。

1）整体胜率表现

从胜率来看，全球领跑者GPT-4-Turbo-0125胜率为26.87%，和率为61.04%，说明GPT-4-Turbo-0125在整体能力上明显优于GPT-4。而国内模型中，通义千问2.1的胜率为国内最高，为24.89%。胜率超过20%的模型还有Hunyuan-pro-32K-0423、Baichuan3、GLM-4、从容大模型V1.5、Moonshot(Kimi)等大模型。

2）开源模型胜率情况

在200亿参数量级的开源模型中qwen-1.5-14b-chat的胜率排在首位，展现出不俗能力。排在2至4位的是Baichuan2-13B-Chat-v2、XVERSE-13B-L、qwen-1.5-7b-chat，同样表现可圈可点。

3）在基础题目上与GPT4的差距不大

从胜率分布数据可以发现，70%的模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与GPT4的水平相近，随着任务难度的提升，不同模型的表现才会有区分度。后续的测评数据会在题目难度的区分性和评价颗粒度上加强提升。10. SuperCLUE成熟度指数

SuperCLUE成熟度指数用以衡量国内大模型在SuperCLUE-OPEN十大能力是否成熟。

来源：SuperCLUE, 2024年4月30日

1）语义理解成熟度最高

通过对比数据可以发现，语义理解成熟度最高，有0.82的表现。另外高成熟度的能力还有生成与创作、角色扮演、传统安全和知识百科，都有超过0.6的表现。

2）长文本与代码的成熟度最低

低成熟度的能力有长文本、代码、计算、逻辑推理。其中国内大模型在长文本与代码的表现成熟度最低，均只有0.05。

3）成熟度最低任务可以区分大模型的能力层次

SuperCLUE认为，长文本、代码、计算、逻辑推理在通用能力中最具挑战性，也最能体现通用大模型的能力层次，越好的大模型在低成熟度的能力上表现越好，这也是国内大模型今年需进一步迭代优化，追赶国外头部大模型的重要能力。11. 开源竞争格局总体上国内外开源模型表现相当，由于Meta的Llama3的发布，国外开源模型重新引领全球的开源技术进展。阿里云继续主导国内的开源进展，其qwen1.5系列开源模型在70B、13B、7B各参数量级中均表现优异。形成与Llama3旗鼓相当的竞争态势。

来源：SuperCLUE, 2024年4月30日国内创业公司的开源模型同样表现不俗，展现出极强的追赶态势。其中以智谱AI的GLM系列、百川智能Baichuan系列、元象科技的XVERSE系列为核心之一，均在不同程度上有超过Google的Gemma、Llama2系列开源模型。其中ChatGLM3-6B以60亿参数量级高于Llama2的130亿参数有10分左右。

13B-14B开源模型表现

在130亿～140亿参数量级的开源模型中，国内开源模型展现出很强的竞争力，其中qwen-1.5-14b-chat取得63.51分，是该参数量级下唯一超过60分的开源模型，XVERSE-13B-L和Baichuan2-13B-Chat同样表现不俗，均有超过50分的表现。

7B-8B开源模型表现

在70亿～80亿参数量级的开源模型中，Llama-3-8B领跑，qwen-1.5B-7B-Chat、ChatGLM3-6B紧随其后，同样有不错的表现。

四、通用测评维度详细分析及示例

通用测评维度详细十大能力分析，包括：

1.计算；

2.逻辑推理；

3.代码；

4.工具使用；

5.长文本；

6.知识与百科；

7.语言理解

8.角色扮演

9.生成与创作

10.传统安全

所有模型十大能力详细评测分数、国内外对比、开源/闭源分析及示例介绍请查看完整PDF报告。点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2404五、SuperCLUE2.0：行业及专项测评基准

1.各专项基准、行业基准及多模态基准详情请查看完整PDF报告。

2.未来两个月基准发布计划

未来2-3个月SuperCLUE会持续完善大模型专项能力及行业能力的测评基准。现针对于所有专项及行业测评基准征集大模型，欢迎申请。有意愿参与测评的厂商可发送邮件至contact@superclue.ai，标题：SuperCLUE专项/行业测评，请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式。

预告：SuperCLUE通用基准测评6月报告将在2024年6月27日发布，欢迎反馈意见、参与测评。

六、优秀模型案例介绍点击文章底部【阅读原文】查看高清完整PDF版。

欢迎加入【2024年4月报告】交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] 在线报告地址：www.cluebenchmarks.com/superclue_2404

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

中文大模型基准测评2024年4月报告

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

中文大模型基准测评2024年4月报告

您可能也对以下帖子感兴趣