中文大模型基准测评2024年10月报告

Original SuperCLUE CLUE中文语言理解测评基准

2024-12-08

SuperCLUE团队

2024/11

背景

自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年，全球大模型竞争态势日益加剧，随着Sora、GPT-4o、o1的发布，国内大模型在2024年进行了波澜壮阔的大模型追逐赛。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。

基于此，我们发布了《中文大模型基准测评2024年10月报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。

点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

SuperCLUE排行榜地址：

www.superclueai.com

报告核心内容摘要

摘要1：OpenAI发布o1后，全球大模型竞争加剧

o1-preview的推出进一步拉大了与其他模型的差距。经测评，目前国内大模型正在持续接近Claude 3.5 Sonnet和ChatGPT-4o-latest的能力，但与o1-preview在中文难任务（Hard任务）上相差约为14%，在中文通用能力上相差约8%。

摘要2：国内大模型第一梯队竞争激烈，持续迭代表现不俗

国内开源模型Qwen2.5-72B-Instruct、DeepSeek V2.5领跑全球开源模型，最新发布的TeleChat2-35B同样表现出色，超过了国内外众多开源模型；国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异，与ChatGPT-4o-latest相距2分以内。

摘要3：国内外大模型在不同任务上表现各有优势

国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越，有较大领先性，国内大模型则更擅长理科和文科任务。

摘要4：端侧小模型表现惊艳

端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，如Qwen2.5-1.5B-Instruct、MiniCPM3-4B，均展现出很高的性价比和落地可行性。

一、国内大模型关键进展1. 2023-2024年大模型关键进展2. 2024年值得关注的中文大模型全景图

3. 2023-2024年度国内外大模型技术发展趋势

二、SuperCLUE通用能力测评1. 中文大模型基准SuperCLUE介绍

2. SuperCLUE测评体系及数据集说明

3. 测评模型列表4. SuperCLUE通用能力测评：总分5. SuperCLUE模型象限6. SuperCLUE通用能力测评：一级维度分数7. SuperCLUE通用能力测评：二级细粒度分数8. SuperCLUE测评方法说明9. SuperCLUE开源榜单10. 10B级别小模型榜单

11. 端侧5B级别小模型榜单

12. 大模型对战胜率分布图13. SuperCLUE成熟度指数14. 评测与人类一致性验证三、SuperCLUE-AI产品能力测评

1.SuperCLUE-Coder代码助手产品测评

2.SuperCLUE-AISearch搜索产品测评

3.SuperCLUE-Voice实时语音产品测评

四、SuperCLUE多模态能力测评

1.SuperCLUE-V多模态理解测评

2.AIGVBench视频生成测评

3.SuperCLUE-Image文生图测评

五、SuperCLUE专项与行业测评1. 专项基准：SuperCLUE-CoT链式推理2. 专项基准：SuperCLUE-Math6o数学竞赛3. 专项基准：SuperCLUE-Math6数学推理4. 专项基准：SuperCLUE-RAG检索增强生成5. 专项基准：SuperCLUE-Code3代码生成6. 专项基准：SuperCLUE-Agent智能体7. 专项基准：SuperCLUE-Safety安全8. 专项基准：SuperCLUE-Long长文本9. 专项基准：SuperCLUE-200K超长文本10. 专项基准：SuperCLUE-Role角色扮演11. 行业基准：SuperCLUE-Auto汽车12. 行业基准：SuperCLUE-Fin金融13. 行业基准：SuperCLUE-Industry工业14. 行业基准：SuperCLUE-ICabin智能座舱15. 竞技场：琅琊榜对战结果及分析16. 未来两个月基准发布计划

五、优秀模型案例介绍

1. 优秀模型案例介绍

正文

一、国内大模型关键进展1. 2023年大模型关键进展与中文大模型全景图

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为四个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）、繁荣期（更多模态能力的延伸和应用）。

2. 2024年值得关注的中文大模型全景图

截止目前为止，国内已发布开源、闭源通用大模型及行业大模型已有上百个，SuperCLUE梳理了2024年值得关注的大模型全景图。

3. 2023-2024年度国内外大模型技术发展趋势

2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。国内模型也经历了波澜壮阔的18个月的迭代周期，其中Top1的模型经历了10次易主，不断提升国内模型的最强战力。

总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距在持续缩小，从2023年5月的30.12%的差距，缩小至2024年8月的1.29%。不过随着o1的发布，差距再次拉大到8.19%。

二、SuperCLUE通用能力测评

1. 中文大模型基准SuperCLUE介绍中文语言理解测评基准CLUE（The Chinese Language Understanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。SuperCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。传统测评与SuperCLUE的区别

SuperCLUE三大特征1) 独立第三方测评，非大模型方主导随着国内外大模型的竞争日益激烈，模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是，SuperCLUE作为一个完全独立的第三方评测机构，承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术，有效消除人为因素带来的不确定性，确保每一项评测都公正无私。

2) 测评方式与真实用户体验目标一致

不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目标保持一致，所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，模拟大模型的应用场景，真实有效的考察模型生成能力。

3) “Live”更新，测评体系/方法与时俱进

不同于传统学术领域的评测，SuperCLUE根据全球的大模型技术发展趋势，不断升级迭代测评体系、测评维度和方法，以保证尽可能精准量化大模型的技术演进程度。并且每次测评集均为原创的新题，且保证题目的高保密性。

2. SuperCLUE测评体系及数据集说明

本次10月报告聚焦通用能力测评，采用多维度、多层次的综合性测评方案，由理科、文科和Hard三大维度构成。题目均为原创新题，总量为2900道多轮简答题。

【理科任务】分为计算、逻辑推理、代码、工具使用测评集；

【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集；

【Hard任务】分为精确指令遵循测评集，复杂任务高阶推理测评集。

3. 测评模型列表本次测评数据选取了SuperCLUE-10月测评结果，模型选取了国内外有代表性的43个大模型在10月份的版本。

4.SuperCLUE通用能力测评：总分

5.SuperCLUE模型象限

基于大模型在基础能力和应用能力的表现，本次共有23个国内大模型入选SuperCLUE模型象限。

SuperCLUE评测任务可划分为基础能力和应用能力两个维度。基础能力，包含：计算、逻辑推理、精确指令遵循、传统安全、高阶推理、语言理解、长文本和知识百科；应用能力，包括：工具使用、角色扮演、代码、生成创作能力；

四个象限的含义。它们代表大模型所处的不同阶段与定位，其中【潜力探索者】代表模型正在探索阶段未来拥有较大潜力；【技术领跑者】代表模型在基础技术方面具备领先性；【实用主义者】代表模型在场景应用深度上具备领先性；【卓越领导者】代表模型在基础和场景应用上处于领先位置，引领国内大模型发展。

6.SuperCLUE通用能力测评：一级维度分数

1）Hard成绩

2）理科成绩

3）文科成绩

7.SuperCLUE通用能力测评：二级细粒度分数

8. SuperCLUE测评方法说明

1）理科（计算、逻辑推理、工具使用）测评方法

2）理科（代码）测评方法

3）文科测评方法

4）Hard（精确指令遵循）测评方法

5）Hard（高阶推理）测评方法

9. SuperCLUE开源榜单

a. 中文场景国内开源模型具备较强竞争力

Qwen2.5-72B-Instruct、DeepSeek-V2.5领跑全球开源模型，较Llama-3.1系列模型在中文能力上有一定领先性。TeleChat2-35B排名国内开源第3名，有超过Llama-3.1-70B-Instruct的表现。
MiniCPM3-4B、Yi-1.5系列和GLM-4系列模型系列模型在开源中同样有不俗的表现。
小参数量的模型发展迅速，如Qwen2.5-1.5B-Instruct和Qwen2.5-0.5B-Instruct表现好于部分7B模型。

b. 在高难度任务上，不同的开源模型区分度较大。

在Hard任务中，Qwen2.5-72B-Instruct领先幅度很大。DeepSeek-V2.5同样表现优异，其他开源模型均未超过40分。

10. 10B级别小模型榜单

a.10B级别模型中，Qwen2.5-7B-Instruct和Gemma-2-9b-it分列国内外榜首

在本次SuperCLUE测评中，Qwen2.5-7B-Instruct取得60.61分，取得10B以内模型的最高分，并且是国内10B以内唯一超过60分的模型。GLM-4-9B-chat取得56.83分排名第2。MiniCPM3-4B取得53.16分排名国内第3，是Top5中唯一5B以内的模型。Gemma-2-9b-it取得55.48分，领跑海外10B以内模型。

b.10B以内模型进展迅速，展现出极致的性价比

在10B以内模型中，超过50分的模型有6个，分别为Qwen2.5-7B-Instruct、GLM-4-9B-Chat、Gemma-2-9b-it、MiniCPM3-4B、Llama-3.1-8B-Instruct、Yi-1.5-9B-Chat-16K。其中国内4个模型，海外2个模型。展现出10B以内小参数量级模型的极致的性价比。

11. 端侧5B级别小模型榜单

国内端侧小模型进展迅速，相比国外小模型，国内小模型在中文场景下展现出更好的性能表现

MiniCPM3-4B表现惊艳，取得总分53.16分的优异成绩，在SuperCLUE端侧5B小模型榜单中排名榜首。其中理科63.04分、文科69.87分、Hard26.56分，与同等参数量级模型Phi-3-Mini-4K-Instruct相比各个维度均有不同幅度的领先，展示出小参数量级模型极高的性价比。
Qwen2.5系列小模型同样表现不俗，Qwen2.5-1.5B-Instruct取得总分43.92分，有超过Gemma-2-2b-it和Phi-3-Mini-4K-Instruct等更大参数量级模型的效果。Qwen2.5-0.5B-Instruct是本次上榜中参数量最小的模型，仅有5亿参数，依然能达到部分70亿参数模型的效果。

12. 大模型对战胜率分布图

我们统计了所有大模型在测评中与GPT4-Turbo-0409的对战胜率。模型在每道题上的得分与GPT4-Turbo-0409相比计算差值，得到胜（差值大于0.25分）、平（差值在-0.25～+0.25分之间）、负（差值低于-0.25）。

13. SuperCLUE成熟度指数

SuperCLUE成熟度指数用以衡量国内大模型在SuperCLUE能力上是否成熟。

1）高成熟度能力

高成熟度指大部分闭源大模型普遍擅长的能力，SC成熟度指数在0.9至1.0之间。
当前国内大模型成熟度较高的能力是【语言理解】、【知识与百科】和【生成与创作】，也是目前产业和用户侧大模型的重点应用场景。

2）中成熟度能力

中成熟度指的是不同大模型能力上有一定区分度，但不会特别大。SC成熟度指数在0.8至0.9之间。
当前国内大模型表现出中成熟度的能力是【工具使用】、【长文本】、【计算】、【角色扮演】、【传统安全】、【逻辑推理】和【高阶推理】，还有一定优化空间。

3）低成熟度能力

低成熟度指的是少量大模型较为擅长，很多模型无法胜任。SC成熟度指数在0.7至0.8之间。
当前国内大模型低成熟度的能力是【代码】。

4）极低成熟度能力

极低成熟度指的是大多数模型无法胜任。SC成熟度指数在0.7以下。
当前国内大模型极低成熟度的能力是【指令遵循】。

14. 评测与人类一致性验证1) SuperCLUE VS Chatbot Arena

Chatbot Arena是当前英文领域较为权威的大模型排行榜，由LMSYS Org开放组织构建，它以公众匿名投票的方式，对各种大型语言模型进行对抗评测。将SuperCLUE得分与ChatBot Arena得分进行相关性计算，得到皮尔逊相关系数：0.95，P值：3.60e-08；斯皮尔曼相关系数：0.87，P值：2.05e-05；说明SuperCLUE基准测评的成绩，与人类对模型的评估（以大众匿名投票的Chatbot Arena为典型代表），具有高度一致性。

2) 自动化评价可靠性的人工评估为验证自动化评价的可靠性，SuperCLUE团队在进行正式测评之前，从2900道题目中针对4个模型，每个模型随机抽取了137道题目进行人工复审。人类按照相同的评价标准，对每道题目进行评价。统计人类评分与模型评分在所有题目上的平均差距，最终计算得到可靠性。最终各模型可靠性指标结果如下：

注：最终可靠性=sum（人类评分-模型评分）/总题目量通过4个模型的可靠性分析验证，我们发现可靠性数据分别为99.82%、90.73%、92.37%、96.21%，其中可靠性最低有90.73%，最高为模型的99.82%。最终有96.67%的可靠性。所以，经过验证，SuperCLUE自动化评价有较高的可靠性。

报告完整详细内容，如AI产品测评、多模态测评、行业、专项测评、优秀案例介绍以及更详细测评数据分析，请查看完整PDF报告。点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

未来两个月基准发布计划

未来2-3个月SuperCLUE会持续完善大模型专项能力及行业能力的测评基准。现针对于所有专项及行业测评基准征集大模型，欢迎申请。有意愿参与测评的厂商可发送邮件至contact@superclue.ai，标题：SuperCLUE专项/行业测评，请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式。

预告：SuperCLUE通用基准测评2024年度报告将在2024年12月26日发布，欢迎反馈意见、参与测评。

欢迎加入【2024年10月报告】交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] 在线报告地址：www.cluebenchmarks.com/superclue_2410

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

中文大模型基准测评2024年10月报告

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

中文大模型基准测评2024年10月报告

您可能也对以下帖子感兴趣