国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

Original SuperCLUE CLUE中文语言理解测评基准

2024-12-08

测评团队｜SuperCLUE

近期，SuperCLUE发布了《中文大模型基准测评2024年10月报告》，重点评估了国内外43个大模型，在中文环境下的理科、文科和高难度Hard任务上的综合能力。本文将进一步分析开源模型在不同维度下的详细表现。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

SuperCLUE排行榜地址：

www.superclueai.com

#全球闭源模型TOP和开源模型对比

分析1：中文场景下，头部开源模型具备较强竞争力，接近头部闭源模型

10月SuperCLUE基准测评涵盖了21个代表性开源大模型。全球闭源模型Top5的平均线为10月测评中取得前5名（包括海外模型）的大模型的平均值。

通过测评结果可以发现，Qwen2.5-72B-Instruct在中文环境下领跑全球开源模型。Qwen2.5-72B-Instruct取得总分68.90分，和全球闭源模型Top5平均线相差2.34分，这表明国内开源模型的顶尖水平和全球闭源模型Top5的平均水平接近。

#海外开源和国内开源的对比

分析2：中文场景上国内开源模型表现优于国外开源模型

10月SuperCLUE基准测评涵盖了9个海外开源大模型和12个国内开源大模型。

由图可知，Qwen2.5-72B-Instruct和DeepSeek-V2.5，较Llama-3.1系列模型在中文能力上有一定领先性。TeleChat2-35B排名国内开源第3名，有超过Llama-3.1-70B-Instruct的表现。MiniCPM3-4B、Yi-1.5系列和GLM-4系列模型系列模型在开源中同样有不俗的表现。

#开源模型在三大维度上的表现情况和特性

分析3：中文高难度Hard任务上，开源大模型整体能力有待加强。

在中文高难度Hard任务（高阶推理和精确指令遵循）上，Qwen2.5-72B-Instruct、Llama-3.1-405B-Instruct和DeepSeek-V2.5得分均低于50分，和顶尖模型（o1-preview）相差近20分。

在Hard的二级维度中，Qwen系列模型的Qwen2.5-72B-Instruct在指令遵循上超过20分，其余最高10.42分；在高阶推理上，接近70分，其余均在20分以上。

在Hard的二级维度中，Llama系列模型的Llama-3.1-405B-Instruct在指令遵循上超过30分，高于Qwen系列，其余最高10；在高阶推理上，接近60分。Llama-3.1-70B-Instruct的表现优于Llama-3.1-90B-Instruct，和Llama-3.1-405B-Instruct在高阶推理上得分接近。

分析4：中文理科任务上，开源大模型实力强劲。

在中文理科任务上，开源模型表现强劲。代表模型Qwen2.5-72B-Instruct获得83.12分，表现突出。紧随其后的还有DeepSeek-V2.5和Llama-3.1-405B-Instruct。其余均分在60分左右。

分析5：文科任务上，开源大模型总体水平接近。

在文科任务上，国内外头部开源大模型均处于70-80分之间，总体上无明显差异。

报告完整详细内容，可点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

更多10月SuperCLUE基准报告详情，可加入交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] 报告地址：www.cluebenchmarks.com/superclue_2410

点击阅读原文，查看完整报告

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

您可能也对以下帖子感兴趣