查看原文
其他

国内开源模型领先国外,接近全球一线闭源模型水平 | SuperCLUE

SuperCLUE CLUE中文语言理解测评基准
2024-12-08

测评团队|SuperCLUE
近期,SuperCLUE发布了《中文大模型基准测评2024年10月报告》,重点评估了国内外43个大模型,在中文环境下的理科、文科和高难度Hard任务上的综合能力。本文将进一步分析开源模型在不同维度下的详细表现。
在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2410

SuperCLUE排行榜地址:

www.superclueai.com

#全球闭源模型TOP和开源模型对比

分析1:中文场景下,头部开源模型具备较强竞争力,接近头部闭源模型
10月SuperCLUE基准测评涵盖了21个代表性开源大模型。全球闭源模型Top5的平均线为10月测评中取得前5名(包括海外模型)的大模型的平均值。

通过测评结果可以发现,Qwen2.5-72B-Instruct在中文环境下领跑全球开源模型。Qwen2.5-72B-Instruct取得总分68.90分,和全球闭源模型Top5平均线相差2.34分,这表明国内开源模型的顶尖水平和全球闭源模型Top5的平均水平接近。

#海外开源和国内开源的对比

分析2:中文场景上国内开源模型表现优于国外开源模型

10月SuperCLUE基准测评涵盖了9个海外开源大模型和12个国内开源大模型。

由图可知,Qwen2.5-72B-Instruct和DeepSeek-V2.5,较Llama-3.1系列模型在中文能力上有一定领先性。TeleChat2-35B排名国内开源第3名,有超过Llama-3.1-70B-Instruct的表现。MiniCPM3-4B、Yi-1.5系列和GLM-4系列模型系列模型在开源中同样有不俗的表现。

#开源模型在三大维度上的表现情况和特性
分析3:中文高难度Hard任务上,开源大模型整体能力有待加强。

在中文高难度Hard任务(高阶推理和精确指令遵循)上,Qwen2.5-72B-Instruct、Llama-3.1-405B-Instruct和DeepSeek-V2.5得分均低于50分,和顶尖模型(o1-preview)相差近20分。
在Hard的二级维度中,Qwen系列模型的Qwen2.5-72B-Instruct在指令遵循上超过20分,其余最高10.42分;在高阶推理上,接近70分,其余均在20分以上。
在Hard的二级维度中,Llama系列模型的Llama-3.1-405B-Instruct在指令遵循上超过30分,高于Qwen系列,其余最高10;在高阶推理上,接近60分。Llama-3.1-70B-Instruct的表现优于Llama-3.1-90B-Instruct,和Llama-3.1-405B-Instruct在高阶推理上得分接近。
分析4:中文理科任务上,开源大模型实力强劲。

在中文理科任务上,开源模型表现强劲。代表模型Qwen2.5-72B-Instruct获得83.12分,表现突出。紧随其后的还有DeepSeek-V2.5和Llama-3.1-405B-Instruct。其余均分在60分左右。

分析5:文科任务上,开源大模型总体水平接近。

在文科任务,国内外头部开源大模型均处于70-80分之间,总体上无明显差异。

报告完整详细内容,可点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2410

更多10月SuperCLUE基准报告详情,可加入交流群。

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

[4] 报告地址:www.cluebenchmarks.com/superclue_2410


   点击阅读原文,查看完整报告

继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存