查看原文
其他

中文大模型基准测评2024年4月报告

SuperCLUE CLUE中文语言理解测评基准 2024-06-17

SuperCLUE团队

2024/04


背景

自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年4月,全球大模型竞争态势并未衰减,随着Claude3、Gemini1.5和Llama3的发布,更是推动国内外大模型领域进入到更为激进的大模型发展新常态。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。
基于此,我们发布了《中文大模型基准测评2024年度4月报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。
点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2404

目录

一、国内大模型关键进展1. 2024年大模型关键进展与全景图2. 国内外大模型发展趋势
二、测评体系1. 中文大模型基准SuperCLUE介绍2. 测评体系、方法说明
三、大模型通用能力测评及结果1. 测评层级2. 测评模型列表3. SuperCLUE模型象限4. 国内外大模型总体表现5. 评测与人类一致性验证1:    SuperCLUE VS Chatbot Arena6. 评测与人类一致性验证2:    自动化评价可靠性的人工评估7. 国内大模型竞争格局8. 国内大模型历月前三甲9. 大模型对战胜率分布图10. SuperCLUE成熟度指数11. 开源竞争格局四、通用四大维度分析及示例1.SuperCLUE十大能力得分2.测评及示例:计算3.测评及示例:长文本4.测评及示例:代码5.测评及示例:逻辑推理6.测评及示例:安全7.测评及示例:工具使用8.测评及示例:角色扮演9.测评及示例:生成创作10.测评及示例:语言理解五、SuperCLUE2.0专项与行业1. 专项基准:SuperCLUE-Math6数学推理2. 专项基准:SuperCLUE-RAG检索增强生成3. 专项基准:SuperCLUE-Code3代码生成4. 专项基准:SuperCLUE-Agent智能体5. 专项基准:SuperCLUE-Safety安全6. 专项基准:SuperCLUE-200K超长文本7. 专项基准:SuperCLUE-Role角色扮演8. 专项基准:SuperCLUE-Video文生视频9. 行业基准:SuperCLUE-Auto汽车11. 行业基准:SuperCLUE-Fin金融12. 行业基准:SuperCLUE-Industry工业13. 行业基准:SuperCLUE-ICabin智能座舱14. 未来两个月基准发布计划
六、优秀模型案例介绍
1. 优秀模型案例介绍


正文      

   


一、国内大模型关键进展1. 2023年大模型关键进展与中文大模型全景图

国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。

截止目前为止,国内已发布开源、闭源通用大模型及行业大模型已有上百个,SuperCLUE梳理了2024年值得关注的大模型全景图。

二、测评体系、方法说明1. 中文大模型基准SuperCLUE介绍中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。传统测评与SuperCLUE的区别SuperCLUE三大特征1) 独立第三方测评,非大模型方主导在人工智能大模型开发的竞争日益激烈的今天,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术,有效消除人为因素带来的不确定性,确保每一项评测都公正无私。通过这种方法,SuperCLUE帮助用户准确理解各种AI模型的真实性能,支持他们做出更明智的选择。

2) 测评方式与真实用户体验目标一致

不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。

同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。


3) 不限于学术领域的测评,更为了服务产业界

不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。


2. 测评体系及测评方法

为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由十大基础任务组成,题目为多轮开放式简答题。评测集共2194题,以下为评测集与测评方法简述。

评测流程:

我们采用高级AI模型(例如GPT-4 Turbo)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。

以【逻辑推理】任务为例,设定的评价标准包括:符合基本要求、推理准确性、结论合理性。

假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、推理准确性4分、结论合理性5分。首先,我们计算这一题目的平均得分:

因此,该题目的具体得分为4分。


最后,将所有题目的得分进行归一化处理,以确保满分为100分。这样,每个任务的得分都能清晰地反映模型在不同标准下的表现。

问题

模型答案(通义千问2.1)

超级模型(裁判)

更多示例请查看完整报告。关注公众号,后台回复“202404报告”,获取高清版完整PDF。


三、大模型通用能力测评及结果1. 测评层级本次测评,SuperCLUE构建了不同视角、不同范围的多层次评测基准,形成相对完善的评价大模型能力的测评框架,对大模型研发机构及应用开发者,为优化模型和场景应用提供了相对全面的视角。2. 测评模型列表本次测评数据选取了SuperCLUE-4月测评结果,模型选取了国内外有代表性的32个大模型在4月份的版本。3. SuperCLUE模型象限

SuperCLUE评测任务可划分为基础能力和应用能力两个维度。

基础能力,包含:专业与技能、语言与知识(不包括角色扮演)、传统安全;

应用能力,包括:工具使用、角色扮演。

基于此,SuperCLUE构建了大模型四个象限,它们代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。

SuperCLUE模型象限

4. 国内外大模型总体表现

1)GPT-4 Turbo领跑,国内奋起直追

GPT-4-Turbo以 79.13 分的绝对优势领跑 SuperCLUE 基准测试,展现出强大的语言理解、生成和推理能力。国内大模型发展迅速,但与 GPT-4 仍存在差距,例如百度文心一言4.0、Baichuan3和GLM-4与GPT-4-Turbo均相差5分以上。国内企业需持续投入研发,缩小差距,提升模型性能。

2)国内梯队初现,头部企业引领发展

国内大模型市场形成多梯队格局,头部企业凭借快速迭代、技术积累或资源优势,引领国内大模型发展。例如大厂模型以文心一言4.0、通义千问2.1和腾讯混元分别以 72+的分数位居国内模型前列。大模型创业公司的代表如GLM-4、Baichuan3、Moonshot和Minimax均超过70分位于大模型第一梯队。随着技术进步和应用场景拓展,国内市场竞争将加剧,推动技术创新和产业升级。

3)开源力量崛起,生态日益繁荣

Llama3、Qwen1.5等开源大模型系列表现优异,例如 Llama-3-70B-Instruct获得 68.77分、qwen-1.5-72b-chat获68.07,接近第一梯队。开源模型的崛起推动技术开放与普及,丰富大模型生态,为各行各业带来更多应用可能性。5. 评测与人类一致性验证1:SuperCLUE VS Chatbot ArenaChatbot Arena是当前英文领域较为权威的大模型排行榜,由LMSYS Org开放组织构建, 它以公众匿名投票的方式,对各种大型语言模型进行对抗评测。其中,斯皮尔曼相关系数:0.91,P值:5.50e-6 ;皮尔逊相关系数:0.87,P值:5.74e-5;说明SuperCLUE基准测评的成绩,与人类对模型的评估(以大众匿名投票的Chatbot Arena为典型代表),具有高度一致性6. 评测与人类一致性验证2:自动化评价可靠性的人工评估

为验证自动化评价的可靠性,SuperCLUE团队在进行正式测评之前,从2000+道题目中针对4个模型,每个模型随机抽取了100道题目进行人工复审。

审核内容及标准包括:

评价质量分为:优秀,良好 ,及格,不及格

完全不符合自己的判断:不及格(60以下)

基本符合自己的判断:及格(60或以上)或良好(75或以上)

特别符合自己的判断:评价的特别好:优秀(85或以上)最后统计可靠性指标,将基本符合、特别符合的结果认定为是可靠性较高的评价。
最终各模型可靠性指标结果如下:

通过4个模型的可靠性分析验证,我们发现可靠性数据分别为96.00%、93.14%、92.93%、93.14%,其中可靠性最低的模型3有92.93%,最高为模型1的96.00%。平均有93.80%的可靠性。

所以,经过验证,SuperCLUE自动化评价有较高的可靠性


7. 国内大模型竞争格局通过SuperCLUE测评结果发现,国内大模型的第一梯队有了更多新的模型加入。Baichuan3在本次测评中表现不俗拔得头筹,头部模型如文心一言4.0、通义千问2.1、GLM-4继续引领国内大模型的研发进度,Hunyuan-pro-32K-0423(腾讯混元)首次进入国内大模型第一梯队表现出较强的竞争力。Moonshot(Kimi)、从容大模型V1.5、Mimimax-abab6.1表现同样可圈可点。


从国内TOP20大模型的数量来看,创业公司稍占优势,高于大厂的大模型数量10%。从大厂和创业公司的平均成绩来看,大厂与创业公司差值约3.95分,较2月份差距在快速缩小。这说明进入2024年创业公司的大模型研发有了更强竞争力。


8. 国内大模型历月前三甲过去十个月国内模型在SuperCLUE基准上的前三名。

来源:SuperCLUE

1)前三甲竞争激烈

通过统计过去10个月国内模型在SuperCLUE基准上的前三名,可以发现,每个月前三甲的竞争非常激烈,共有13个大模型取得过前三名。出现频次最高的有文心一言(9次)、GLM系列(5次)、讯飞星火(3次)。

2)榜首模型更替频繁

曾经取得过SuperCLUE月榜首位的大模型有5个。分别是文心一言、BlueLM、SenseChat、Baichuan、360智脑。其中,百度的文心一言登顶SuperCLUE月榜的次数最多,分别在7月、11月、12月、24年2月取得了SuperCLUE最好成绩。

3)新发布高质量模型引起榜单的变化

我们可以看到,在国内大模型技术发展初期阶段,各家大模型公司都投入了巨大的人力、算 力和数据资源,以至于每个月测评结果的前三 甲都有不同程度的变化,经常会因为新发布的模型引起榜单的变化。预计今年同样会发生类似的情况。也非常期待有高质量模型能够持续保持非常高的水准。
9. 大模型对战胜率分布图

我们统计了所有大模型在测评中与GPT-4(官网)的对战胜率。模型在每道题上的得分与GPT-4(官网)相比计算差值,得到胜(差值大于0.5分)、平(差值在-0.5~+0.5分之间)、负(差值低于-0.5)。

1)整体胜率表现

从胜率来看,全球领跑者GPT-4-Turbo-0125胜率为26.87%,和率为61.04%,说明GPT-4-Turbo-0125在整体能力上明显优于GPT-4。而国内模型中,通义千问2.1的胜率为国内最高,为24.89%。胜率超过20%的模型还有Hunyuan-pro-32K-0423、Baichuan3、GLM-4、从容大模型V1.5、Moonshot(Kimi)等大模型。

2)开源模型胜率情况

在200亿参数量级的开源模型中qwen-1.5-14b-chat的胜率排在首位,展现出不俗能力。排在2至4位的是Baichuan2-13B-Chat-v2、XVERSE-13B-L、qwen-1.5-7b-chat,同样表现可圈可点。

3)在基础题目上与GPT4的差距不大

从胜率分布数据可以发现,70%的模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与GPT4的水平相近,随着任务难度的提升,不同模型的表现才会有区分度。后续的测评数据会在题目难度的区分性和评价颗粒度上加强提升。10. SuperCLUE成熟度指数

SuperCLUE成熟度指数用以衡量国内大模型在SuperCLUE-OPEN十大能力是否成熟。

来源:SuperCLUE, 2024年4月30日

1)语义理解成熟度最高

通过对比数据可以发现,语义理解成熟度最高,有0.82的表现。另外高成熟度的能力还有生成与创作、角色扮演、传统安全和知识百科,都有超过0.6的表现。

2)长文本与代码的成熟度最低

低成熟度的能力有长文本、代码、计算、逻辑推理。其中国内大模型在长文本与代码的表现成熟度最低,均只有0.05。

3)成熟度最低任务可以区分大模型的能力层次

SuperCLUE认为,长文本、代码、计算、逻辑推理在通用能力中最具挑战性,也最能体现通用大模型的能力层次,越好的大模型在低成熟度的能力上表现越好,这也是国内大模型今年需进一步迭代优化,追赶国外头部大模型的重要能力。11. 开源竞争格局总体上国内外开源模型表现相当,由于Meta的Llama3的发布,国外开源模型重新引领全球的开源技术进展。阿里云继续主导国内的开源进展,其qwen1.5系列开源模型在70B、13B、7B各参数量级中均表现优异。形成与Llama3旗鼓相当的竞争态势。

来源:SuperCLUE, 2024年4月30日国内创业公司的开源模型同样表现不俗,展现出极强的追赶态势。其中以智谱AI的GLM系列、百川智能Baichuan系列、元象科技的XVERSE系列为核心之一,均在不同程度上有超过Google的Gemma、Llama2系列开源模型。其中ChatGLM3-6B以60亿参数量级高于Llama2的130亿参数有10分左右。

13B-14B开源模型表现

在130亿~140亿参数量级的开源模型中,国内开源模型展现出很强的竞争力,其中qwen-1.5-14b-chat取得63.51分,是该参数量级下唯一超过60分的开源模型,XVERSE-13B-L和Baichuan2-13B-Chat同样表现不俗,均有超过50分的表现。


7B-8B开源模型表现

在70亿~80亿参数量级的开源模型中,Llama-3-8B领跑,qwen-1.5B-7B-Chat、ChatGLM3-6B紧随其后,同样有不错的表现。

四、通用测评维度详细分析及示例

通用测评维度详细十大能力分析,包括:

1.计算;

2.逻辑推理;

3.代码;

4.工具使用;

5.长文本;

6.知识与百科;

7.语言理解

8.角色扮演

9.生成与创作

10.传统安全

所有模型十大能力详细评测分数、国内外对比、开源/闭源分析及示例介绍请查看完整PDF报告。点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2404五、SuperCLUE2.0:行业及专项测评基准

1.各专项基准、行业基准及多模态基准详情请查看完整PDF报告。

2.未来两个月基准发布计划

未来2-3个月SuperCLUE会持续完善大模型专项能力及行业能力的测评基准。现针对于所有专项及行业测评基准征集大模型,欢迎申请。有意愿参与测评的厂商可发送邮件至contact@superclue.ai,标题:SuperCLUE专项/行业测评,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

预告:SuperCLUE通用基准测评6月报告将在2024年6月27日发布,欢迎反馈意见、参与测评。

六、优秀模型案例介绍点击文章底部【阅读原文】查看高清完整PDF版。

欢迎加入【2024年4月报告】交流群。

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

[4] 在线报告地址:www.cluebenchmarks.com/superclue_2404

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存