中文大模型基准测评2024年4月报告
SuperCLUE团队
2024/04
背景
在线完整报告地址(可下载):
目录
正文
国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。
截止目前为止,国内已发布开源、闭源通用大模型及行业大模型已有上百个,SuperCLUE梳理了2024年值得关注的大模型全景图。
2) 测评方式与真实用户体验目标一致
不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。
3) 不限于学术领域的测评,更为了服务产业界
不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。
为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由十大基础任务组成,题目为多轮开放式简答题。评测集共2194题,以下为评测集与测评方法简述。
评测流程:
我们采用高级AI模型(例如GPT-4 Turbo)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。
以【逻辑推理】任务为例,设定的评价标准包括:符合基本要求、推理准确性、结论合理性。
假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、推理准确性4分、结论合理性5分。首先,我们计算这一题目的平均得分:
因此,该题目的具体得分为4分。
问题
更多示例请查看完整报告。关注公众号,后台回复“202404报告”,获取高清版完整PDF。
SuperCLUE评测任务可划分为基础能力和应用能力两个维度。
基础能力,包含:专业与技能、语言与知识(不包括角色扮演)、传统安全;
应用能力,包括:工具使用、角色扮演。
基于此,SuperCLUE构建了大模型四个象限,它们代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。
SuperCLUE模型象限
4. 国内外大模型总体表现
1)GPT-4 Turbo领跑,国内奋起直追
GPT-4-Turbo以 79.13 分的绝对优势领跑 SuperCLUE 基准测试,展现出强大的语言理解、生成和推理能力。国内大模型发展迅速,但与 GPT-4 仍存在差距,例如百度文心一言4.0、Baichuan3和GLM-4与GPT-4-Turbo均相差5分以上。国内企业需持续投入研发,缩小差距,提升模型性能。
2)国内梯队初现,头部企业引领发展
国内大模型市场形成多梯队格局,头部企业凭借快速迭代、技术积累或资源优势,引领国内大模型发展。例如大厂模型以文心一言4.0、通义千问2.1和腾讯混元分别以 72+的分数位居国内模型前列。大模型创业公司的代表如GLM-4、Baichuan3、Moonshot和Minimax均超过70分位于大模型第一梯队。随着技术进步和应用场景拓展,国内市场竞争将加剧,推动技术创新和产业升级。
3)开源力量崛起,生态日益繁荣
Llama3、Qwen1.5等开源大模型系列表现优异,例如 Llama-3-70B-Instruct获得 68.77分、qwen-1.5-72b-chat获68.07,接近第一梯队。开源模型的崛起推动技术开放与普及,丰富大模型生态,为各行各业带来更多应用可能性。5. 评测与人类一致性验证1:SuperCLUE VS Chatbot ArenaChatbot Arena是当前英文领域较为权威的大模型排行榜,由LMSYS Org开放组织构建, 它以公众匿名投票的方式,对各种大型语言模型进行对抗评测。其中,斯皮尔曼相关系数:0.91,P值:5.50e-6 ;皮尔逊相关系数:0.87,P值:5.74e-5;说明SuperCLUE基准测评的成绩,与人类对模型的评估(以大众匿名投票的Chatbot Arena为典型代表),具有高度一致性。为验证自动化评价的可靠性,SuperCLUE团队在进行正式测评之前,从2000+道题目中针对4个模型,每个模型随机抽取了100道题目进行人工复审。
审核内容及标准包括:
评价质量分为:优秀,良好 ,及格,不及格
完全不符合自己的判断:不及格(60以下)
基本符合自己的判断:及格(60或以上)或良好(75或以上)
特别符合自己的判断:评价的特别好:优秀(85或以上)最后统计可靠性指标,将基本符合、特别符合的结果认定为是可靠性较高的评价。最终各模型可靠性指标结果如下:
通过4个模型的可靠性分析验证,我们发现可靠性数据分别为96.00%、93.14%、92.93%、93.14%,其中可靠性最低的模型3有92.93%,最高为模型1的96.00%。平均有93.80%的可靠性。
所以,经过验证,SuperCLUE自动化评价有较高的可靠性。
来源:SuperCLUE
1)前三甲竞争激烈
通过统计过去10个月国内模型在SuperCLUE基准上的前三名,可以发现,每个月前三甲的竞争非常激烈,共有13个大模型取得过前三名。出现频次最高的有文心一言(9次)、GLM系列(5次)、讯飞星火(3次)。
2)榜首模型更替频繁
曾经取得过SuperCLUE月榜首位的大模型有5个。分别是文心一言、BlueLM、SenseChat、Baichuan、360智脑。其中,百度的文心一言登顶SuperCLUE月榜的次数最多,分别在7月、11月、12月、24年2月取得了SuperCLUE最好成绩。
3)新发布高质量模型引起榜单的变化
我们统计了所有大模型在测评中与GPT-4(官网)的对战胜率。模型在每道题上的得分与GPT-4(官网)相比计算差值,得到胜(差值大于0.5分)、平(差值在-0.5~+0.5分之间)、负(差值低于-0.5)。
1)整体胜率表现
从胜率来看,全球领跑者GPT-4-Turbo-0125胜率为26.87%,和率为61.04%,说明GPT-4-Turbo-0125在整体能力上明显优于GPT-4。而国内模型中,通义千问2.1的胜率为国内最高,为24.89%。胜率超过20%的模型还有Hunyuan-pro-32K-0423、Baichuan3、GLM-4、从容大模型V1.5、Moonshot(Kimi)等大模型。
2)开源模型胜率情况
在200亿参数量级的开源模型中qwen-1.5-14b-chat的胜率排在首位,展现出不俗能力。排在2至4位的是Baichuan2-13B-Chat-v2、XVERSE-13B-L、qwen-1.5-7b-chat,同样表现可圈可点。3)在基础题目上与GPT4的差距不大
从胜率分布数据可以发现,70%的模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与GPT4的水平相近,随着任务难度的提升,不同模型的表现才会有区分度。后续的测评数据会在题目难度的区分性和评价颗粒度上加强提升。10. SuperCLUE成熟度指数SuperCLUE成熟度指数用以衡量国内大模型在SuperCLUE-OPEN十大能力是否成熟。
1)语义理解成熟度最高
通过对比数据可以发现,语义理解成熟度最高,有0.82的表现。另外高成熟度的能力还有生成与创作、角色扮演、传统安全和知识百科,都有超过0.6的表现。2)长文本与代码的成熟度最低
低成熟度的能力有长文本、代码、计算、逻辑推理。其中国内大模型在长文本与代码的表现成熟度最低,均只有0.05。3)成熟度最低任务可以区分大模型的能力层次
SuperCLUE认为,长文本、代码、计算、逻辑推理在通用能力中最具挑战性,也最能体现通用大模型的能力层次,越好的大模型在低成熟度的能力上表现越好,这也是国内大模型今年需进一步迭代优化,追赶国外头部大模型的重要能力。11. 开源竞争格局总体上国内外开源模型表现相当,由于Meta的Llama3的发布,国外开源模型重新引领全球的开源技术进展。阿里云继续主导国内的开源进展,其qwen1.5系列开源模型在70B、13B、7B各参数量级中均表现优异。形成与Llama3旗鼓相当的竞争态势。13B-14B开源模型表现
在130亿~140亿参数量级的开源模型中,国内开源模型展现出很强的竞争力,其中qwen-1.5-14b-chat取得63.51分,是该参数量级下唯一超过60分的开源模型,XVERSE-13B-L和Baichuan2-13B-Chat同样表现不俗,均有超过50分的表现。
7B-8B开源模型表现
在70亿~80亿参数量级的开源模型中,Llama-3-8B领跑,qwen-1.5B-7B-Chat、ChatGLM3-6B紧随其后,同样有不错的表现。通用测评维度详细十大能力分析,包括:
1.计算;
2.逻辑推理;
3.代码;
4.工具使用;
5.长文本;
6.知识与百科;
7.语言理解
8.角色扮演
9.生成与创作
10.传统安全
所有模型十大能力详细评测分数、国内外对比、开源/闭源分析及示例介绍请查看完整PDF报告。点击文章底部【阅读原文】查看高清完整PDF版。在线完整报告地址(可下载):
www.cluebenchmarks.com/superclue_2404五、SuperCLUE2.0:行业及专项测评基准1.各专项基准、行业基准及多模态基准详情请查看完整PDF报告。
2.未来两个月基准发布计划
未来2-3个月SuperCLUE会持续完善大模型专项能力及行业能力的测评基准。现针对于所有专项及行业测评基准征集大模型,欢迎申请。有意愿参与测评的厂商可发送邮件至contact@superclue.ai,标题:SuperCLUE专项/行业测评,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。预告:SuperCLUE通用基准测评6月报告将在2024年6月27日发布,欢迎反馈意见、参与测评。
六、优秀模型案例介绍点击文章底部【阅读原文】查看高清完整PDF版。欢迎加入【2024年4月报告】交流群。
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
[4] 在线报告地址:www.cluebenchmarks.com/superclue_2404