中文通用大模型综合性评测基准SuperCLUE
2023年7月榜单
7月25日,SuperCLUE发布大模型7月榜单。SuperCLUE: A Benchmark for Foundation Models in Chinese
SuperCLUE-Opt评测基准是SuperCLUE综合性三大基准之一,每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,用于考察大模型在70余个任务上的综合表现。7月榜单由4部分组成:总排行榜、基础能力榜单、中文特性榜单、开源模型榜单。2023年7月SuperCLUE-Opt中文大模型总排行榜:
注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名
2023年7月SuperCLUE-Opt基础能力榜单:
注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名
2023年7月SuperCLUE-Opt中文特性榜单:注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名
2023年7月SuperCLUE-Opt开源模型榜单:
排行榜会定期更新,可访问:
https://www.cluebenchmarks.com
https://github.com/CLUEbenchmark/SuperCLUE
SuperCLUE7月评测变动
7月榜单有一些重要变动:
1. 增加了Claude-2、百川智能的Baichuan-13B-Chat、清华&智谱AI的ChatGLM2-6B、 上海人工智能实验室&商汤科技的internlm-chat-7b(书生浦语)、Meta新开源的Llama-2-13B-Chathttps://github.com/CLUEbenchmark/SuperCLUE
2. 7月评测数据集与5、6月评测数据集完全独立,数量级为3728道测试题。3. 新增开源模型榜单,方便中文社区开发者对比使用,并突出称赞各模型研发机构对于开源事业的贡献。
SuperCLUE是什么?
SuperCLUE是中文通用大模型综合性评测基准,由三大基准组成,分别是:
一、SuperCLUE-Opt:客观题测试形式,三大能力+七十余子任务详情点击文章:最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单
二、SuperCLUE-Open:主观题形式, 十大基础任务,可测开放域、多轮能力详情点击文章:首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布
三、SuperCLUE-LYB琅琊榜:用户投票的匿名对战形式,也是本文发布的基准SuperCLUE数据集保密性高,减少模型训练数据混入评测数据的可能性。SuperCLUE按照月考的形式进行评测,基于国内大模型研发机构的模型训练进度,模型月考与模型研发节奏保持同步。通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。选取了多个国内外有代表性的可用的模型进行测评,以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。
选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
SuperCLUE基准计划按照月度进行更新,会纳入更多可用中文大模型,欢迎大模型研发机构联系与交流,可在下方申请评测。SuperCLUE榜单大模型评测申请:https://wj.qq.com/s2/12305633/a73d/模型内测需求收集(非公开):https://wj.qq.com/s2/12307825/2ae0/Github地址:https://github.com/CLUEbenchmark/SuperCLUECLUE官网:https://www.cluebenchmarks.com
(二维码失效可以在公众号后台回复SuperCLUE加入)