查看原文
其他

7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE


中文通用大模型综合性评测基准SuperCLUE 

2023年7月榜单

7月25日,SuperCLUE发布大模型7月榜单。

SuperCLUE: A Benchmark for Foundation Models in Chinese

SuperCLUE-Opt评测榜单
SuperCLUE-Opt评测基准是SuperCLUE综合性三大基准之一,每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,用于考察大模型在70余个任务上的综合表现。
7月榜单由4部分组成:总排行榜、基础能力榜单、中文特性榜单、开源模型榜单。

2023年7月SuperCLUE-Opt中文大模型总排行榜:

注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE-Opt基础能力榜单:

注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE-Opt中文特性榜单:

注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE-Opt开源模型榜单:

SuperCLUE认为榜上有名的都是英雄。
温馨提醒,此榜单仅用于学术研究,不作为投资建议。
排行榜会定期更新,可访问:

https://www.cluebenchmarks.com

https://github.com/CLUEbenchmark/SuperCLUE


SuperCLUE7月评测变动

7月榜单有一些重要变动:

1. 增加了Claude-2、百川智能的Baichuan-13B-Chat、清华&智谱AI的ChatGLM2-6B、 上海人工智能实验室&商汤科技internlm-chat-7b(书生浦语)、Meta新开源的Llama-2-13B-Chat
具体模型来源及版本信息,请访问:

https://github.com/CLUEbenchmark/SuperCLUE

2. 7月评测数据集与5、6月评测数据集完全独立,数量级为3728道测试题。
3. 新增开源模型榜单,方便中文社区开发者对比使用,并突出称赞各模型研发机构对于开源事业的贡献。


SuperCLUE是什么?

SuperCLUE是中文通用大模型综合性评测基准,由三大基准组成,分别是:

一、SuperCLUE-Opt:客观题测试形式,三大能力+七十余子任务

详情点击文章:最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单

二、SuperCLUE-Open:主观题形式, 十大基础任务,可测开放域、多轮能力

详情点击文章:首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布

三、SuperCLUE-LYB琅琊榜:用户投票的匿名对战形式,也是本文发布的基准
详情点击文章:大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5
SuperCLUE具有独特的优势
  • 保密性高:
SuperCLUE数据集保密性高,减少模型训练数据混入评测数据的可能性
  • 月考制:
SuperCLUE按照月考的形式进行评测,基于国内大模型研发机构的模型训练进度,模型月考与模型研发节奏保持同步。
  • 自动测评:
通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。
  • 模型范围宽泛:
选取了多个国内外有代表性的可用的模型进行测评,以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。
  • 人类基准:

在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。

SuperCLUE不足与局限
  1. 选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。


  2. 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。


SuperCLUE基准计划按照月度进行更新,会纳入更多可用中文大模型,欢迎大模型研发机构联系与交流,可在下方申请评测。
SuperCLUE榜单大模型评测申请:https://wj.qq.com/s2/12305633/a73d/
模型内测需求收集(非公开):https://wj.qq.com/s2/12307825/2ae0/
Github地址:https://github.com/CLUEbenchmark/SuperCLUE
CLUE官网:https://www.cluebenchmarks.com


 (二维码失效可以在公众号后台回复SuperCLUE加入)
  

往期推荐



最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单

RWKV、IDEA姜子牙、西湖大模型上榜SuperCLUE基准

中文模型评测基准SuperCLUE更新,新增360智脑大模型

中文通用大模型评测基准SuperCLUE发布更新,新增Claude、清华GLM千亿模型

中文大模型对战平台「SuperCLUE-琅琊榜」开启,首期入围近20个模型

大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5

首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布

中国公司突破1200分超ChatGPT创历史新高,登顶AI琅琊榜!

百川开源大模型Baichuan-13B评测揭晓|SuperCLUE

Meta开源免费商用大模型Llama2-13B测评揭晓 | SuperCLUE


   点击阅读原文,查看SuperCLUE详情
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存