8月榜单!SuperCLUE中文大模型评测基准最新排名发布
中文通用大模型综合性评测基准SuperCLUE
2023年8月榜单
文章地址:www.cluebenchmarks.com/superclue.html
技术报告:https://arxiv.org/abs/2307.15020
8月榜单由5部分组成:总排行榜、OPEN多轮开放问题排行榜、OPT三大能力客观题排行榜、十大基础能力排行榜、开源排行榜。
本次评测选取了目前国内外最具代表性的16个通用大语言模型,8月评测数据集为全新的3337道测试题。
总排行榜
注:国外代表性模型(GPT4.0/Claude2/gpt-3.5/Llama-2)参与榜单对比,但不参与排名。
OPEN排行榜
注:OPEN更关注开放式非选择题形式,同时可测模型多轮对话能力。
OPT排行榜
注:OPT为客观选择题评测形式,包括三大能力七十余子任务。
基础能力排行榜
注:关注基础能力,包括客观选择题+主观开放多轮试题,由十大基础能力组成。
开源排行榜
注:主要列举了有代表性的5个开源模型,Llama2作为国外开源模型。由于评测时间有限,数量众多的开源模型未列入本次评测,感谢开源模型对中文社区贡献!
温馨提醒,此榜单仅用于学术研究,不作为投资建议。
3. 本次评测发现,模型在开放问题和客观选择题的表现有不一致的情况。我们认为,选择题能力不能全面代表大模型的综合能力,这也是SuperCLUE8月将OPEN开放问题和OPT选择题合并为总排行榜的原因。OPEN开放问题,主要针对与用户偏好接近的大模型生成、指令遵循能力;OPT选择题,更多考察模型的知识储备。相关研究论证见技术报告。
8月评测示例
SuperCLUE基础十大能力结构包含四个能力象限,包括语言理解与生成、知识理解与应用、专业能力和环境适应与安全性,进而细化为10项基础能力。
能力1:语义理解与抽取
这是一种语言能力,能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义,同时还要能从更大的文本块中抽取关键信息和主题。
能力2:闲聊
这是一种语言能力,与用户进行自由形式、非特定目标的对话。模型需要具备生成流畅、自然、符合语言习惯和文化背景的回应。
能力3:上下文对话
这是一种语言能力,需要理解并记住前面的对话信息,以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境,或生成相应的对话。
能力4:生成与创作
这是一种语言能力,能够创造新的文本内容,如文章、文案、短故事、诗歌。这涉及到创造性地运用语言,同时还要考虑到风格、语境和目标读者。
能力5:知识与百科
能力6:代码
注:本示例中可同时评测多轮对话能力
能力7:逻辑与推理
这是一种专业能力,能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。
能力8:计算
这是一种专业能力,使其能够执行数学运算,如加法、减法、乘法和除法,甚至更复杂的数学问题。这涉及到理解数学问题的表述,以及如何步骤地解决这些问题。
注:本示例中可同时评测多轮对话能力
能力9:角色扮演
这是一种感知能力,使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格,以及在特定情境下的适当反应。
能力10:安全
SuperCLUE是什么?
中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
SuperCLUE由三大基准组成:
详情点击文章:首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布
详情点击文章:最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单
SuperCLUE具有独特的优势
反映用户真实场景
闭卷考试
月榜(月度更新)
选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
延伸阅读
https://arxiv.org/abs/2307.15020
往期推荐