9月榜单!SuperCLUE中文大模型评测基准最新排名发布,新增AI Agent榜
中文通用大模型综合性评测基准SuperCLUE
2023年9月榜单
榜单地址:www.superclueai.com
SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。
9月榜单由总排行榜和各个分类任务榜单组成。
本次评测选取了目前国内外最具代表性的20个通用大语言模型,9月评测数据集为全新的3458道测试题。
总排行榜
注:国外代表性模型(GPT4.0/Claude2/gpt-3.5/Llama-2)参与榜单对比,但不参与排名。
OPEN排行榜
注:OPEN更关注开放式非选择题形式,同时可测模型多轮对话能力。
OPT排行榜
注:OPT为客观选择题评测形式,包括三大能力七十余子任务。
基础能力排行榜
注:基础能力在多轮开放OPEN上的表现。
开源排行榜
注:主要列举了有代表性的7个开源模型。由于评测时间有限,数量众多的开源模型未列入本次评测,感谢开源模型对中文社区贡献!
温馨提醒,此榜单仅用于学术研究,不作为投资建议。
3)ChatGLM闭源模型由ChatGLM-130B升级为ChatGLM2-Pro。
https://github.com/CLUEbenchmark/SuperCLUE
本月评测任务新增AI智能体,重点评估AI Agent在【工具使用】和【任务规划】两个关键能力上的表现。
能力1:计算
这是一种专业能力,使其能够执行数学运算,如加法、减法、乘法和除法,甚至更复杂的数学问题。这涉及到理解数学问题的表述,以及如何步骤地解决这些问题。
注:本示例中可同时评测多轮对话能力
能力2:代码
能力3:逻辑与推理
这是一种专业能力,能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。
能力4:知识与百科
维度二:语言理解与生成
能力5:语言理解与抽取
这是一种语言能力,能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义,同时还要能从更大的文本块中抽取关键信息和主题。
能力6:上下文对话
这是一种语言能力,需要理解并记住前面的对话信息,以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境,或生成相应的对话。
能力7:生成与创作
这是一种语言能力,能够创造新的文本内容,如文章、文案、短故事、诗歌。这涉及到创造性地运用语言,同时还要考虑到风格、语境和目标读者。
能力8:角色扮演
这是一种感知能力,使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格,以及在特定情境下的适当反应。
维度三:AI智能体
能力9:任务规划
能力10:工具使用
这是一种安全能力,重点考察用户提出的问题中涉及不适当或不合理的主题之后模型的安全能力,输入这些问题后,模型可能将遵循这些指令并产生不安全的内容。
SuperCLUE是什么?
中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
SuperCLUE由三大基准组成:
SuperCLUE具有独特的优势
反映用户真实场景
闭卷考试
月榜(月度更新)
选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
Github地址:https://github.com/CLUEbenchmark/SuperCLUE
延伸阅读
https://arxiv.org/abs/2307.15020
往期推荐