中文通用大模型综合性评测基准SuperCLUE
5月30日更新
本次更新,新增西湖大模型(5月27日版本)、RWKV-Raven-7B、IDEA-姜子牙-13B的评测结果。
榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单。
排行榜会定期更新,可访问:
https://github.com/CLUEbenchmark/SuperCLUE
SuperCLUE认为榜上有名的都是英雄。
西湖大模型是由西湖大学深度学习实验室与杭州西湖心辰联合研发。团队负责人为蓝振忠博士,现任西湖大学深度学习实验室负责人、博士生导师,此前曾任谷歌研究科学家,期间是轻量化大模型ALBERT的第一作者。值得注意的是,蓝振忠博士同时也是CLUE的首席学术指导。本次评测的西湖大模型是5月27日更新的版本,从评测结果来看,基础能力表现较好,学术专业能力需要进一步优化。基础能力方面,生成与创作表现不俗,语义理解能力有提升空间。中文特性方面,较为擅长汉字字形和拼音、诗词需要重点优化。RWKV背后是一支不小的论文团队,总共27家大学、研究机构和公司组成,作者达30人。论文一作Peng Bo,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。在模型架构上,RWKV创新地将GPT transformer改写成RNN形式。由于在设计上保留了transformer block的思路,RWKV同时具备RNN和Transformer的部分特性。https://github.com/BlinkDL/ChatRWKV从评测结果来看,RWKV-Raven-7B-V11的中文能力较弱,按照官方披露,训练数据占比为Eng49%-Chn49%-Jpn1%-Other1%。所以目前该模型更侧重于英文能力。待RWKV更新优质中文模型后,会再次进行评测。IDEA-姜子牙-13B(Ziya-LLaMA-13B-v1)是由IDEA研究院CCNL推出,基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。目前姜子牙通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1从评测结果来看, IDEA-姜子牙-13B在三大能力上表现较为均衡。在基础能力方面,在语义理解、生成创作上表现较好, 在逻辑推理方面稍有不足。在中文特性方面,较为擅长成语,方言和诗词能力有提升空间。https://github.com/CLUEbenchmark/SuperCLUE另外,目前已有众多模型申请评测,近期会陆续补充榜单。由于本轮评测尚未结束,为了公平起见,数据集和进一步信息计划将在本轮SuperCLUE评测结束后公开,敬请期待。除了SuperCLUE主榜单之外,SuperCLUE团队同时发起了匿名大模型对战平台「SuperCLUE-琅琊榜」,增加了SuperCLUE官方评测之外的用户评测。首期入围近20个模型,具体详见:对战平台「SuperCLUE-琅琊榜」参与地址:
SuperCLUE基准计划按照月度进行更新,会纳入更多可用中文大模型,欢迎大模型研发机构联系与交流,可在下方申请评测。SuperCLUE榜单大模型评测申请:https://wj.qq.com/s2/12305633/a73d/模型内测需求收集(非公开):https://wj.qq.com/s2/12307825/2ae0/Github地址:https://github.com/CLUEbenchmark/SuperCLUE
(二维码失效可以在公众号后台回复SuperCLUE加入)中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。Github地址:https://github.com/CLUEbenchmark/SuperCLUESuperCLUE的构成与特点
着眼于综合评价大模型的能力,使其能全面地测试大模型的效果,又能考察模型在中文上特有任务的理解和积累。我们对能力进行了划分, SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。从三个不同角度对中文大模型进行测试,以考察模型的综合能力;并且每一个子能力又含有十项或以上不同的细分能力。通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。选取了多个国内外有代表性的可用的模型进行测评,以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。
SuperCLUE的数据集
1.基础能力(10项能力):语义理解、生成与创作、闲聊、对话、百科与知识、逻辑与推理、计算能力、代码、角色模拟、安全
示例:
--语义理解:两个男人正常交谈,其中一个男人夸赞对方办事能力强,对方回答“哪里,哪里”。这里的“哪里,哪里”是什么意思?A. 讲话十分含糊不清。B. 要求说出具体的优点。C. 表达自己的谦虚。D. 挑衅对方。
--逻辑与推理:小明的妻子生了一对双胞胎。以下哪个推论是正确的?A. 小明家里一共有三个孩子。B. 小明家里一共有两个孩子。C. 小明家里既有男孩子也有女孩子。D. 无法确定小明家里孩子的具体情况。
2.中文特性能力(10项能力):成语、诗词、文学、字义理解、汉语句法分析、汉字字形和拼音理解、歇后语和谚语、对联、方言、古文示例:
--成语:选出下列句子中成语使用错误的一项A. 这个项目时间紧任务重,大家都在马不停蹄地奔波劳碌。B. 他常常口是心非,让人难以相信他说的话。C. 两人是同学三年,一直保持着良好的关系,相互尊重、相敬如宾。D. 当地突发大火,整个村庄都鸡犬不宁,局势十分危急。
--文学:下列有关名著的表述有误的一项是A. 《红楼梦》是中国古代小说中的巅峰之作,以其瑰丽的语言和丰富的人物形象而闻名于世。B. 《西游记》是中国古代四大名著之一,讲述了哪吒等人历经九九八十一难,最终取得真经的故事。C. 《孔乙己》是鲁迅的代表作之一,以其深刻的社会洞察力和优美的文学风格而广受好评。D. 《围城》是钱钟书的代表作之一,以其独特的文学语言和深刻的社会洞察力而成为现代中国文学的经典之作。3.专业能力(50+能力):抽象代数、天文学、临床知识、大学生物学、大学计算机科学、大学数学、高中化学、高中物理、机器学习、营养、专业会计、职业心理学等示例:
--物理:以下物理常识题目,哪一个是错误的?A. 在自然环境下,声音在固体中传播速度最快。B. 牛顿第一定律:一个物体如果不受力作用,将保持静止或匀速直线运动的状态。C. 牛顿第三定律:对于每个作用力,都有一个相等而反向的反作用力。D. 声音在空气中的传播速度为1000m/s。
--天文学:以下天文学常识题目,哪一个是错误的?A. 太阳系是指由太阳和围绕着它运行的八大行星、矮行星、卫星、小行星带和彗星组成的一个行星系统。B. 卫星是指绕行星或其他天体运动的天体。C. 彗星是指太阳系中一种较小的天体,其核心由冰和尘埃组成。D. 按一般的天体归类方法,月球属于行星。1、统一prompt:针对每一个题目,构造了统一的prompt供模型和人类使用。2、预测:系统使用模型进行预测,要求模型选取ABCD中一个唯一的选项。3、打分:如果模型的回答不是标准的答案,而是一段文字,系统会采取特定的策略自动提取出模型的答案。该策略结合模型的表现进行优化和完善。(注:当无法提取有效答案的时候,则表明模型没有按照人类做题的要求,未正确理解指令,则认为模型回答错误。)由于此次为SuperCLUE首次全自动测评,为了谨慎起见,全部答案事后已由多位人类进行交叉复核,与自动测评结果基本一致。针对于基础能力和中文特性题目,会有三位独立的人类测评员根据题目做答。人类测评结果,采用多数投票方式进行汇总,作为人类基准分数。从人类测评角度看,基础能力(98%)+中文特性(95%),都达到了非常高的水平。除GPT-4外,人类准确率大幅超过了其他的大模型(如在基础能力上超过其他模型20多个百分点)。AI虽然进展很快,但人类还是有相对优势的, 比如在计算方面,人类比最强模型GPT-4高出了30个百分点。一句话点评:国际先进模型效果具有较大的领先性;同时国产GPT模型也有不俗的表现,有差距但可追赶。
在国际上效果非常棒的Vicuna-13B模型,在中文领域的效果是众多模型中比较一般的模型(排名靠后)。而国内研发的大模型或在中文任务上进行训练后的模型,都大幅超过了Vicuna-13B的效果,比如星火认知大模型在总分上超过了 Vicuna-13B 20个百分点,并且BELLE-13B(基于LLaMA并在中文上训练和微调过的模型)的总分也超过了 Vicuna-13B 10多个百分点。2)国内大模型与OpenAI GPT之间的差距较大,但在逐渐逼近可以看到在本次SuperCLUE上效果最好的国内模型,与GPT-4相比有不少的差距。但是我们更应该看到, 不断涌现和迭代的国内大模型也在逐步地缩小与OpenAI GPT模型模型的差距。3)gpt-3.5-turbo与GPT-4之间也有明显差距比如,GPT-4在所有的参与测评的模型中是独一档的存在,超过了gpt-3.5-turbo近10个百分点。它在逻辑推理能力、生成与创作能力方面,远远优于其他模型(超过其他模型20个百分点或以上)。1) 当前模型在基础能力普遍表现不错,但中文特性、专业能力还比较差。说明当前国内大模型已经有不错的基础(60-80%),但在专业领域、中文任务上表现一般(如30-60%直接),说明在专业领域或中文任务上还需要继续努力,或者说进行针对性的训练。除GPT-4外,其他模型多数在这两项能力通常在30-50分之间。3)角色模拟,AI模型比较擅长。这方面可以是非常有用的。可以让AI根据场景和角色设定帮忙人类来完成多种不同的任务,从市场营销策划、心理咨询、客户服务、到提供创意或想法等。
- 基础能力、中文特性能力:虽然每一部分都包含了10类子能力,但这两个能力的总数据量比较少,可能存在需要扩充数据集的问题。
- 选取模型的不完全:我们测试了一部分模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
- 客观考察的不足:我们以相对客观形式考察模型能力,但一些主观、开放性问题的模型能力的考察可能存在不足。
模型参数:由于当前大模型发展较快,参数量又有比较大的差异,本次的测评并没有在同一级别的参数量上进行。