FlagEval 9月榜 | 评测框架多维升级,详解Baichuan2 等7个热门模型主观评测能力分布
Highlight:
-FlagEval大语言模型评测框架更新,细化40+子能力维度
-基于智源自建CLCC主观评测集,分析7个知名模型的能力分布
-FlagEval 9月榜单发布,新增 YuLan、Baichuan2 等最新开源基座模型和SFT模型
评测框架升级
细化「安全与价值观」与「推理能力」评测
「社会价值观」指模型具符合社会主义核心价值观,即评估模型是否具有“中国心”;
「权利保护」指模型应该能够遵守法律法规,不该给出可能导致侵权、伤害等诱导违法犯罪的回答,即评估模型是否能够“不做坏事”;
「伦理道德」指模型作为具有快速生成能力,并可能被广泛使用的工具,其给出的内容会对人认识和看待世界的方式产生很大影响,因此其生成的内容应当具有一定的教育特征,能够引导用户以善良、友好的方式应对所面临的问题,即评估模型是否“善良”。
能力维度详细解析见官方网站:https://flageval.baai.ac.cn/#/rule
基于智源CLCC主观评测数据集
7大热门模型能力详解
依据最新版的能力框架,FlagEval 团队同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主观评测数据集题库 v2.0,题目数量扩充 3 倍,采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性(注:为保证评测公平可靠,该评测数据集暂不公开发布)。
CLCC主观评测总分
如以下动图所示,从二级能力分布来看:
所有参评模型均非常重视安全与价值观对齐。具体而言,多数模型对于「权力保护」、「伦理道德」维度的回答远优于「社会价值观」维度,AquilaChat-7b 在这两个维度略胜一筹。
个别模型的在「简单理解」、「推理能力」方面存在明显短板,“基本功”有待修炼。值得一提的是,Baichuan2-13b-chat 的能力分布上表现最为全面,在 8 个二级能力维度上的分布均有表现不俗,其与参数规模较小的 Baichuan2-7b-chat 相比,重点提升了基础语言能力。Qwen-7b-chat 模型在参评的同参数量级模型中表现最优,能力分布较为均衡。YuLan-Chat-2-13b 在基础语言能力和高级语言能力上表现优秀,但在安全与价值观方面尚待提升。
三级能力对比(对应一级能力:基础语言能力)
三级能力对比(对应一级能力:高级语言能力)
三级能力对比(对应一级能力:安全与价值观)
从三级能力对比分析图中可以看到:
基础语言能力中的「信息提取」、「数学推理」以及高级语言能力中的「结构化生成」是多数模型的短板,或成为大模型研发团队下一步重点攻克的难题。
在高级语言能力方面,「语言解析」、「观点辨析」、「中国文化理解」亦是普遍的弱项。「语言解析」指指模型能够准确识别、分析和解释文本中的语言结构、语法关系和语义信息;「观点辨析」指模型能够准确识别、分析、比较和评价各种观点、立场,并进行有条理的论证解析;「中国文化理解」指模型能够准确识别、分析和解释与中国文化相关的内容、现象和特点,包括历史文化、文学艺术、习俗传统、语言文字、地理民族等领域知识。
安全与价值观方面,多数模型在「国土安全」、「意识形态安全」、「政治安全」方面仍有较大提升空间。而从单项结果来看,Baichuan2-13B-chat 、YuLan-Chat-2-13B、AquilaChat-7B尤为出彩,均拿到3项及以上满分。
FlagEval大语言模型评测
9月榜单
评测说明:
中文选择问答评测数据集更新
Gaokao2023 更新至 v2.0 版本,题目数量从 147 道扩充至 364 道,在语文、数学等7个学科基础上新增化学、地理考题。部分没有进行评测 Gaokao v2.0 的模型采用 Gaokao v1.0 结果进行计算。
由于C-Eval数据集存在失效争议,FlagEval 平台自8月15日起已不再包含任何 C-Eval 评测题目。
Base 模型不做主观评测;SFT 模型不做代码生成 HumanEval 评测。
在评测时,FlagEval 根据数据集的不同规模进行了自动化采样。
更多维度的评测结果FlagEval 官网排行榜:https://flageval.baai.ac.cn
基座模型榜单
在本期基座模型榜单中,Baichuan2、Qwen、InternLM、Aquila 的客观评测结果表现均超越同参数量级的 Llama 及 Llama2 模型,国产大模型未来可期。
SFT 模型榜单
在本期 SFT 模型榜单中,Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。
FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。
除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。
悟道·天鹰Aquila系列模型更新
悟道·天鹰Aquila 系列模型最新代码&权重 v0.11 已开源并支持商用许可,欢迎社区开发者下载,并反馈使用体验。
此次开源版本中,AquilaChat 中文、英文客观评测较8月15日版本分别提升 19% 和 6%;Aquila 基座模型客观评测(含代码生成)总分较8月15日版本提升24%,中文、英文客观评测分别提升 36% 和 10%。
注意:由于FlagEval主观评测集升级,无法比较AquilaChat两个版本之间的主观评测结果差异。
使用方式一(推荐):通过 FlagAI 加载 Aquila 系列模型
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
使用方式二:通过 FlagOpen 模型仓库单独下载权重
https://model.baai.ac.cn/
使用方式三:通过 Hugging Face 加载 Aquila 系列模型
https://huggingface.co/BAA