FlagEval 11月榜 | 开源中文语义理解评测集C-SEM,新增ChatGLM3、Yi 等模型评测
Highlight:
开源中文语义理解评测基准C-SEM
新增近期开源模型&闭源模型评测:ChatGLM3-6B、ChatGLM2-12B(闭源)、Yi-34B、Skywork-12B、LingoWhale-8B
01
C-SEM开源仓库地址:
FlagEval 大模型评测平台官网:https://flageval.baai.ac.cn/
问题:“呆板”与“灵活” 这两个词语具有以下哪种语义关系?从下面4项中选择
A. 近义B. 反义C. 上下位D. 整体部分
问题:“笔尖的力量在我的手中化作了思想的火花,点燃了梦想的火炬。”这句话中“笔尖”与下列哪个词具有整体部分关系?
A. 笔画B. 笔墨C. 尖利D. 钢笔
问题:以下哪句话中“中学”的意思(或用法)与其他句子不同。
A. 中学教育在塑造青少年的品德、知识和技能方面起着重要的作用。B. 曾纪泽、张自牧、郑观应、陈炽、薛福成等大抵讲“中学为体,西学为用”的人,无不持“西学中源”说。C. 中学是为了培养青少年的综合素质而设立的教育机构。D. 我们的学校是一所提供中学教育的优秀学校,致力于为学生提供高质量的教育和培养。
问题:以下哪个句子使用了拟人修辞手法? A. 因为有了你,在生命的悬崖前,我不曾退缩过,因为有了你,在坠入深渊时,我始终都有挣扎向上的勇气与力量,因为有了你,珠穆琅玛峰上才会出现我的足迹,因为有了你,在阴暗的道路上行走我都不会感到丝毫的害怕,心头总暖暖的……
B. 春天是个害羞的小姑娘,遮遮掩掩,躲躲藏藏,春天是出生的婴儿,娇小可爱。
C. 他的思维如同一条蜿蜒的小溪,总是能找到通往解决问题的路径。
D. 月亮悬挂在夜空中,犹如一颗璀璨的珍珠镶嵌在黑天幕上。
02
FlagEval 大语言模型评测
Base 模型榜单:
Yi-34B-Base、Yi-34-Base-200K 模型超越 Aquila2-34B,排名第一,其英文能力突出、优于中文能力。
ChatGLM3-6B-Base、ChatGLM2-12B-Base 表现亮眼,遥遥领先其他同参数量级模型。
Skywork-13B-Base、LingoWhale-8B 亦有不错表现。
SFT 模型榜单:
ChatGLM2-12B-sft、ChatGLM3-6B-sft 均达到了同参数级对话模型的最优水平。
详细评测结果见FlagEval官网:
https://flageval.baai.ac.cn/
预告:FlagEval 12月榜单将发布「大语言模型鲁棒性评测结果」,敬请期待!
FlagEval 平台尽可能采用丰富的评测维度、引入不同的评测方法对模型进行全面的评测,但当前主流的大语言模型评测集已经在业界使用了一段时间,模型针对这些评测集也会出现过度训练的情况,导致用户难以衡量大模型真实的通用能力。
针对这个现象,FlagEval平台将在12月发布鲁棒性评测榜单,测试大模型在面对输入的扰动时是否能保持其性能,比如测试模型在选项被改写或包含轻微的错别字的情况下,是否仍然能够回答正确。鲁棒性评测结果也能侧面反映出大模型是否对某些评测集进行了过度训练,导致出现“死记硬背”的现象。
FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。
FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。
悟道天鹰Aquila2-34B系列模型 已开源并支持商用许可,欢迎社区开发者下载,并反馈使用体验!
https://github.com/FlagAI-Open/Aquila2
使用方式二:通过 FlagOpen 模型仓库单独下载权重https://model.baai.ac.cn/
使用方式三:通过HuggingFace加载 Aquila 系列模型https://huggingface.co/BAAI