FlagEval 12月榜｜新增大模型鲁棒性评测，加入Qwen-72B、DeepSeek-34B等开源模型

智源研究院智源研究院 2024-01-06

Highlight:

新增大语言模型鲁棒性评测结果，考察模型对于输入文本的抗干扰能力；
加入Qwen-72B/1.8B、DeepSeek-34B等模型评测结果，Qwen-72B-Chat模型主观评测准确率高达83.6%。

大语言模型鲁棒性评测

北京航空航天大学作为 FlagEval 大模型评测平台的共建单位，构建了大语言模型鲁棒性评测方案并针对当前主流模型进行了初步评测。鲁棒性是指模型在面对不同类型的异常、噪声、干扰、变化或恶意攻击时，能够保持稳定性和高效性的能力。目前的基础模型可以在给定数据输入的情况下，经过其定义的计算，得到模型期望的输出，而鲁棒性可以理解为：在给定扰动噪音的情况下，模型的输出是否等于期望的输出，量化该差异为，越小代表该模型鲁棒性能越好。

对于大语言模型而言，构建的扰动噪音要求不影响人类对输入的理解。因此，团队在构建文本噪音时，会针对生成的测试样例设计，并要求与原始的在人类理解层面上的差异不大，但又容易使模型的输出犯错。

本期鲁棒性评测数据集和评测结果分为两个部分：

内容扰动鲁棒性评测（北京航空航天大学构建）：针对选择问答、文本分类、代码生成任务下的 MMLU、OCNLI、CSL、HumanEval测试集进行字符（Char）、单词（Word）、句子（Sentence）三个级别进行内容扰动以及对抗性扰动（即采用代理模型和相关算法进行对抗性攻击），生成了不同的扰动数据集。
格式扰动鲁棒性评测（智源FlagEval团队构建）：基于 MMLU_Chinese、MMLU、Gaokao2023_v2.0 数据集，进行选项格式扰动，考察模型是否真正理解了问题和选项并遵从指令的格式要求作答。例如，四个选项的内容调换顺序，或者将 A、B、C、D 改为 B、D、C、E。

后续 FlagEval 团队会与北京航空航天大学继续深入合作，将鲁棒性评测集成至 FlagEval 官方平台并支持用户离线评测，并持续构建鲁棒性评测数据集、完善评测方法，为业界和学界提供可靠的参考。

鲁棒性评测榜单

指标计算：RB_Acc

针对原始数据集以及不同的扰动数据集我们有

（

指模型在该数据集下的评测指标

指原始数据集，

指不同的扰动数据集）。

在该数据集上的鲁棒性指标计算公式为：

越小说明模型鲁棒性越好。整体来看， Base 模型鲁棒性整体比 SFT 模型更好。

1.1 Base模型

*下表按“RB_Acc 绝对平均值”升序排列

1.2 SFT 模型

*下表按“RB_Acc 绝对平均值”升序排列

鲁棒性数据集构建方式

1.1 内容扰动

字符级别

char-keyboard：将被选择的字符替换为键盘上相邻的字符。
char-ocr：将被选择的字符替换为形状上相似的字符。
char-morphonym：将被选择的汉字替换为形状相似或者读音相似的汉字。

词汇级别

word-synonym：将被选择的单词根据同义词库替换为同义词。
word-word-embedding：将被选择的单词替换为词向量模型中语义距离相近的单词。
word-masked-lm：根据采用掩码语言建模方式的语言模型对被选择的词语进行替换。

句子级别

sentence-back-translation：将句子翻译成另外一种语言再翻译回源语言。
对抗
adversarial：采用对抗性扰动算法对内容进行扰动使得代理模型“误判”。

1.2 格式扰动

更换选项内容顺序：在选择问答数据集中，随机更改选项的顺序，并相应修改正确答案。

示例：

更换选项名称：将选项 A/B/C/D 更换为 B/C/D/E，且不改变选项内容和顺序。

示例：

FlagEval 大语言模型 12月榜单

FlagEval 平台更新了C-SEM v2.0 数据集评测结果，新增了最新开源的 Qwen-72B / 1.8B、DeepSeek-67B(base）模型评测。其中，Qwen-72B-Chat 模型主观评测结果大幅领先，准确率达 83.6%。

详细评测结果见 FlagEval 官网（或点击阅读原文）：

https://flageval.baai.ac.cn/#/trending

基座模型 Base Model

有监督微调模型 SFT Model

FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。

FlagEval 大语言模型评测体系当前包含 6 大评测任务，近30个评测数据集，超10万道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等，FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ，北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集，更多维度的评测数据集也在陆续集成中。

悟道天鹰Aquila2-34B系列模型已开源并支持商用许可，欢迎社区开发者下载，并反馈使用体验！

使用方式一（推荐）：通过 FlagAI 加载 Aquila 系列模型
https://github.com/FlagAI-Open/Aquila2

使用方式二：通过 FlagOpen 模型仓库单独下载权重https://model.baai.ac.cn/
使用方式三：通过HuggingFace加载 Aquila 系列模型https://huggingface.co/BAAI

继续滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

FlagEval 12月榜｜新增大模型鲁棒性评测，加入Qwen-72B、DeepSeek-34B等开源模型

1.2 SFT 模型

FlagEval 大语言模型 12月榜单

详细评测结果见 FlagEval 官网（或点击阅读原文）：

https://flageval.baai.ac.cn/#/trending

基座模型 Base Model

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

生成图片，分享到微信朋友圈

FlagEval 12月榜｜新增大模型鲁棒性评测，加入Qwen-72B、DeepSeek-34B等开源模型

1.2 SFT 模型

FlagEval 大语言模型 12月榜单

详细评测结果见 FlagEval 官网（或点击阅读原文）：

https://flageval.baai.ac.cn/#/trending

基座模型 Base Model

您可能也对以下帖子感兴趣