FlagEval 10月榜：新增Aquila2-34B、InternLM-20B、Qwen-14B等模型

智源研究院智源研究院 2023-11-14

Highlight:

-FlagEval 评测方式解读：采用“自由生成式”评测，严格评估模型的答案生成能力、上下文理解能力和指令跟随能力。

-FlagEval 10月榜单发布，新增Qwen-14B、Aquila2-34B、InternLM-20B等模型评测。

FlagEval 评测方式解读

当前针对生成式模型的客观评测方式主要分为两类，我们称之为“选项概率式”和“自由生成式”，后者是真正让模型生成答案内容，由真正生成的答案内容来判断模型的上下文理解能力、和指令跟随能力。相比起“选项概率式”，“自由生成式”评测方式更加符合AIGC生成式大模型，尤其是对话模型的用户使用场景。

因此，FlagEval 大语言模型评测平台在基座模型和对话模型客观评测均采用了“自由生成式”的评测方式。

FlagEval 评测平台:

https://flageval.baai.ac.cn/

1、 “选项概率式”评测

让模型先拼接“问题+答案”，模型计算各个拼接文本的概率后，验证概率最高的答案与正确答案是否一致，若一致则判断模型回答正确。评测过程中模型不会生成任何内容，而是计算选项概率。

2、“自由生成式”评测

严格按照“模型在问题输入下自由生成的答案”进行评判，这种方式源自2022年底斯坦福大学的工作 — Holistic Evaluation of Language Models（HELM）[1]，它对于模型的上下文学习和指令跟随能力要求更为严格。实际评测过程中，部分对话模型的回答如果不符合指令要求，可能会出现“0”分的情况。

例如：根据指令要求，正确答案为1个字母“A”，如果模型生成为“B”或“答案是 A ”（与正确答案的格式不相符），都会被判为“0”分。在HELM官方发布的评测结果中也存在“0”分或近似“0”分的情况[2]。

注：

[1]https://crfm.stanford.edu/helm/latest/
[2]https://crfm.stanford.edu/helm/v0.2.2/?group=core_scenarios#Accuracy

FlagEval 大语言模型评测体系建立的初衷是“以评促优”，希望模型研发团队能以评测结果为参考，进一步发现模型问题、优化模型性能。如果模型在“生成式”评测方式下出现答案生成的问题而导致分数很低，我们会将生成错误的情况反馈给模型研发团队，在月度榜单中暂缓展示该模型的排名结果。

FlagEval 10月排行榜

评测说明：

1. 如上文所述，以下所有评测均为“自由生成式”评测，参考斯坦福大学HELM工作。

2. Chinese_MMLU是MMLU的汉化版本，先经过机器翻译再人工校正获得，FlagEval 评测平台采用其中五个学科的测试题，涵盖了人文社科、自然科学以及其他重要领域的知识。

基座模型榜单

本期基座模型榜单中， Aquila2-34B、Qwen-14B、InternLM-20B 位列前三。Aquila2-34B、Qwen-14B 的中文、英文评测得分差距小于 1%，中英文能力均衡，不“偏科”。

SFT 模型榜单

本期SFT模型榜单，新增AquilaChat2-34B、AquilaChat2-7B评测，其中 AquilaChat2-34B 在主观、客观评测中均排名第一。

FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。

FlagEval 大语言模型评测体系当前包含 6 大评测任务，近30个评测数据集，超10万道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等，FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ，北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集，更多维度的评测数据集也在陆续集成中。

悟道天鹰Aquila2-34B系列模型已开源并支持商用许可，欢迎社区开发者下载，并反馈使用体验！

使用方式一（推荐）：通过 FlagAI 加载 Aquila 系列模型
https://github.com/FlagAI-Open/Aquila2

使用方式二：通过 FlagOpen 模型仓库单独下载权重https://model.baai.ac.cn/
使用方式三：通过HuggingFace加载 Aquila 系列模型https://huggingface.co/BAAI

继续滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

FlagEval 10月榜：新增Aquila2-34B、InternLM-20B、Qwen-14B等模型

FlagEval 10月排行榜

基座模型榜单

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

生成图片，分享到微信朋友圈

FlagEval 10月榜：新增Aquila2-34B、InternLM-20B、Qwen-14B等模型

FlagEval 10月排行榜

基座模型榜单

您可能也对以下帖子感兴趣