查看原文
其他

FlagEval 10月榜:新增Aquila2-34B、InternLM-20B、Qwen-14B等模型

智源研究院 智源研究院 2023-11-14


Highlight:


-FlagEval 评测方式解读:采用“自由生成式”评测,严格评估模型的答案生成能力、上下文理解能力和指令跟随能力。


-FlagEval 10月榜单发布,新增Qwen-14B、Aquila2-34B、InternLM-20B等模型评测。


FlagEval 评测方式解读


当前针对生成式模型客观评测方式主要分为两类,我们称之为“选项概率式”和“自由生成式”,后者是真正让模型生成答案内容,由真正生成的答案内容来判断模型的上下文理解能力、和指令跟随能力。相比起“选项概率式”,“自由生成式”评测方式更加符合AIGC生成式大模型,尤其是对话模型的用户使用场景。

因此,FlagEval 大语言模型评测平台在基座模型和对话模型客观评测均采用了“自由生成式”的评测方式。

FlagEval 评测平台:

https://flageval.baai.ac.cn/


1、 “选项概率式”评测


让模型先拼接“问题+答案”,模型计算各个拼接文本的概率后,验证概率最高的答案与正确答案是否一致,若一致则判断模型回答正确。评测过程中模型不会生成任何内容,而是计算选项概率



2、“自由生成式”评测


严格按照“模型在问题输入下自由生成的答案”进行评判,这种方式源自2022年底斯坦福大学的工作 —
Holistic Evaluation of Language Models(HELM)[1],它对于模型的上下文学习和指令跟随能力要求更为严格。实际评测过程中,部分对话模型的回答如果不符合指令要求,可能会出现“0”分的情况。

例如:根据指令要求,正确答案为1个字母“A”,如果模型生成为“B”或“答案是 A ”(与正确答案的格式不相符),都会被判为“0”分。在HELM官方发布的评测结果中也存在“0”分或近似“0”分的情况[2]

注:

[1]https://crfm.stanford.edu/helm/latest/
[2]https://crfm.stanford.edu/helm/v0.2.2/?group=core_scenarios#Accuracy





FlagEval 大语言模型评测体系建立的初衷是“以评促优”,希望模型研发团队能以评测结果为参考,进一步发现模型问题、优化模型性能。如果模型在“生成式”评测方式下出现答案生成的问题而导致分数很低,我们会将生成错误的情况反馈给模型研发团队,在月度榜单中暂缓展示该模型的排名结果。


FlagEval 10月排行榜


评测说明:

1. 如上文所述,以下所有评测均为“自由生成式”评测,参考斯坦福大学HELM工作。

2. Chinese_MMLU是MMLU的汉化版本,先经过机器翻译再人工校正获得,FlagEval 评测平台采用其中五个学科的测试题,涵盖了人文社科、自然科学以及其他重要领域的知识。


基座模型榜单


本期基座模型榜单中, Aquila2-34B、Qwen-14B、InternLM-20B 位列前三。Aquila2-34B、Qwen-14B 的中文、英文评测得分差距小于 1%,中英文能力均衡,不“偏科”

SFT 模型榜单

本期SFT模型榜单,新增AquilaChat2-34B、AquilaChat2-7B评测,其中 AquilaChat2-34B 在主观、客观评测中均排名第一

FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。


FlagEval 大语言模型评测体系当前包含 6 大评测任务,近30个评测数据集,超10万道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。







 

悟道天鹰Aquila2-34B系列模型 已开源并支持商用许可,欢迎社区开发者下载,并反馈使用体验!



使用方式一(推荐):通过 FlagAI 加载 Aquila 系列模型
https://github.com/FlagAI-Open/Aquila2

使用方式二:通过 FlagOpen 模型仓库单独下载权重https://model.baai.ac.cn/
使用方式三:通过HuggingFace加载 Aquila 系列模型https://huggingface.co/BAAI






继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存