FlagEval 天秤大模型评测体系及开放平台,打造更全面的引领性评测基准
FlagEval (天秤)语言大模型评测体系建立了“能力-任务-指标”三维评测框架,目前涵盖了 22 个主观和客观评测集,84433 道题目,细粒度刻画大模型的认知能力。
“悟道 · 天鹰” AquilaChat-7B 对话模型,在 FlagEval 评测榜单上暂时在“主观+客观”评测维度领先其他同参数量级别的开源对话模型。如下图所示,在当前最新评测结果中,AquilaChat 以大约相当于其他模型 50% 的训练数据量(SFT 数据+预训练数据分别统计)达到了最优性能。
但由于当前的英文数据仅训练了相当于 Alpaca 的40%,所以AquilaChat 在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的 Alpaca。随着后续训练的进行,相信很快可以超越。
悟道·天鹰 Aquila 模型还在迭代进步的过程中,天秤 FlagEval 评测能力也在不断的扩充中,因而此评测结果只是暂时的,新的评测结果还会不断更新。由于评测数据集的规模限制,评测结果也会存在一定的局限性,后续我们也会尽可能地关注评测数据集的多样性、完善数据集的构建方法和评测方式;评测体系方法及相关研究还在继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,能力框架正在进一步完善中。
01
大模型评测需要新坐标
基础模型:这类模型从零开始,利用大量语料进行预训练,模型参数规模通常可达十亿级别,训练时间和算力成本都相当高昂。例如,GPT3、LLaMA,以及智源刚刚发布的Aquila等。
微调模型:这类模型在基础模型之上进行微调,包括人类反馈监督学习(RLHF)。例如,ChatGPT(GPT3.5)、基于LLaMA微调的Alpaca,以及智源AquilaChat等。
02
解读 FlagEval(天秤)开放评测平台
FlagEval(天秤)平台目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。
当前对外开放评测申请的 FlagEval(天秤)语言大模型评测体系,创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果,当前包括 30+能力 x 5大任务 x 4大指标,总计 600+子维度,任务维度包含 22 个主观&客观评测集,84,433道评测题目,更多维度的评测数据集正在陆续集成。
1.三维评测框架
1.1 能力框架:刻画模型认知能力边界
基础语言能力:简单理解(信息分析、提取概括、判别评价等)、知识运用(知识问答、常识问答、事实问答)推理能力(知识推理、符号推理)。
高级语言能力:特殊生成(创意生成、代码生成、风格生成,修改润色等)、语境理解(语言解析、情境适应、观点辨析等)。
安全与价值观:安全方面包括违法犯罪、身体伤害、隐私财产、政治敏感、真实性检验;价值观方面包括歧视偏见、心理健康、文明礼貌、伦理道德。 综合能力:通用综合能力、领域综合能力。
基础模型评测以“适配评测+提示学习评测”的客观评测为主。 适配评测主要考察基础模型在固定选项下的选择能力,我们参考了 Language Model Evaluation Harness 框架,将评测能力扩展到了中文能力上。 提示学习评测主要考察基础模型在体质学习下的开放生成能力,我们参考了HELM评测框架,将评测能力扩展到了中文能力上。 微调模型评测将先复用基础模型的客观评测,考察微调过程是否对基础模型造成了某些能力的提升或下降。然后再引入主观评测。 人工主观评测:在人工创建的主观问题上,采用“多人背靠背标注+第三人仲裁”,多人背靠背标注也会采用GPT-4标注的方式增加多样性。 自动主观评测:在GPT-4根据能力框架创建的主观问题上,采用GPT-4自动化标注的方式进行标注。
部署推理服务,主观评测&客观评测全自动流水线 各阶段自动监听,推理服务到评测全自动衔接
用户可根据模型类型和状态选择评测策略,平台将整合评测结果 评测开始结束和评测错误等全周期事件的自动通知告警
多种芯片:现支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯,后续将支持更多芯片 多种深度学习框架:现支持 PyTorch、MindSpore 框架,后续将支持更多深度学习框架
03
持续扩充评测能力,做好大模型创新的助推器
FlagEval 评测体系方法及相关研究还需要继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,能力框架还需要进一步完善。目前主观评测尚未覆盖的能力维度,如“领域综合能力”和“通用综合能力”,也会在下一个版本中进行迭代升级。FlagEval 还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究,以期更加全面、科学地评价语言大模型。
智源也期待与多方合作,共同打造全面、科学的评测方法体系。作为“科技部2030”旗舰项目”重要课题,FlagEval(天秤)也正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建(按首字母排序)。
未来 FlagEval(天秤)将继续做好“AI大模型创新的助推器”,以评促“优”、以评促“用”、以评促“享”。
1.以评促“优”:提供详尽的评测结果和分析,帮助研究人员和开发者了解模型的优势和不足,从而进行有针对性的优化。
2.以评促“用”:提供多领域、丰富的下游任务的评测,用户可以参考评测结果,根据自己的需求选择最适合的模型和算法。
3.以评促“享”:秉持“开源开放”的精神,鼓励研究人员和开发者评测、分享他们的模型和算法。评测结果优秀的模型和算法可进一步集成至 FlagAI(github.com/FlagAI-Open/FlagAI),通过开源平台与全球的研究人员和开发者交流和共建。
FlagEval(天秤)评测平台
https://flageval.baai.ac.cn
开源评测工具
https://github.com/FlagOpen/FlagEval