其他
写在前面大家好,我是刘聪NLP。目前很多机构都投身于基座模型训练、chat模型训练领域,要在这个领域中做到比别人更好的效果,需要相当多的财力、物力。所幸整个大模型领域中,除了微调训练外,还是有很多亟待解决的问题,例如大模型的应用研发、大模型的评测等。今天给大家带来一篇来自邱震宇大佬(知乎@邱震宇)的大模型的评测分析。知乎:https://zhuanlan.zhihu.com/p/652688939有关大模型的评测,想必大家经常会看到相关新闻。因为每次有一个开源或者闭源的大模型发布出来,必然会发布自己在某某评测上的效果。或者有一些机构会专门做一些大模型的榜单,从多个不同维度来对大模型进行打分排名。目前大部分的企业机构受限于成本、数据隐私合规等因素,不会使用GPT4的服务,也无法自己训一个强力的基座模型,只能依赖于开源模型。然而当前模型的可选择面太多了,究竟选择哪个成了非常头疼的问题。通常来说,我们选择前会参考各大评测榜单的结果,因此了解市面上的大模型评测模式是很有必要的。另外我们也希望能够搭建一套自己的评测工具,目前市面上开源出来的评测工具似乎只有一家——OpenCompass。因此,本文先简要介绍大模型评测的模式,随后将详细介绍对OpenCompass的分析和一些看法,希望能给各位从事大模型方向的同僚提供一些参考。大模型评测的模式首先,目前常见的大模型评测模式可以大致总结为以下三种:1、做题打分。主要是收集各种各样的评测数据集,然后把数据集分为不同的维度能力。通过设计一些prompt让大模型去做这些数据集的任务,与标准答案进行对照计算分数。典型的如OpenCompass,huggingface的openLLM