首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布
中文通用大模型开放域多轮测评基准SuperCLUE-Open
2023年7月
注:Score分数,是模型的胜率加上平局率之和,即(win+tie)/(win+tie+loss)*100。
注:胜和率,是模型的胜率加上平局率之和,即(win+tie)/(win+tie+loss)*100。
(代表性模型的各个能力分布视图)
排行榜会定期更新,可访问:
https://github.com/CLUEbenchmark/SuperCLUE-Open
SuperCLUE-Open是什么?
中文通用大模型开放域多轮测评基准(SuperCLUE-Open),是一个多轮开放域的中文模型评测基准,包括1200个高质量多轮问题,用于评估中文大模型对话能力和遵循指令的能力。
--样例
SuperCLUE-Open为什么发起?
当前已经有一些评价中文大模型的基准,如C-Eval, MMCU,但是这些基准通常不太擅长评估大模型的人类偏好。传统的基准通常以封闭式问题形式进行测试,要求模型输出简要的结论(如多项选择),但是它们不能很好的反映大模型的典型使用场景(如生成、创作和提供想法)。
当前也刚刚出现一些英文模型基准,如加州伯克利的MT-bench,斯坦福大学的Alpaca-Eval,可以用于评估开放域问题,但是这些基准通常测试英文模型,中文的代表性专有服务和开源模型总体上无法进行有效评估。
为了解决以上问题,丰富中文模型评估的准确性,我们发布了SuperCLUE-Open与SuperCLUE-LYB琅琊榜:
SuperCLUE-Open:是一个有挑战的多轮对话开放域测试集,用于评估中文大模型多轮对话、主观题和遵循指令的能力。
SuperCLUE-LYB:SuperCLUE琅琊榜是一个众包匿名对战平台,用户问自己感兴趣的问题,并且投票他们喜欢的答案。
这两个基准设计的首要度量标准是人类的偏好。
SuperCLUE-Open是如何评测模型的?
针对中文大模型的人类偏好能力,可以通过人工进行评估,但是它一般时间周期比较长、并且成本高。国际上已经开始有一些自动化模型评估的方式。
多轮对话样例
添加SuperCLUE-open与人类测评的一致性分析 扩充测试集规模 加入更多中文大模型
论文:Judging LLM-as-a-judge with MT-Bench and Chatbot Arena,https://arxiv.org/abs/2306.05685 文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B,https://lmsys.org/blog/2023-06-22-leaderboard/
相关项目地址:Alpaca_Eval: A validated automatic evaluator for instruction-following language models. High-quality, cheap, and fast,https://github.com/tatsu-lab/alpaca_eval
相关排行榜:AlpacaEval Leaderboard,https://tatsu-lab.github.io/alpaca_eval/
致谢
本基准的成功运行离不开FastChat项目在源代码方面的大力支持,在此十分感谢Large Model Systems Organization(LMSYS ORG)和FastChat。
往期推荐