其他
解读|SuperCLUE中文大模型评测方法及说明(10月)
01
10月SuperCLUE的评测方法
OPT选择题的测评维度主要包括基础能力、学术与专业能力和中文特性三个维度,共计有74个评测任务。
10月OPT选择题是在SuperCLUE十万量级测试库中抽取,并移除了过去历月评测集,保证10月选择题是全新独立的。针对每一个题目,我们构造了统一的prompt供模型使用,要求模型选取ABCD中一个唯一的选项。
如果模型的回答不是标准的答案,而是一段文字,系统会采取特定的策略自动提取出模型的答案。该策略结合模型的表现进行优化和完善。当无法提取有效答案的时候,则表明模型没有按照人类做题的要求,未正确理解指令,则认为模型回答错误。02
10月SuperCLUE的评测模型变动
03
10月评测结果解读
GPT的回答 :