8月28日,CLUE社区发布了8月中文大模型测评榜单,引起了社会各界的广泛关注和热议,关于评测结果在众多开源社群展开了讨论,为此,CLUE团队发起了“8月SuperCLUE反馈收集”活动,收到近千份反馈。本文会对8月SuperCLUE的评测方法进行解读,同时对开发者关心的典型问题进行回复。8月SuperCLUE评测主要包括多轮开放问题测评(OPEN)和三大能力选择题评测(OPT)。共3337题,其中,OPEN623题、OPT2714题。8月SuperCLUE总排行榜的总分由SuperCLUE-OPEN和OPT两部分合并组成:总分=50%*OPEN分+50%*OPT分
OPEN多轮开放问题测评(主观题)
OPEN主观题的测评聚焦在反应大模型用于真实用户场景的能力,特别是开放式问题的生成能力、指令遵循和多轮交互能力,包括十大基础能力。
8月OPEN主观题由测试库中抽取后人工进行校验并撰写第二轮问题。OPEN基准使用超级模型(如GPT4)作为评判官,使用一个待评估模型与一个基准模型(如gpt-3.5-turbo)进行对比,让超级模型选出哪个模型更好。答案是,A模型好,B模型好,或平局。评估的标准,是要求超级模型作为一个公证的评估者,评估模型的质量。回答的质量包括回答有针对性、准确和全面,并且可以对多轮能力进行评测。
OPT三大能力选择题测评(选择题)
OPT选择题的测评维度主要包括基础能力、学术与专业能力和中文特性三个维度,共计有74个评测任务。
8月OPT选择题是在SuperCLUE十万量级测试库中抽取,并移除了过去历月评测集,保证8月的选择题是全新独立性。针对每一个题目,我们构造了统一的prompt供模型使用,要求模型选取ABCD中一个唯一的选项。
示例:
--语义理解:请阅读下面的例子,回答如下问题:我的工作室位于我的住所附近,这使得我每天晚上能够在家工作。请问下面哪一个表述是错误的?A. 我的工作室就在我家旁边。B. 我每天晚上在家工作。C. 我的工作室位于我住处附近。D. 我每天晚上都去工作室工作。
--逻辑与推理:在下列袋子里,一个袋子里只有红色的弹珠,另一个袋子里只有绿色的弹珠,剩下的袋子里有红色和绿色的弹珠,袋子上的标记被放错了。现在你只能从一个袋子里面摸出其中的一个弹珠,摸到红色的弹珠之后,你怎么能判断出剩下哪个袋子里有绿色的弹珠?A. 袋子1。B. 袋子2。C. 袋子3.D. 无法确定。如果模型的回答不是标准的答案,而是一段文字,系统会采取特定的策略自动提取出模型的答案。该策略结合模型的表现进行优化和完善。当无法提取有效答案的时候,则表明模型没有按照人类做题的要求,未正确理解指令,则认为模型回答错误。1. 8月将OPEN和OPT合并为总排行榜,用于全面的表现大模型综合能力;之前的榜单OPEN、OPT是分别进行公布。
2. 十大基础能力由7月的选择题形式,扩展成选择题OPT+主观题OPEN形式。因此个别模型的得分和排名会有些波动。3. 新增Qwen-7B-Chat、Mengzi、openbuddy-llama2-13b、Chinese-Alpaca-2-13B,同时根据模型综合能力、更新节奏等因素去掉了部分模型(如MOSS)。4. Baichuan-13B-Chat模型于8月1日在Huggingface上更新,为了区分7月评测的Baichuan-13B-Chat的版本,本次评测用Baichuan-13B-Chat(V2)命名,具体解释权交由模型官方。5. 由于文心一言和360智脑的网页版限制,OPT选择题的评测是调用ERNIE-3.5-Turbo、360GPT_S2_V9.4。因为版本可能的不一致导致分数波动,解释权交由模型官方。SuperCLUE发起的8月榜单反馈收集,收到了近千份的反馈,主要集中在一些共性的疑问,本文特此回复。
用户提问:模型的评测方法不够透明,不知道具体是怎么评测的。
答复:上文已经列出模型的评测方法、我们的思考、能力定义、人工与自动化一致性验证,更具体的信息可查阅技术报告https://arxiv.org/abs/2307.15020用户提问:是否有公布大模型的超参数(如temperature、top_p)设置的计划?
答复:9月SuperCLUE评测准备已经开启,9月榜单会附上ModelCard包括详细的模型调用信息。包括但不限于超参数,如:模型名称、序列长度、系统prompt设置、调用待评估模型的推理代码。用户提问:评测数据集是否有开源计划?
答复:目前SuperCLUE为闭卷考试,减少模型训练过程中混入评测试题的可能。SuperCLUE会选择合适的时机开源历史评测数据。 用户提问:大模型对问题的回答具有随机性,同一问题多次回答可能出现一会回答正确和一会回答错误的情况,评测时是如何处理这种情况?
答复:就像调用其他成熟的开源或闭源模型一样,我们使用的都是官方的超参数和示例方法进行模型调用;通过使用足够数量的题目进行测试(目前使用3000规模的题目),可以大幅减少模型随机性带来的效果波动。用户提问:开放式问题的回答如何评估,从哪些方面进行评估?如果使用超级模型代替人工评估,如何确保超级模型评估的公正性和准确性,根据了解使用LLM评估时,LLM可能会倾向于冗长的回答。
答复:开放式问题的评估我们采用与代表性模型进行对战进行,使用超级模型作为评审官的形式进行。如GPT-4作为公认的最好模型,具有较强的综合能力。国外的相关研究(斯坦福大学、加州伯克利大学)表明,可以实现与人工高度的一致性(85%-95%)。针对一些明确答案的问题,我们通过改进prompt设置,可以忽略回答长度带来的影响;另外一个准确、全面、具体详细、中立客观的回答,通常也会被人认为是一个好的答案。用户提问:百川从7月的9位提到8月的1位,为什么变动会这么大?
答复:主要原因是8月我们将OPEN开放主观题榜单和OPT选择题榜单合并成了总榜单,之前是分开公布。另外,可以看到,Baichuan-13B-Chat是在7月份的OPT榜单中第9位;Baichuan-13B-Chat由于版本更新成V2之后在8月份的OPT榜单中位列第4位。8月份的总排行榜为OPEN主观题+OPT选择题,总分Baichuan-13B-Chat(V2)位列第一。用户提问:为什么ChatGLM-130B落后于ChatGLM2-6B,不符合直觉啊。 答复:ChatGLM2-6B为二代GLM模型,ChatGLM-130B为一代模型,模型代际差别中架构、不同的数据、训练方法可能会造成效果的巨大差异,参数量只是其中的一个因素;用户提问:360之前排名第一,现在排名为什么下降这么多?首先,之前测的只是OPT选择题,8月总排行榜是OPT选择题+OPEN开放主观题,SuperCLUE认为,需要全面衡量大模型的能力,选择题可以有,但更需要开放主观题的测试;其次,本次评测由于360智脑网页端的限制无法进行高效评测,改由360GPT_S2_V9.4的API调用形式,版本是否一致可看官方公告;最后,中文大模型竞争激烈,8月新推出和升级的模型较多。用户提问:每次发布的榜单模型不一样,一些老模型应该仍然保持在列表上,都不够全。
答复:部分模型由于综合效果、用户使用和关注度情况、版本更新频率等多方面考量,在8月评测中暂时去掉了。用户提问:Baichuan-13B-Chat(v2)是个哪个模型,没有找到V2版。
答复:Baichuan-13B-Chat模型于8月1日在Huggingface上更新,为了区分7月评测的Baichuan-13B-Chat的版本,本次评测用Baichuan-13B-Chat(V2)命名,具体解释权交由模型官方。用户提问:注意到新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》和你们的榜单之间存在明显的评价差异,能否解释其中的原因?答复:首先,我们认可新华社研究院中国企业发展研究中心的研究,他们的报告确实包含了多维度的测评,并且得出了许多有价值的结论。然而,我们的评价体系和他们的存在一些重要的差异,这也是造成评价结果差异的原因。测试维度差异:我们的测试维度与新华社研究中心的不完全相同。虽然我们都关注逻辑推理、生成创作、语言、对话、常识等方面,但我们的重点可能不同。此外,我们对各维度的权重分配也有自己的考量,这也是人为设定的。测试方法差异:对于开放主观题,新华社研究中心提供的是绝对分数,而我们则计算与代表性模型的胜率。这种方法的不同也可能会导致评价结果的差异。测试自动化与人工评测:为了尽可能降低人为主观因素的影响,我们采用自动化测试。而新华社研究中心在主观题测评中使用的是人工评测。这两种方法在评价结果上可能存在一定差异。另外,我们注意到新华社研究中心的测评中,各个模型的总体差异非常少,一般都在93-100之间(100分制)。这可能是由于他们并没有对标国际代表性的模型,因此看不到与先进模型的差距;他们也没有包括代表性的开源模型的测试;我们的测试题目多达3337题,相比他们使用的500道题,更能全面深入地评价模型的性能;总结,虽然我们的评价结果与新华社研究中心的存在差异,但这种差异主要源于我们的评价维度、方法和标准的不同。同时,我们欣赏并认可他们的研究工作,我们均致力于推动人工智能领域的发展。2. 继续加油,增加题目量和题目类型,中国需要权威的中立评测机构。SuperCLUE感谢开发者的宝贵意见和建议,有任何关于SuperCLUE大模型评测相关的疑问和建议,可关注下午CLUE官方公众号与我们联系。