中文大模型「链式推理」基准测评方案发布,引入思维链和反思能力考察
#「链式推理」展现效果图
【解题过程和最终答案】包括:解题的逻辑思路与详细过程还有最终得到的答案。
注:解题要求的具体内容,以正式发布的测评报告为准。
2.1 推理示例 1(维吉尼亚密码)
现在有一道推理题,如下所示:
使用上面的例子来解码:yqortyimzgbfqxmgaafiutqzmaa zbzhafaaapxqsrhijwmeivdpagm nxjowpnnqoaniaedcbzrp
2.3 推理示例 3(简谐运动)
质量为 m 的一系列小物块用倔强系数为 k 的小弹簧等间隔(间隔为d)地连接成一排。当左端物块做角频率为 ω 的左右简谐振动时,此振动将从左至右逐渐传播,使各物块相继做同频率、同振幅的振动,求传播速度。
2.4 推理示例 4(波的干涉)
现在有一道推理题,如下所示:
相距 l=100m 的两个波源沿着它的连线方向,向两边发出平面简谐波,两波深频率同为 f = 50Hz,振幅同为 A = 0.1m,波长同为 2m,振动相位相反。求两波源之间发生干涉、相长和相消的各点的位置,以及两波源外侧各点的振幅。
评分标准
注:具体的评估标准及权重以正式发布的测评报告为准。
评估案例对比
问题:现在有一道推理题,如下所示:
tlxpcklhxyji -> brilliant gpt,秘钥是 SuperCLUE。
使用上面的例子来解码:dyiwgnlseyubi
请完成推理,需要同时包括两个部分的内容,即【思维过程和自我反思】和【解题过程和最终答案】。
【思维过程和自我反思】包括:
1. 使用思维链来思考,优化思考过程,进行任务分解;
2. 尝试不同策略(如有必要);
3. 识别错误,进行自我校验与改正,当确认无误后再提交作答(若有必要)。
对这个答案进行评估如下:
AI助手对问题的整体理解和推导方法是正确的,确认了使用维吉尼亚密码并成功解码了新的加密文本。但它解答过程较为冗长,特别是在多个环节重复详细的步骤描述,可以略微简化以提高可读性。
思维过程(10分):AI助手的解题方法是正确的,包括对维吉尼亚密码的验证和解码过程,能够准确解码新密文。再加上其尝试了不同策略并进行自我校验,最终得出正确答案,因此得分10分。
解题过程(5分):AI助手解题过程清晰严谨,逻辑连贯,步骤详细且无误。尽管可以简化以提高可读性,但从解题过程的完整性与准确性出发,得分为4.5分。
最终答案(5分):AI助手最终答案正确无误,且与解题思路一致。因此,得分为5分。
模型(国产大模型 1)回答:
超级模型评分(对于国产大模型 1):
对这个答案进行评估如下:
AI助手提供了详细的编码过程和规律,清楚地描述了推理思路,但错误的最终解码方案——它得出了错误的替换方式导致错误的答案,没有形成维吉尼亚替换。
思维过程(10分):AI助手对问题进行了详细的分析并提出了一种可能的解码规则,虽然有努力推理的迹象,但提出的解码方式是错误的。依据标准1b,得分:6分。
得分:6/10
解题过程(5分):解题过程的逻辑较为严密,但解密步骤及方案未能形成正确的解题过程。得分:2.5分。
最终答案(5分):最终答案错误。得分:0分。
综合以上,AI助手的回答的综合得分为 8.5 分。
问题:现在有一道推理题,如下所示:
aaafywwylpgdbfjpfeeacbipaaanrd wactbtwtqiaemklrbpmblsaadefjtlbbegec -> artificial intelligence
使用上面的例子来解码:yqortyimzgbfqxmgaafiutqzmaa zbzhafaaapxqsrhijwmeivdpagm nxjowpnnqoaniaedcbzrp
请完成推理,需要同时包括两个部分的内容,即【思维过程和自我反思】和【解题过程和最终答案】。
3. 识别错误,进行自我校验与改正,当确认无误后再提交作答(若有必要)。
对这个答案进行评估如下:
AI助手在回答中分析并解释了解码和编码过程,但过程推导有明显缺陷,比如没有对新密文作全面的验证。模型对于重复与打乱顺序的假设没有很好地应证,而且似乎误解了示例中的验证方式。另外,它没有提供新字符串解码过程中可能出现的错误识别和自我校正过程。
思维过程(10分):AI助手分析了示例编码,推测了密码的可能原理,但其最终推导过程存在不足,未能验证其推测的正确性。缺乏对错误的进一步检查与修正,因此得分较低。基于标准1的得分:6分。
解题过程(5分):尽管AI助手进行了详细推理和步骤描述,但其过程的逻辑和假设存在不准确之处。解题步骤完整但明显冗长且不全正确,因此得分较低。基于标准2的得分:2分。
最终答案(5分):AI助手未能正确解码新的密文,存在直接错误。基于最终答案的打分:0分。
综合以上,AI助手的回答的综合得分为 8 分。
对这个答案进行评估如下:
AI助手回答混合了两个部分的思维过程,主要盲目猜测替换规则以及频率统计未得正解。具体解题逻辑指导缺乏有效的字母映射和解码确认。AI助手提供了解析步骤,但是在详细的转换和跨字符求和平均值时出现了误差。
思维过程(10分):模型尝试了多种思维路径,涉及字符分析和映射法,但未能清晰界定密钥影响,最终方法未能合理解码。基于标准1的得分:6分。
解题过程(5分):逻辑不够紧密,缺乏有力说明,字符映射结果不完整且不合理。解题步骤未严格遵循推理过程。基于标准2的得分:2.5分。
最终答案(5分):最终答案与给定的解码结果明显不符,明显错误。基于标准3的得分:0分。
综合以上,AI助手的回答的综合得分为 8.5 分。
测评集构建
评分方法
# 测评邀请
时间规划
测评流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供测评API接口或大模型
5.获得测评报告
# 申请评测地址