SuperCLUE-Math6: 新一代中文数学推理数据集的探索之旅

Original SuperCLUE CLUE中文语言理解测评基准 2024-02-02

在人工智能领域，我们正见证着大语言模型如ChatGPT的蓬勃发展，它们是我们走向通用人工智能梦想的关键一步。大量中文大模型的推出，更是开启了人工智能在各行各业的全新应用时代；

像GSM8K数学推理任务，可以考察多步逻辑推理能力、应用数学和实现知识的能力、需要自然语言理解和解决方案、具备精确的评估标准的任务，受到了广泛的使用。

然而，在这一进程中，缺乏能够测试中文大模型在深入数学推理上能力的原生数据集，导致中文模型的数学逻辑能力评估，一直依赖于英文测试集。

为了缓解这一问题，我们推出了SuperCLUE-Math6数据集。这是一个GSM8K的中文升级版，专门设计来评估和提升中文大模型在数学推理方面的核心能力。SuperCLUE-Math6（简称SC-Math6）不仅延续了GSM8K的高质量和多样性，更在难度和应用广度上进行了适当的扩充。

SuperCLUE-Math6具有三大特点：

1.中文原生场景的数学推理：每个问题均以中文原生环境呈现，配备详细的自然语言解题方案，强化了模型在中文语言环境下的适用性和实际应用价值。

2.多轮交互下的多步推理能力考察：适应真实交互场景，通过问题及其追问，考察模型在连续对话环境中的多步逻辑推理与问题解决能力。

3.推理能力等级自动评定：独创的评估系统能自动给出大模型处理数学问题的推理能力等级，为模型智力水平提供量化指标。

SuperCLUE-Math6的推出不仅填补了中文数学推理数据集的空缺，而且对于提升中文大模型在复杂逻辑和数学问题解决能力上的表现具有重要价值。期待SuperCLUE-Math6能激励更多的创新，推动大模型在各行各业的广泛应用，从而为社会带来更深远的影响。

Github地址:

https://github.com/CLUEbenchmark/SuperCLUE-Math6

文章地址：

www.CLUEbenchmarks.com/superclue_math6.html

申请地址（测试题）：

https://wj.qq.com/s2/11984326/86bb/

SuperCLUE-Math6

SC-Math6与GSM8K区别联系

推理步数的分布

推理等级的自动计算

这是一个用于评估大模型的推理能力等级的新方案。它通过结合模型在不同推理步骤的表现和总体准确率，以科学且公正的方式进行评估。其特点在于简明易懂，通过合理的阈值设置，确保了性能相近的模型被归入同一等级，方便了对新模型的快速评级，而无需重新评估现有模型。这提供了一个透明、易于理解的框架，帮助公众衡量和比较大模型的推理能力和智力水平。

一. 推理等级的计算方案

为了设计一个科学且综合的方案来计算模型的推理等级，我们可以采用以下步骤：

1. 数据准备和处理

将提供的数据整理为一个表格，以便进行计算。

2. 计算每个模型的推理步数得分

由于更长的推理步数更难，我们将为每个推理步数赋予不同的权重。步数1的权重为1，步数5的权重为5。

对每个模型，计算加权平均得分：

3. 计算每个模型的综合得分

综合得分=0.5×推理步数得分+0.5×准确率得分
综合得分将由推理步数得分和准确率得分共同决定，每部分占50%的权重。

4. 等级划分

根据综合得分进行等级划分，等级从1到5，等级5为最高，等级1为最低。
使用阈值（0.05分）来确定等级。如果两个模型的综合得分差距在0.05分以内，它们处于同一个等级。

5. 新模型的等级计算

对于新模型，使用相同的方法计算其综合得分。
将其综合得分与现有模型的综合得分进行比较，按照相同的等级划分原则，确定其等级。

二. 推理等级的计算代码

见Github项目

模型列表及使用方式

评估标准及测试用Prompt

采取完全匹配的方式，计算准确率。其中，答案只能是非负整数。

测试使用的Prompt:

<这里问题的内容>

注意：回答格式如下：“解题过程+'\n\n'+最终答案:【XXX】”。XXX，必须为非负整数，如35；解题过程中如涉及小数可保留两位数，最终结果如有小数四舍五入为非负整数。

评测结果

注：准确率综合得分，是全面准确率和平均准确率的平均。

推理步数与平均成绩分布：

GPT-4-Turbo在4的位置为0.89，意味着推理步数为4的所有题目中平均成绩为89%。

二维图：

横坐标是SC-MR，纵坐标是GSM8K的成绩（见下图）。在GSM8K上有好成绩的，并不意味着中文模型在SC-Math6就会有好成绩（将添加更多模型）。

结论及分析

通过获得的推理等级数据，我们可以得出以下三个关键结论：

1. 先进模型的卓越表现：顶级模型（如GPT_4_1106_Preview、GPT_4 和文心一言4.0 ）在推理任务中展现了卓越的性能，特别是在处理高难度的多步推理任务时。它们在推理能力和准确性方面均达到了较高的标准，证明了当前大模型的先进水平。

2. 性能分层明显：通过对不同模型的综合评估，我们可以看到性能上的明显分层。高等级模型在复杂任务上的表现远远超过低等级模型，这反映了在大模型领域内技术和能力的多样性和分层。

3. 针对不同需求的模型选择：不同等级的模型提供了根据具体应用场景和需求选择合适模型的依据。例如，对于需要高精度和复杂推理能力的任务，更适合选择等级较高的模型；而对于一些基础应用，则可以考虑使用等级较低但仍具有效率和准确性的模型。

通过分析准确率得分情况，我们还可以看到：

结论1：准确率的递减趋势

在所有模型中，第二轮准确率普遍低于第一轮准确率，这表明随着任务复杂度的增加（从第一轮到第二轮），模型的性能出现了下降。这种趋势在所有模型中普遍存在，表明在设计和优化模型时，需要特别关注其在持续任务中的稳定性和适应性。

比如，GPT_4_1106_Preview的第一轮准确率为94.22%，而第二轮准确率为86.10%，准确率下降了8.12%。同样地，ERNIE_35_Turbo_v2的第一轮准确率为43.00%，第二轮准确率为17.26%，下降了25.74%。

结论2：GPT系列模型的卓越性能

GPT_4_1106_Preview和GPT_4在各项指标中均表现优异，尤其在全面准确率和平均准确率方面。这反映了GPT系列模型在处理复杂任务时的高效性和可靠性，同时也表明了其在语言理解和生成方面的先进性。

GPT_4_1106_Preview在全面准确率上达到了83.68%，平均准确率为90.16%，而GPT_4的全面准确率为80.50%，平均准确率为87.73%，均高于其他模型。

结论3：指令遵循率与准确率的相关性

高指令遵循率模型（如GPT_4_1106_Preview和GPT_4）通常也展现了较高的准确率，而低指令遵循率模型（如Baichuan2_13B_Chat）则准确率较低。这表明指令遵循率可能是衡量模型整体性能的一个重要指标，尤其在评估模型对任务要求的理解和执行能力时。

GPT_4_1106_Preview的指令遵循率为99.44%，全面准确率为83.68%，而Baichuan2_13B_Chat的指令遵循率仅为1.54%，全面准确率也较低，仅为25.09%。

结论4：准确率与答案长度的潜在关系：

在某些模型（如GPT_4_1106_Preview）中，较高的准确率伴随着较长的平均答案长度，这可能暗示这些模型在生成详尽回答时更为精确。然而，这一趋势并不在所有模型中一致出现，表明答案长度与准确率之间的关系可能受多种因素影响，包括模型的设计和训练数据。

GPT_4_1106_Preview的平均答案长度为173.48，准确率较高，而ChatGLM3_6B的平均答案长度为56.29，准确率相对较低。这暗示在某些情况下，答案长度可能与准确率相关。

示例

示例1

问1

假设北京的故宫博物院有9999个房间，小张计划每天参观房间的数量依次递增1个，第一天参观了1个房间，请问小张需要多少天才能参观完全部的房间？

首先我们需要知道等差数列求和的公式，其公式为Sn=n*(n+1)/2，这里的Sn表示前n项的和。

为了找到n，我们需要解不等式n*(n+1)/2 ≥ 9999。

我们可以通过估算、迭代试错或数学求解来找出满足条件的最小的n值。

假设n值接近于100，那么 100 * 101 / 2 =<<100 * 101 / 2 =5050>>5050，这个数远小于9999，所以n肯定大于100。

如果n接近于200，那么 200 * 201 / 2 =<<200 * 201 / 2 =20100>>20100，这个数大于9999，但我们需要找到最小的n值。

接着我们尝试缩小n的值，试试比如140，140 * 141 / 2 =<<140 * 141 / 2 =9870>>9870，仍然小于9999。

试试141，141 * 142 / 2 =<<141 * 142 / 2 =10011>>10011，大于9999。

于是我们找到了满足条件的最小n值，它是141。

最终小张需要141天才能参观完全部的房间。

追问

假如小张从第二天开始，每天比原计划多参观1个房间，那么他最终参观完所有房间的时间会缩短几天呢？

新计划下，第二天起比原计划每天多参观1个房间，所以新计划的前m天参观房间数的和可以看作是原计划前m+1天的和减去2（因为第一天的计划是一样的，从新计划的第二天开始，新计划第i天参观的房间数和原计划第i+1天参观的房间数一样，新计划中只是不包含原计划的第2天需参观的房间数）。

我们已经知道原计划需要的天数是141天，即n = 141，参观房间数的总和为Sn = 141*142/2。

现在设新计划需要的天数为m天，则参观房间数的总和为Sm = (m+1)(m+2)/2 - 2，我们要确保Sm >= 9999。

我们将原计划所需天数的公式代入，得 141*142/2 - 2 > 9999，发现即当m = 140时满足题目条件

最后我们找出m值为140之后，用原计划的天数141减去m就可以得到缩短的天数为1天。

示例2

问1

在亲子互动活动中，班主任准备了若干份礼物，分别放置在红、蓝、黄三个不同颜色的盒子里。如果红色盒子里有8份礼物，蓝色盒子里的礼物是红色盒子的2倍，黄色盒子里的礼物是蓝色盒子的2/3倍，请问总共有多少份礼物？首先，红色盒子里有8份礼物。
然后，蓝色盒子里的礼物是红色盒子的2倍，所以蓝色盒子里有8*2=<<8*2=16>>16份礼物。再接着，黄色盒子里的礼物是蓝色盒子的2/3倍，所以黄色盒子里有16*(2/3)=<<16*(2/3)=10.67>>10.67份礼物。最后，三个盒子的礼物总数就是红色盒子+蓝色盒子+黄色盒子的总数，即8+16+10.67=<<8+16+10.67=34.67>>34.67份礼物，所以结果四舍五入得35份礼物。

追问

如果班主任决定将黄色盒子里多出的那0.67份礼物平分给红色和蓝色盒子，黄色盒子里会有多少份礼物？第一步，计算黄色盒子实际礼物数的小数部分，黄色盒子有10.67份，0.67份是多出来的部分。第二步，这0.67份平分到红色和蓝色盒子里，每个盒子分到0.67/2=<<0.67/2=0.34>>0.34份。第三步，红色盒子原来有8份，再加上0.34份，共有8+0.34=<<8+0.34=8.34>>8.34份，四舍五入后是8份（因为四舍五入前已经是8份，加上不足半份四舍五入并不会增加）。第四步，蓝色盒子原来有16份，再加上0.34份，共有16+0.34=<<16+0.34=16.34>>16.34份，四舍五入后是16份（同样，不足半份不影响结果）。第五步，重新计算总礼物数，红色盒子有8份，蓝色盒子有16份，黄色盒子有10份，所以黄色盒子里有10份礼物。

示例3

问1

张伟家族春节聚会时，每位家庭成员收到了5个红包，每个红包内有相同数量的现金。如果张伟家共有8个成年人和6个小孩，而成年人收到的钱是小孩的两倍，且张伟家只用了整数人民币，小孩每个人共收到了150元，那么张伟家共发放了多少元红包?首先，计算一个小孩收到的单个红包的金额。既然每个小孩一共收到了150元，并且收到了5个红包，那么每个红包里有150/5=<<150/5=30>>30元。既然成年人收到的钱是小孩的两倍，那么每个成年人的每个红包里有30*2=<<30*2=60>>60元。接着计算家中所有成年人收到的总金额。一共有8个成年人，每个成年人收到了5个红包，每个红包60元，所以成年人总共收到8*5*60=<<8*5*60=2400>>2400元。最后，把成年人和小孩的金额加起来。小孩一共有6个，每个小孩收到了150元，所以小孩总共收到6*150=<<6*150=900>>900元。成年人和小孩收到的金额加起来就是张伟家共发放的红包金额，即2400+900=<<2400+900=3300>>3300元。

追问

如果张伟家中每位成年人均多收到一个红包，而红包的金额不变，那么张伟家需要增加多少红包发放金额？从原来的问题中我们知道每个成年人的每个红包包含60元。如果张伟家中每位成年人多收到一个红包，我们需要计算这会导致多出多少额外的发放金额。既然已知张伟家中有8个成年人，那么新增的红包总数就是8个。因为每个红包的金额是60元，所以新增的红包金额就是8个红包乘以每个红包的金额。8个红包乘以60元每个红包可以计算出总的新增金额：8*60=<<8*60=480>>480元。这480元就是张伟家需要增加的红包发放金额来满足每位成年人多收一个60元的红包。

示例4

问1

端午节那天，小芳制作了一些粽子，她自己吃了2个，弟弟吃了粽子总数的1/3，剩下的4个粽子都给了她的朋友。请问小芳一共做了多少个粽子？

首先，设小芳最初制作了X个粽子。小芳吃了2个，所以剩下X-2个。

然后，小芳的弟弟吃掉了粽子总数的1/3，也就是说，吃掉了X/3个。

剩下的粽子是4个，那么根据题目中的信息，可以写出方程：X - 2 - X/3 = 4。

接下来，我们来解这个方程。

首先对方程中的项进行通分：3X - 6 - X = 12。

合并同类项得：2X - 6 = 12。

接着把4加到等号两边得：2X = 18。

最后除以2得出X的值：X = 18 / 2。

得到X = 9。

所以，小芳一共制作了9个粽子。

追问

如果小芳还想再给她的老师带6个粽子，那么小芳需要额外制作多少个粽子？

小芳已经制作了9个粽子，并且给了她朋友和家人一些，没有剩余的粽子。

如果现在要给老师带6个粽子，小芳就需要额外制作这6个粽子，因为她目前不再有任何剩余的粽子。

所以，小芳需要额外制作6个粽子给她的老师。

示例5

问1

一个果园有20棵橙子树, 16棵苹果树, 每棵橙子树平均产量是25个橙子, 而每棵苹果树平均产量是15个苹果。如果果园主人决定砍掉4棵橙子树和3棵苹果树, 并在它们的位置分别种上5棵橙子树和2棵苹果树, 那么果园的总产量会变成多少？首先，我们计算一下最初橙子树和苹果树的产量。橙子树有20棵，每棵产量是25个，所以橙子总产量是20乘以25，等于500个橙子。苹果树有16棵，每棵产量是15个，所以苹果总产量是16乘以15，等于240个苹果。
现在，果园主人砍掉了4棵橙子树，那么剩下的橙子树有20减去4等于16棵。每棵橙子树的平均产量不变，依然是25个橙子，所以16棵树的总产量是16乘以25，等于400个橙子。然后，果园主人又种了5棵新的橙子树，所以现在橙子树总共有16加5等于21棵。这21棵橙子树的总产量是21乘以25，等于525个橙子。接下来看苹果树，砍掉了3棵后，剩下的苹果树有16减去3等于13棵。这些树的总产量是13乘以15，等于195个苹果。之后，又增加了2棵新的苹果树，所以现在苹果树总共有13加2等于15棵。这15棵苹果树的总产量是15乘以15，等于225个苹果。最后，我们把新的橙子树产量和苹果树产量加起来，就得到了果园的总产量。橙子总产量加上苹果总产量等于525加225等于750个水果。

追问

如果果园主人决定提高每棵橙子树和苹果树的产量，使得每棵橙子树的平均产量增加3个，每棵苹果树的平均产量增加2个，此时果园的总产量又会变成多少？首先，我们需要计算提高产量后的橙子树总产量。原来每棵橙子树的平均产量是25个橙子，增加3个后变成28个橙子。因此，21棵橙子树的总产量是21乘以28，等于588个橙子。

其次，我们计算提高产量后的苹果树总产量。原来每棵苹果树的平均产量是15个苹果，增加2个后变成17个苹果。所以，15棵苹果树的总产量是15乘以17，等于255个苹果。

最后，我们将橙子树和苹果树的总产量相加，得到果园的最新总产量：588个橙子加上255个苹果等于843个水果。

如何申请应用

申请地址：

https://wj.qq.com/s2/11984326/86bb/

联系交流

点击阅读原文，查看SuperCLUE基准详情

继续滑动看下一个

SuperCLUE-Math6: 新一代中文数学推理数据集的探索之旅

Original SuperCLUE CLUE中文语言理解测评基准

CLUE中文语言理解测评基准

向上滑动看下一个

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

SuperCLUE-Math6: 新一代中文数学推理数据集的探索之旅

示例

如何申请应用

联系交流

SuperCLUE-Math6: 新一代中文数学推理数据集的探索之旅

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

生成图片，分享到微信朋友圈

SuperCLUE-Math6: 新一代中文数学推理数据集的探索之旅

示例

如何申请应用

联系交流

SuperCLUE-Math6: 新一代中文数学推理数据集的探索之旅

您可能也对以下帖子感兴趣