SuperCLUE-Math6: 新一代中文数学推理数据集的探索之旅
在人工智能领域,我们正见证着大语言模型如ChatGPT的蓬勃发展,它们是我们走向通用人工智能梦想的关键一步。大量中文大模型的推出,更是开启了人工智能在各行各业的全新应用时代;
像GSM8K数学推理任务,可以考察多步逻辑推理能力、应用数学和实现知识的能力、需要自然语言理解和解决方案、具备精确的评估标准的任务,受到了广泛的使用。
然而,在这一进程中,缺乏能够测试中文大模型在深入数学推理上能力的原生数据集,导致中文模型的数学逻辑能力评估,一直依赖于英文测试集。
申请地址(测试题) :
https://wj.qq.com/s2/11984326/86bb/
SuperCLUE-Math6
SC-Math6与GSM8K区别联系
推理步数的分布
推理等级的自动计算
这是一个用于评估大模型的推理能力等级的新方案。它通过结合模型在不同推理步骤的表现和总体准确率,以科学且公正的方式进行评估。其特点在于简明易懂,通过合理的阈值设置,确保了性能相近的模型被归入同一等级,方便了对新模型的快速评级,而无需重新评估现有模型。这提供了一个透明、易于理解的框架,帮助公众衡量和比较大模型的推理能力和智力水平。
3. 计算每个模型的综合得分
综合得分=0.5×推理步数得分+0.5×准确率得分 综合得分将由推理步数得分和准确率得分共同决定,每部分占50%的权重。
4. 等级划分
根据综合得分进行等级划分,等级从1到5,等级5为最高,等级1为最低。 使用阈值(0.05分)来确定等级。如果两个模型的综合得分差距在0.05分以内,它们处于同一个等级。
5. 新模型的等级计算
对于新模型,使用相同的方法计算其综合得分。 将其综合得分与现有模型的综合得分进行比较,按照相同的等级划分原则,确定其等级。
采取完全匹配的方式,计算准确率。 其中,答案只能是非负整数。
测试使用的Prompt:
<这里问题的内容>
评测结果
推理步数与平均成绩分布:
GPT-4-Turbo在4的位置为0.89,意味着推理步数为4的所有题目中平均成绩为89%。
二维图:
横坐标是SC-MR,纵坐标是GSM8K的成绩(见下图)。在GSM8K上有好成绩的,并不意味着中文模型在SC-Math6就会有好成绩(将添加更多模型)。
结论及分析
示例
示例1
问1
假设北京的故宫博物院有9999个房间,小张计划每天参观房间的数量依次递增1个,第一天参观了1个房间,请问小张需要多少天才能参观完全部的房间?首先我们需要知道等差数列求和的公式,其公式为Sn=n*(n+1)/2,这里的Sn表示前n项的和。
为了找到n,我们需要解不等式n*(n+1)/2 ≥ 9999。
我们可以通过估算、迭代试错或数学求解来找出满足条件的最小的n值。
假设n值接近于100,那么 100 * 101 / 2 =<<100 * 101 / 2 =5050>>5050,这个数远小于9999,所以n肯定大于100。
如果n接近于200,那么 200 * 201 / 2 =<<200 * 201 / 2 =20100>>20100,这个数大于9999,但我们需要找到最小的n值。
接着我们尝试缩小n的值,试试比如140,140 * 141 / 2 =<<140 * 141 / 2 =9870>>9870,仍然小于9999。
试试141,141 * 142 / 2 =<<141 * 142 / 2 =10011>>10011,大于9999。
于是我们找到了满足条件的最小n值,它是141。
最终小张需要141天才能参观完全部的房间。
追问
假如小张从第二天开始,每天比原计划多参观1个房间,那么他最终参观完所有房间的时间会缩短几天呢?新计划下,第二天起比原计划每天多参观1个房间,所以新计划的前m天参观房间数的和可以看作是原计划前m+1天的和减去2(因为第一天的计划是一样的,从新计划的第二天开始,新计划第i天参观的房间数和原计划第i+1天参观的房间数一样,新计划中只是不包含原计划的第2天需参观的房间数)。
我们已经知道原计划需要的天数是141天,即n = 141,参观房间数的总和为Sn = 141*142/2。
现在设新计划需要的天数为m天,则参观房间数的总和为Sm = (m+1)(m+2)/2 - 2,我们要确保Sm >= 9999。
我们将原计划所需天数的公式代入,得 141*142/2 - 2 > 9999,发现即当m = 140时满足题目条件
最后我们找出m值为140之后,用原计划的天数141减去m就可以得到缩短的天数为1天。
示例2
问1
在亲子互动活动中,班主任准备了若干份礼物,分别放置在红、蓝、黄三个不同颜色的盒子里。如果红色盒子里有8份礼物,蓝色盒子里的礼物是红色盒子的2倍,黄色盒子里的礼物是蓝色盒子的2/3倍,请问总共有多少份礼物?首先,红色盒子里有8份礼物。然后,蓝色盒子里的礼物是红色盒子的2倍,所以蓝色盒子里有8*2=<<8*2=16>>16份礼物。再接着,黄色盒子里的礼物是蓝色盒子的2/3倍,所以黄色盒子里有16*(2/3)=<<16*(2/3)=10.67>>10.67份礼物。最后,三个盒子的礼物总数就是红色盒子+蓝色盒子+黄色盒子的总数,即8+16+10.67=<<8+16+10.67=34.67>>34.67份礼物,所以结果四舍五入得35份礼物。
追问
如果班主任决定将黄色盒子里多出的那0.67份礼物平分给红色和蓝色盒子,黄色盒子里会有多少份礼物?第一步,计算黄色盒子实际礼物数的小数部分,黄色盒子有10.67份,0.67份是多出来的部分。第二步,这0.67份平分到红色和蓝色盒子里,每个盒子分到0.67/2=<<0.67/2=0.34>>0.34份。第三步,红色盒子原来有8份,再加上0.34份,共有8+0.34=<<8+0.34=8.34>>8.34份,四舍五入后是8份(因为四舍五入前已经是8份,加上不足半份四舍五入并不会增加)。第四步,蓝色盒子原来有16份,再加上0.34份,共有16+0.34=<<16+0.34=16.34>>16.34份,四舍五入后是16份(同样,不足半份不影响结果)。第五步,重新计算总礼物数,红色盒子有8份,蓝色盒子有16份,黄色盒子有10份,所以黄色盒子里有10份礼物。示例3
问1
张伟家族春节聚会时,每位家庭成员收到了5个红包,每个红包内有相同数量的现金。如果张伟家共有8个成年人和6个小孩,而成年人收到的钱是小孩的两倍,且张伟家只用了整数人民币,小孩每个人共收到了150元,那么张伟家共发放了多少元红包?首先,计算一个小孩收到的单个红包的金额。既然每个小孩一共收到了150元,并且收到了5个红包,那么每个红包里有150/5=<<150/5=30>>30元。既然成年人收到的钱是小孩的两倍,那么每个成年人的每个红包里有30*2=<<30*2=60>>60元。接着计算家中所有成年人收到的总金额。一共有8个成年人,每个成年人收到了5个红包,每个红包60元,所以成年人总共收到8*5*60=<<8*5*60=2400>>2400元。最后,把成年人和小孩的金额加起来。小孩一共有6个,每个小孩收到了150元,所以小孩总共收到6*150=<<6*150=900>>900元。成年人和小孩收到的金额加起来就是张伟家共发放的红包金额,即2400+900=<<2400+900=3300>>3300元。追问
如果张伟家中每位成年人均多收到一个红包,而红包的金额不变,那么张伟家需要增加多少红包发放金额?从原来的问题中我们知道每个成年人的每个红包包含60元。如果张伟家中每位成年人多收到一个红包,我们需要计算这会导致多出多少额外的发放金额。既然已知张伟家中有8个成年人,那么新增的红包总数就是8个。因为每个红包的金额是60元,所以新增的红包金额就是8个红包乘以每个红包的金额。8个红包乘以60元每个红包可以计算出总的新增金额:8*60=<<8*60=480>>480元。这480元就是张伟家需要增加的红包发放金额来满足每位成年人多收一个60元的红包。示例4
问1
端午节那天,小芳制作了一些粽子,她自己吃了2个,弟弟吃了粽子总数的1/3,剩下的4个粽子都给了她的朋友。请问小芳一共做了多少个粽子?首先,设小芳最初制作了X个粽子。小芳吃了2个,所以剩下X-2个。
然后,小芳的弟弟吃掉了粽子总数的1/3,也就是说,吃掉了X/3个。
剩下的粽子是4个,那么根据题目中的信息,可以写出方程:X - 2 - X/3 = 4。
接下来,我们来解这个方程。
首先对方程中的项进行通分:3X - 6 - X = 12。
合并同类项得:2X - 6 = 12。
接着把4加到等号两边得:2X = 18。
最后除以2得出X的值:X = 18 / 2。
得到X = 9。
所以,小芳一共制作了9个粽子。
追问
如果小芳还想再给她的老师带6个粽子,那么小芳需要额外制作多少个粽子?
小芳已经制作了9个粽子,并且给了她朋友和家人一些,没有剩余的粽子。
如果现在要给老师带6个粽子,小芳就需要额外制作这6个粽子,因为她目前不再有任何剩余的粽子。
所以,小芳需要额外制作6个粽子给她的老师。
示例5
问1
一个果园有20棵橙子树, 16棵苹果树, 每棵橙子树平均产量是25个橙子, 而每棵苹果树平均产量是15个苹果。如果果园主人决定砍掉4棵橙子树和3棵苹果树, 并在它们的位置分别种上5棵橙子树和2棵苹果树, 那么果园的总产量会变成多少?首先,我们计算一下最初橙子树和苹果树的产量。橙子树有20棵,每棵产量是25个,所以橙子总产量是20乘以25,等于500个橙子。苹果树有16棵,每棵产量是15个,所以苹果总产量是16乘以15,等于240个苹果。现在,果园主人砍掉了4棵橙子树,那么剩下的橙子树有20减去4等于16棵。每棵橙子树的平均产量不变,依然是25个橙子,所以16棵树的总产量是16乘以25,等于400个橙子。然后,果园主人又种了5棵新的橙子树,所以现在橙子树总共有16加5等于21棵。这21棵橙子树的总产量是21乘以25,等于525个橙子。接下来看苹果树,砍掉了3棵后,剩下的苹果树有16减去3等于13棵。这些树的总产量是13乘以15,等于195个苹果。之后,又增加了2棵新的苹果树,所以现在苹果树总共有13加2等于15棵。这15棵苹果树的总产量是15乘以15,等于225个苹果。最后,我们把新的橙子树产量和苹果树产量加起来,就得到了果园的总产量。橙子总产量加上苹果总产量等于525加225等于750个水果。
追问
如果果园主人决定提高每棵橙子树和苹果树的产量,使得每棵橙子树的平均产量增加3个,每棵苹果树的平均产量增加2个,此时果园的总产量又会变成多少?首先,我们需要计算提高产量后的橙子树总产量。原来每棵橙子树的平均产量是25个橙子,增加3个后变成28个橙子。因此,21棵橙子树的总产量是21乘以28,等于588个橙子。其次,我们计算提高产量后的苹果树总产量。原来每棵苹果树的平均产量是15个苹果,增加2个后变成17个苹果。所以,15棵苹果树的总产量是15乘以17,等于255个苹果。
最后,我们将橙子树和苹果树的总产量相加,得到果园的最新总产量:588个橙子加上255个苹果等于843个水果。
如何申请应用
申请地址 :
https://wj.qq.com/s2/11984326/86bb/