查看原文
其他

ChatGPT解答小学数学竞赛真题:全军覆没,获益匪浅

howie serious 小能熊科学学习 2023-11-07

熊友分享了塞浦路斯的数学竞赛选拔试题,给五年级小学生的,两页,只有4道题,分为6小题。

我觉得是拿来测试ChatGPT的好材料。GPT做完后,我跟小树说这些题ChatGPT都做错了,你要不要试一试。

娃很开心地上当了🤣。于是有了这篇文章,与你分享。

第1题 面积

题目1a) 三角形面积

Problem 1 a) The lines (e) and (z) are parallel, with the points A and B lie on the line (z), and points C, D, and E lie on the line (e). Compare the areas of the triangles ACB, ADB, or AEB. Fully justify your answer.

线(e)和线(z)是平行的,点A和B位于线(z)上,点C、D和E位于线(e)上。比较三角形ACB、ADB或AEB的面积。请充分证明你的答案。

结果

很简单的题目,ChatGPT做错了(结论对了,论证过程出错)。

但是,我给出提示之后,ChatGPT就做对了。

儿童没做。因为三年级还没学过三角形的面积公式。她知道三角形公式,但明显没有掌握到能理解这道题的程度🤣

原因

这道题涉及到逻辑推理和图形识别,这是ChatGPT的弱项;后面几题都有图形识别,ChatGPT的表现都比较差。

这些测试,在GPT-4V模型之前都无法测试。现在看来,OpenAI在图形识别上还需要努力啊。

思考

应试模式的学习是更“简单”的:路线清晰,内容范围有限,结果可预期;例如,在这道题中,把定义、定理给背下来,多做过几道题,就一定会做。

小树是接触过三角形知识的,在绘本上、课外书里,甚至自学khan academy的数学时我怀疑她也是学过的。但是,这道题并不会做。我觉得不是啥问题。因为课外的丰富模式的学习,和校内的偏应试的学习,不是谁取代谁,或许更应该是相互补充相互完善的关系。

题目1b) 周长、边长与面积

b) A garden consists of equal squares as shown in the diagram. If the perimeter of the garden is 144 cm, calculate its area. Fully justify your answer.

b) 一个花园由如图所示的等大的正方形组成。如果花园的周长是144厘米,计算其面积。充分证明你的答案。

结果

ChatGPT做错:思路清晰,但结果错误(图形识别)。

儿童做错:思路清晰,但结果错误(计算)。

正确答案是396。

原因

ChatGPT目前无法进行有效的图形识别,尤其是小图形组合成的复杂图形。

例如,本题中,ChatGPT“数不出”有多少条边,数不出有多少个小正方形。所以,这种简单的题目,也注定做不对。看看GPT的解题过程,数数这块,都要把人气笑了🤣

目前的GPT-4V是多模态模型,本身支持图像识别。但是,OCR文本识别相对容易,准确率高(图片中的文字题干),而图形识别目前困难重重,准确率很差(题目中的图形)。

思考

图形识别,并且数出图形的个数,对儿童来说是很容易做到的事情,ChatGPT目前做不到;

对比之下,儿童容易在计算上犯错(又数又算,又乘又除,错了一步结果就错),而ChatGPT则不会犯错;

如何让儿童在计算上少犯错? 我的理解是目前学校的训练量不足,而小树最近的课外数学自学中缺乏计算练习(这学期目前主要做了一本problem solving的练习题)。我们愉快地约定以后每天做一点数学计算练习。家长只要规划练习任务,孩子自己完成,做完后我检查➕聊天即可。

第2题 数字猜谜

题目2a) 数字算式

Problem 2 a) In the following alphameric, all different letters stand for different digits from 0 to 9 inclusive. Find the four-digit number PEEL. Fully justify your answer.

问题2 a) 在以下的字母数,所有不同的字母代表从0到9的不同的数字。找到四位数 PEEL。完全证明你的答案。

结果

ChatGPT做错,无论如何提示都做不对。

儿童直接放弃,表示没思路;成年人给出提示后,仍然无法正确解出这道题。

正确答案是1009。

原因

很有趣的一道题,ChatGPT和儿童都做不对,但是对成年人来说就很简单。因为这个题考察的是逻辑推理,这是ChatGPT和儿童的弱项

此外,ChatGPT做不少这道题的另一个原因是题目本身的算式很难展示;人类有草稿纸,而ChatGPT并没有一个数字手写板可以使用,脱离工具,100%全部用语言来进行,推理难度要高很多

如下图所示,ChatGPT对于加法算式,只能用markdown来模拟,还总是对不齐。怎么能算对呢?

思考

为什么ChatGPT不会做这个题,这是很好解释的。而为什么孩子不会做这个题,对很多成年人却解释不清楚。新媒体上不断爆出辅导孩子写作业把妈妈气到ICU,把爸爸气到砸墙砸坏自己的手。

是的,你很难让一个成年人理解孩子为什么ta觉得很简单的事情对于一个孩子很难。因为这个成年人往往不理解也不想理解孩子的认知特点、孩子大脑的发育规律,不想去获取为人父母所需要的一些基础知识(或者上网编段子获得一些点赞)……只会选择匹夫之怒,以头抢地🤣。

根据皮亚杰的认知发展阶段理论,形式逻辑推理是十几岁孩子才有的。当然,皮亚杰的孩子肯定是学渣,十几岁才发展出形式逻辑推理,这太晚了。放在教培招生时会被分到弱智班级的🤣。但是,这个理论确确实实在提醒家长:逻辑推理是较成熟的大脑才有的功能。而儿童的前额叶功能发育不完善。

在儿童时期,多学点非形式推理的知识,例如语言,博物知识,事实性知识……在孩子成长的过程中,知识积累越来越多,大脑本身也越来越成熟,两个因素共同作用,抽象思考就越来越轻松……

对小学生来说,逻辑推理一定是比较难的任务。以本题为例,知识点极其简单,只有加法;但是推理过程对孩子来说不容易,而成年人总是忘了这一点,或者看不到这一点。国内的教培把成年人觉得很简单的逻辑推理加到孩子身上,实际上是不尊重儿童的认知发展规律,就是典型的拔苗助长。拔苗助长的后果是什么,大家心理都是有数的。

这道题小树不会做,我给她几次提示也做不出来,我觉得没什么。可能上数学培训班的孩子会做。then what?🤣

焦虑和痛苦,往往来自横向攀比。

而横向攀比的另一个名称,叫庸人自扰。

父母们需要持续提升自身境界,减少庸人自扰。你看这道题,我估计海淀区上地下教培的孩子一年级就会做,我们三年级都没思路,then what?🤣

题目2b) 数字排列

b) Place all the digits from 1 to 9 inclusive in the squares of the following diagram, so that the sum both horizontally and vertically is equal to 27. Fully justify your answer.

b) 将从1到9的所有数字放入下图的方格中,使得水平和垂直的和都等于27。全面地证明你的答案。

结果

在英文prompt下,GPT一下就发现了关键点(所谓题眼?),算出了中心位置一定是数字9;

但是结果算错了。在中文prompt下,中心位置的数字计算错误;

后续步骤,不论中文还是英文,全部做错。我测试后发现,原来是ChatGPT分不清这些数字和图形的对应位置(🤣估计是受限于token机制);

例如,即使我这么提示,ta也始终无法处理数字排列的形状与对应关系。

儿童做对了,但用的是试错(try and error)的方法。我跟她说你运气真好,咱们再用逻辑推理的方式解一下……

原因

工具问题:GPT的思考和人的思考,都需要工具。辅助智能生物思考的工具,叫tools for thinking。这也是为何小能熊一直强调要善用利器,用最好的工具来增强人类的智能。

对于这道题,ChatGPT做题的一大限制就是工具,ta没有草稿纸🤣,也没法像人类那样在草稿纸上随意涂写。

当然,ChatGPT在工具使用上也有优势:例如,Python、搜索这类高级工具对于ChatGPT是毫不费力的,但人类要使用高级工具(例如Python,figma,Photoshop,视频剪辑工具)都是有学习门槛的,以至于不少人无法驾驭复杂工具;

此外,这道题因为token原理层面的限制,注定做错。在第4题时我才发现这个原因。

思考

notation:儿童在做题时,解题思想(notion)重要,但解题过程以及笔记(notation)也很重要。数学题的信息繁杂,需要提炼有效信息,并且用直观、简洁的方式体现出来。小学生被教导要写规整、整齐、整洁的解题过程,但是往往没有训练过写出有效的解题过程,这个习惯是要慢慢培养的。

notation,和notion一样重要。这也是我经常给小树重复的话。做数学题目时,写推理演算过程的草稿纸,也是一种思维工具(tools for thinking)。脱离这种工具,只靠心算,或者在嘴巴里重复,思考稍微复杂的题目都会更费力。

最好的例子就是让孩子用纸笔方式来解中等难度以上的Sudoku题目。做一次,这个道理就昭然若揭。具体来讲,解sodoku这样的题目,知识点极少(就那么几种解题方法,几张卡片就记住了),但是,如果你不掌握一个清晰的notation方法,几乎不可能解出有难度的sodoku题目。举一反三,解答数学问题,notation也很重要。

第3题 糖纸换糖

Problem 3

A shop sells candies where every 3 candy wrappers can be exchanged for one more candy. Andreas has enough money to buy only 37 candies. What is the largest number of candies that he can get from the shop if he exchanges all the wrappers he has?

问题3

一家商店销售糖果,其中每3个糖果包装可以换取一颗更多的糖果。安德烈亚斯只有足够的钱购买37颗糖果。如果他兑换所有的糖果包装,那么他从商店可以得到的糖果的最大数量是多少?

结果

实际结果是55。

未使用思维链方式时,ChatGPT做错,不论用中文还是英文prompt。

但是给了提示之后(可以跟老板赊1颗糖,吃完后再把糖纸还给老板),ChatGPT就做对了。

但是,如果使用思维链方式,ChatGPT可以一次做对。按理说,思维链方式只是让解题思路更清晰,令人意外的是:当解题思路清晰后,ChatGPT竟然就想到了本来想不到的方法(2个糖纸+赊账1颗糖,还3张糖纸)。

可以说,相当神奇。

儿童做错了:和ChatGPT一样,解题步骤清晰,最后得到54颗糖和2张糖纸,没想到赊账的方法🤣。

原因

前面1-2题ChatGPT做错,都是因为有目前无法克服的障碍(图形识别,带视觉元素的数学题如何表征。这些问题因为目前ChatGPT的多模态技术不成熟所以受限制)。3-4题不存在图形问题,纯语言描述,ChatGPT的表现就不错了;

和儿童一样,ChatGPT在非思维链模式下想不到那个“巧”方法(跟老板赊一颗糖);但是你可以给ChatGPT一个提示;

或者,你只要跟ChatGPT说,let's think step by step,它就能神奇地想到“赊账”这个方法🤣。不论是中文还是英文,思维链同样有效。

另外,从另一个角度来思考:本质上是2张糖纸换一颗糖,37/2=18余1,37+18=55;所以,答案是55;或许这种思维方式(多个解题思路交叉验证,一种元认知的视角)可以用prompt或其他方式来实现。但目前还不行,沿着新思路推理时,ChatGPT又扑街了🤣。

思考

思维链(CoT,Chain of Thoughts) 很重要,不论是对GPT还是对人类。对于GPT,启动思维链很简单,一句话就可以:let's think step by step。

本题中的赊账方法,不重要;教培机构喜欢教这些解题套路技巧,但实际上,问题从来都不在于解题套路和技巧,而在于思考的方法。

思维链之于GPT,如同解题四步法之于人类学生。“解题四步法”是大数学家在《如何解题》中提出的解题元方法(理解问题-提出方案-计算-验证迭代),本质上就是科学方法(Scientific method,观察并提出问题-研究并提出假设-实验并收集数据-分析数据验证假设-迭代假设)。解题四步法和科学方法,本质上就是思维链,think step by step. 思路清晰

解题时的提出方案环节、科学研究中的提出假设环节,这些是基于知识的,是特殊的,是套路和技巧无法穷尽的。而这一套思维链的方法,是不变的,是通用的。

我更喜欢称之为“解题闭环”,反正每次小树做完数学题,我和她讨论这些有趣的数学题时都是这个routine:来,我们解题的第一步是什么来着……第二步是什么来着……

所以,解题四步法也好,解题闭环也好,解题元技能也好,这都不同于题海战术,而是在神经网络中fine-tune;最终把一套解题的元技能内化于心(变成这个神经网络的一套稳固的参数🤣);

和小树聊这道题时,我继续强调了notation(解题标记)的重要性。思路清晰,要体现在notation标注到位,试卷上解题标记清晰。标记的过程,就是思考的过程。这个道理,遇到一次错题我就给她强调一遍。

具体在这道题中,买糖1轮,换糖4轮,每轮得到几颗糖?剩下几张糖纸?看起来很简单(对于大人很简单,对于孩子不是这样的),但实际上notation的简洁清晰,对于思路的清晰是非常重要的。

另外,还可以借着这道题强调思考问题的角度。相对于跟老板赊账的那个“技巧”,反而是对题目文本的理解(题目说3张糖纸换一颗糖,本质上是两张糖纸换一颗不带糖纸的糖)。想到这一点,做题也不会错。或者用传统方法做错了,用这个方法一定能检查出来。

第4题 数字序列中的模式

Problem 4 How many digits are there before the fifteenth 7 of the following sequence of numbers? Fully justify your answer.

37337333733337333337...

问题 4 在以下数字序列的第十五个7之前有多少位数?请给出完整的解释。37337333733337333337...

结果

正确答案是134。

无论如何,ChatGPT都弄不对这一题;

例如,我指出了OCR识别的错误(案例说OCR技术很稳定,不该犯错。但是ChatGPT的OCR功能,识别数字序列出错了,而且基本一定会出错。这是bug级别的存在),而且强调了字符串的模式。而且让ChatGPT用思维链方式解题,而且用的是英语……这样都做错,那就是真的没办法了🤣

儿童也做错了:思路对,解题过程也清晰,但是计算过程出错,多算了2个数字。这道题我也做错了,我看错了题目🤣

原因

GPT模型的分词方法:ChatGPT做这个题目目前注定做错,原因就是分词方法。题目中的数字序列,在ChatGPT眼中和我们人类眼中是完全不同的。

在ChatGPT看来,第一个7前面没有3;因为token是LLM处理信息的最小单位,而373是一个token。我发现了这一点,和ChatGPT分享了这个发现,然后ta还嘴硬:

如图可见,根据GPT的分词机制,3个数字算1个token。

token这个概念是理解ChatGPT运行原理的一个必要知识点,会影响很多任务的执行。例如,如果你让ChatGPT倒写单词,GPT是无法做到的。这也是token机制决定的。

虽然ChatGPT嘴硬,宣布对数字序列的分词处理不影响自己“准确地进行数学问题的解答”,但是,转头ta就说第1个7前面有0个3🤣

不过,GPT-3.5做计算非常差,但GPT-4的计算能力很强,大数字相加都不会出问题。那么,问题来了:1234+4321这样的大数字计算,GPT-4是怎么做对的?这个问题以后或许我们能找到答案。

思考

这个道的关键是数字序列的模式识别(pattern)。人类毫不费力可以看出规律,只要思路清晰,基础知识点掌握清晰,就不可能做错。

想起小谭同学之前开玩笑说的话:这套题属于 “繁而不难”的那一类 ……(实际上对我们普通人来讲是繁而且难🤣)。学霸之所以说繁而不难,就是因为知识点掌握清晰,概念规则和原理了然于胸,思路也很清晰,但是确实涉及到海量计算和复杂的计算过程,所以“繁而不难”。但是,对于不具备那些知识积累或者基础掌握不够扎实的人来说,那就一定会做错,甚至会觉得很难。

例如,小树同学做错这道题,一个是题目的细节(没注意到before),一个是解题过程的移步出错,结果多算了两个数字。

粗心问题,细节出错,题目读错,我都会归结为基础还没扎实,练习不够。因为题目也理解,方法和思路也会,唯独总是出错。没关系,多练习即可。

这道题我也做错了🤣。我也是读题没注意细节,想当然以为是计算数字3的数量,算出了120。

对于ChatGPT,ta的解题思路和知识点掌握都没问题,目前的问题是出在字符串模式识别上,出在token机制上。这一类问题,估计OpenAI要好好处理一下了。

最后的话

这几道题不难,而且有趣。所以,如果你当下没有时间或情绪仔细看,可以下载试题PDF,打印后回去自己做一下,或者跟孩子一起做,然后一起讨论。

这几个题也可以作为使用ChatGPT的一些实例,你可以用ChatGPT来解一下这些题,实际体验一下。GPT类工具是重要的工具,以后会越来越重要。我建议一天能用100下就别用95下,一个月能花200就别花150。只有在实战中,结合思考和主题研究,人类才能真正理解和驾驭这个利器。探索的过程,在过程中积累的经验,这很重要。

所以,对于数学题也好,对于ChatGPT也好,具体的知识点和技巧其实不重要,关键在于思考的过程。如费曼所说,诺贝尔奖不重要,重要的是发现的过程。这个愉悦的探索过程,就是对我们最好的奖赏。


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存