ChatGPT竟做不出小学数学题?!3 大「反常识」研究结果令人意外
大家好,我是Serena。
在 AI 每天都突飞猛进的当下,有一部分人工智能领域的专家、学者也发起了一项有趣挑战:
通过训练AI,拿到奥数最高峰——也就是国际数学奥林匹克竞赛(IMO)的金牌。
■ 挑战发起人都是机器学习领域最顶尖的人,还专门设立了一个网站:
https://imo-grand-challenge.github.io/
要知道,能拿到 IMO 的学生都代表着这一代学生里最聪明的数学大脑,也是通往数学诺贝尔奖「菲尔茨奖」的阶梯。
国外热心网友大多数认为「AI可以在2028年拿到IMO金牌」,然而挑战的发起人之一、来自开发了 ChatGPT 的OpenAI团队的Daniel Selsam谨慎地表示:
「按照现在的技术,这个挑战在当下是不可能实现的」。
文章开始前,独家谷雨小会重磅来了!先跟大家预告下:
下周三,谷雨星球邀请了研究了数学12 年、学而思培优校区小学负责人、摩比思维上海分校校长、学而思教学产品负责人的星辰老师,独家做客谷雨小会,针对4-9 年级家长,聊聊——
数学分水岭的小学高年级、初中如何做,才是真正学「好」数学?以案例分析数学卡壳一般卡在什么地方?又要如何针对下药?
外面听不到的真心话,只在谷雨。小会每次只招 20 人,文末扫码抢位。
■研究发现,ChatGPT可以很好地解释数学概念,却难以做对需要层层证明的奥数题
美国亚利桑那州立大学的副教授Shakarian,刚刚在2023年1月初用1000个数学问题对ChatGPT进行了测试,结果发现准确率只有60%,低于一般中学生的准确率。
另外,牛津大学机器学习研究员Simon Frieder,曾在一项研究中让ChatGPT做了一系列数学任务,包括简单的计算、数学证明题、搜索数学文献和奥数题。
结果也发现,ChatGPT在大多数任务上表现为「不及格」(相信它会很快提高)。
在需要多层逻辑推导的题目上,表现尤为糟糕(原因在于,它是一种AI语言模型,目标在于处理和理解人类的语言,更擅长生成类似人类的对话,而不是为了成为完美的数学计算器)。
■问:如果一根香蕉重 0.5 磅,而我有 7 磅香蕉和9个橙子,我总共有多少个水果? 机器人快速回复:你有 16 个水果、7 个香蕉和 9 个橙子。然而正确答案应该是:有23个水果
最具迷惑性的是,哪怕ChatGPT做错数学题,也会非常「迷之自信」地给出看起来权威的错误答案。
美国德克萨斯大学教授保罗·冯·希佩尔,从事数据科学和统计学研究,他曾用毕达哥拉斯原理考验了ChatGPT,就得到了看似正确、实则错得一塌糊涂的答案。
「它可以生成大量使用几何术语的文本,但它根本不知道自己在说什么」。
是的,目前版本的ChatGPT可以从表面上谈论数学,但从没真正深入地「理解」数学的基础知识。
人工智能,就像计算器和计算机一样,最终可能对那些已经非常了解某个领域的人最有用:他们知道要问的问题,如何找出缺点,以及如何检验答案。
换句话说,这是一种工具,只适用于那些最懂数学的人,而不是最不了解数学的人。
第二个反常识
AI 时代先别急着学STEM
低龄阶段的 STEM旨在培养动手能力和兴趣,玩得开心最重要。
进入中学阶段,学生是否拥有从具体到抽象化的能力,才能理解更高阶的数学、物理知识,才是学好 STEM 的底层逻辑。
比如在STEM教育中,学生学习编程解决问题,这些问题有逻辑型问题、顺序型问题、算法型问题,而其中最难的算法型问题,就需要先把问题抽象成数学问题,然后用编程求解,学生的数学抽象化能力决定了其高度。
可以说,抽象化思维,才撬动STEM里创造性思维的「有力杠杆」。
来看一名美国的AI研究员Jason Dsouza给出的一张「人工智能数学能力图谱」(下滑查看):
*感兴趣的朋友可以进入网站细看:https://github.com/jasmcaus/ai-math-roadmap
所以,AI时代的底层制胜能力,还得从数学中获得。
在 AI 时代,孩子熟练记忆和掌握数学的能力仍至关重要。
谷雨认识的一位老师在自己公众号Education Froontier写得非常详细👉AI时代就不用背乘法表了?哥大最新新研究:记忆是早期数学教育的关键。
有孩子被要求背诵九九乘法表和常用的加法组合在于将来接触多位数算术、分数和长除法的时候,能迅速调取知识,提高运算速度和正确率。
对于这种「熟练记忆数学知识」,目前的争论是:AI时代什么都能以0.1秒的速度搜索到,还有必要背诵吗?
而美国《教育周刊》最近的一篇文章给出了答案:他们确实需要。
在认知科学中,数学事实熟练度之所以重要,最基本原因是它能释放大脑或工作记忆的能力,从而进行更复杂的数学工作。
例如理解如何构建多步骤的文字问题、建立解决方案模型或解决方程组问题。如果基本的算术都难倒了学生,他们就很难去应对这些复杂的问题。
此外,能够自动回忆数学事实对于乘法尤为重要:如果学生没有将乘法口诀表存储在长期记忆中,他们在乘法运算中就没有足够快速的备用策略来依赖,学生进行乘法运算的速度和效率将受到影响。
对此,哥伦比亚大学教育学院的心理学和教育学教授罗伯特·西格勒(Robert Siegler)表示:
「当你不知道6x8的结果,而你正在做一个包含乘法的代数问题时,你需要花时间和注意力去连续加8六次。而且,随着数学问题变得越来越复杂,你不能无限期地重新计算这些。」
研究还发现,这些事实的熟练程度与后期学习的进步有关;尤其是乘法与分数的学习成功密切相关,而分数恰恰是许多年轻学生常常困惑的地方。
十分有意思的是,像乘法口诀,以及关于钱币、时间、距离等单位的换算,如果熟练地背诵下来,小学生都可以很好地完成相关题目,而AI却可能做不到。
纽约大学教授戴维斯,曾经让AI做了一道题:
乔治有七便士、一角硬币和四分之三硬币。哈丽特有四个便士和四个25美分硬币。首先,乔治原封不动地给了哈丽特三十一美分;然后哈丽特正好把一半的便士还给了他。乔治现在有多少钱?
它可以作为一个强大的数学搜索引擎,可以帮助孩子对陌生的数学概念、事实性知识有快速初步的理解,对于高年级需要在数学上往前自学的孩子,特别有用。
至于AI不擅长的计算、推演和将具象信息转化为抽象符号,就需要孩子们放弃「用AI代劳」的想法,踏踏实实通过训练来提升。
有了这些基础,才可能架构出从具体到抽象的能力。就算未来不从事 AI 领域,这种能力也构成了浓缩概括的逻辑思辨能力的根基。
#重磅谷雨小会
独家招募开启,社群读者优先