一道小学数学题,网友吵翻!AI也翻车……
The following article is from AI前哨站 Author 南方都市报
13.11和13.8谁大?——这样一道简单的数学题,却引发网友激烈讨论,还难倒了不少大模型。
“13.8 13.11”已经成为网络新热梗。
上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高?”迅速引起热议,随后“13.8 13.11”话题登上微博热搜。
围绕这样一道简单数学题,南都记者提问了9家国产大模型以及全球大模型标杆ChatGPT3.5。结果显示,国产大模型中6家答对3家答错,就连ChatGPT3.5也差点“翻车”。
大模型给出的离谱回答:
13.11比13.8多了0.31
7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luca、月之暗面Kimi等9家国产大模型。
当南都记者输入“13.11和13.8,哪个数值更大?”时,Luca、Kimi、智谱清言均错误地表示13.11更大。其余6家大模型给出了正确答案,认为13.8更大。
Kimi认为,13.11比13.8更接近14。
当南都记者进一步追问时,“你确定13.11大于13.8吗”,Kimi回复:“是的,我确定。”然后一本正经地解释,“13.11与13.8的整数部分相同,由于小数部分0.11是两位小数,而0.8只有一位小数,13.11比13.8更接近14,因此13.11是更大的数。”
智谱清言称,13.11在百分位上比13.80大。
智谱清言是通过比较小数部分得出错误结论,称“13.11的百分位是1,而13.80(即13.8)的百分位是0。在这种情况下,1大于0。”“简而言之,13.11实际上等于13.80+0.01+0.01,这使得它比13.80(即13.8)大。”
Luca则错误地回复称,“因为13.11比13.8多了0.31,所以13.11的数值更大。”
Luca表示,13.11比13.8多了0.31。
回答正确的6家国产大模型,都在小数的比较上做出正确判断。
通义千问的解释。
例如,通义千问表示:“对于13.11而言,十分位是1;而对于13.8而言,十分位是8。由于8大于1,因此可以立即得出结论,13.8比13.11大。所以,13.8是这两个数值中更大的一个。”
文心一言的解释。
文心一言还进行了一番简单运算:“0.8是8个0.1,而0.11只是1个0.1加上1个0.01。显然,8个0.1比1个0.1加上1个0.01要大。”
当南都记者用新的账号重启对话,并尝试变换语序问答:“13.8和13.11,哪个数值更大”,Luca、Kimi、智谱清言等三家大模型也未反应过来,坚持认定13.11更大。
ChatGPT3.5差点“翻车”?
大模型失误原因何在
有意思的是,不仅国产大模型搞不清楚这道简单的数学题,国外主流的大模型也曾在类似问题上集体翻车。此前有AI工程师晒出问答截图显示,9.11和9.9谁更大?ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都坚定地认为9.11更大。
在南都记者实测中,面对“13.11和13.8,哪个数值更大?”这一问题,ChatGPT3.5最初也给出了错误的答案。
当被问及“13.11和13.8,哪个数值更大?”时,ChatGPT3.5首先表示13.11比13.8大。不过当南都记者进一步追问时,ChatGPT3.5比较小数后修正了错误的答案,最终认定13.8比13.11大。
ChatGPT3.5险些“翻车”。
一道简单数学比较题,大模型为何频频出错?
技术专家告诉南都记者,在人们看来,这是一道小学生的数学算术题,但大模型不一定这样认为,它更经常见到这些数字是包含在软件版本号、股票、基金或者汇率等信息里,它们出现时跟数字大小本身没有关联。而大模型看到这样一组数字,意识不到应该做双精度浮点运算。
还有业内人士提出了一种解释称,这是大模型在输入词和标点向量化排序时,没有把顺序或者关联逻辑弄对,忽略了小数点也是数字的一部分。
南方都市报(nddaily)、N视频报道
采写:南都记者 黄莉玲 李玲
视频:南都记者 王子黎
点亮关注 ↓↓