【AI认知心理学实验】满篇错字 ChatGPT 还能看懂吗？

Original ElfeXu 南瓜博士 2023-03-31

收录于合集 #ChatGPT 9个

很多人都见过这段话吧：

这是认知心理学中关于单词和阅读的一个经典发现，叫做 typoglycemia。

我心生好奇：对 GPT 来说，满是 typo 的英文句子，它能像人一样不受影响正常读懂吗？

咱们来试一试。

我找了个错字连篇的英文版本喂给 chatgpt。它读懂了，告诉我“部分同意”，还 blabla 说了一大堆理由。

再换中文问它（我懒得自己编，为了节约点语料给后面用，就只复制了英文版本的第一句话），它还是读懂了，但竟然说不同意。

换个方法来问，它还是能读懂，但也还是坚持认为句子的意思很重要。

最后一句话。这回它竟然赞同了，而且说得比英文原文更清楚明白。（还补充说“研究表明”，你哪里看来的研究啊！）

这时我才意识到光拿第一句话问它属于断章取义。整段连起来它赞同，光取第一句话它依旧不认可。

为了进一步验证，我生造了一句全是错别字的问题，问它橙色和蓝色哪个感觉更暖和。它完全忽略拼写错误，读懂了问题，并认真给我讲解了颜色冷暖的知识。

Typoglycemia 现象的关键要素在于单词虽然拼写错误，但首尾字符是对的。我尝试着让首尾字符错误（但别的位置的字母正确的更多一些）。你猜怎么着？ChatGPT 像人类一样抓瞎了！直到最后一次尝试，只有少数词瞎拼，它才明白了一半。

换其它语言的首尾字符正确的版本尝试，先不管它的观点是啥，至少除了冰岛语，其它它都读懂了。

本次实验结论：对于满是拼写错误的句子，ChatGPT 表现出了和人类相似的认知能力。人类能懂的它也能懂，人看不懂的它也不懂。

神奇。心理学书上说，人类这个表现是因为我们有一定的知觉广度，重点关注外周线索，并会自动对内侧的信息进行加工。可是，ChatGPT 为啥也是这样？难道它也像人一样会挑重点？

简单了解了下，Bert/GPT 等在训练英文等语言的时候最小单位不是单词，而是 BPE。Byte-Pair Encoding, 可以理解为词缀（不是语言学家整理的词缀，而是自动训练得到的）。莫非，首尾字母错，破坏词缀的可能性更大？

这样训练出来的结果和人类大脑有类似的认知表现，真是挺有趣的。

————————

你对这个实验有啥想法？你还想对 ChatGPT 做什么实验？说来听听吧

————————

题图：Midjourney 帮我画的读报机器人。这样的机器人，大概只能和旧报纸一样，去古董店才能见到了吧。