GPT的3个边界
昨天晚上问了小树一个问题:你觉得 GPT 知道 biangbiang 面吗?
小树说,应该知道吧。
我说,大概率是不知道的。不信我们现在试试。
现场测试了一下主流的几个大模型,结果很有趣。然后我又跟她聊了为什么(早期的)GPT 不知道dinosaur 这样的单词里面有几个字母,为什么(早期的)GPT 无法倒写单词,为什么(早期的)GPT 不会基础的算术。
恰好昨天我自己也做了几项相关的测试,思考了与GPT、人类知识、理解、学习能力有关的几个问题。于是有了这篇文章,跟大家分享一下。
知识边界:GPT,你知道biangbiang面吗?
几乎所有中国人都是知道biangbiang 面的。而大语言模型学习了“几乎全部的”人类知识,它们难道连这都不知道?
测试结果
GPT-4:0分,完全不知道
Google:100分,太知道了
Google 的 biangbiang 面知识完全碾压人类。毕竟,我们大概率只是吃过这个面,“知道”这个东西的名字,但是,真要费曼的话,是说不出三多二少的。
Claude:0 分,完全不知道
文心一言:10 分,基本不知道
文心一言要好过GPT 和 Claude,猜测这可能是一种地方性面食,但终归还是不知道。
启发:关于GPT的知识边界
通过这个测试,我们可以聊一聊知识边界的问题。什么知识值得学?
GPT的知识是有边界的
人类文字的历史是6000年。但是,直到有了互联网,人类知识才有了系统的知识管理方案。在人类知识管理系统的前提下,GPT 们才有学习几乎所有的人类知识的机会。
但是,任何一个大模型,它的知识都是有边界的,也就是它的训练数据集。
GPT-3的训练集规模有3000亿 token[^ Language Models are Few-Shot Learners],主要是Wikipedia、书籍、部分优质网页内容。作为商业机密,OpenAI 没有公布 GPT-4的训练数据集,但是规模应该是 10 倍以上。即使这样,这在整个人类产生的数据中也只是很小一部分。
GPT的知识边界是什么?
哪些知识点不在 GPT 的知识范围中?
首先是小语种。人类一共有7000 多种语言,但是,GPT 只支持 26 种语言。其中,英语作为全人类知识和思想交流的世界语言,它是 GPT的母语。而其他各种语言,虽然GPT 也会,但只是作为外语来使用。
其次是各种语言中的“生僻知识”。除了英语之外,各种语言在GPT 训练集中的占比不过几个百分点。中文在 GPT-3 的占比约 3%,在 GPT-4 中的占比应该更低。 这就是为什么 GPT 不知道 biangbiang 面。
所以,有很多知识,大语言模型都是“不会”的。例如,“回”字的四种写法。
文心一言不会。
GPT-4 也不会。
不会就是不会。GPT 的脑子里根本就没有这个“知识”,怎么提示都不会。
当然,有些生僻的“知识”,大部分人类都不会,但是,大模型们都会。例如“堡”字的三种读音。
正常人都知道“城堡”的 bao,但是,在北京的朝阳区,“十里堡”就不是十里bao,而是十里pu;在北京的丰台区,“马家堡”就不是马家 bao,也不是马家 pu,而是马家 bu。
对着这样的知识,人类陷入了沉默。
为什么文心一言这样的中文大模型不知道 biangbiang 面?
GPT 和 Claude 都不知道 biangbiang 面,我可以理解。
但是,文心一言的母语是中文,它不知道,Google Gemini 却知道。这是为什么呢?
相对于其他大模型,Gemini 的训练数据集更大。靠搜索引擎起家的 Google,使用更多的网页数据来训练大模型,这是合情合理的。所以,它知道 biangbiang 面,相当知道。
对于文心一言的不知道,我觉得有两种解释:解释1,文心一言使用的中文互联网的网页数据和书籍数据里面没有这个知识;解释2,百度的 token 处理方法有差异,没有覆盖到biang这个字符,它对应的unicode没有对应的 token 覆盖。
Biang字在计算机系统中有对应的 unicode 编码。但是大语言模型不是直接阅读文字的,而是得先把文字转换为token。这一步的处理方法,也会影响生僻知识的学习理解。
人类设计 Unicode 的目的是为了包含世界上所有的字符系统,以实现文本和符号在电脑上的统一表示。目前,Unicode 有超过14 万个字符,涵盖了150多种书写系统,包括字母、符号、表意文字、标点符号、数字等。
但是,人类日常使用的字符数量极少,中文常用字不过 8 千,英语常用单词不过几万,所以,大多数输入法不会支持输入所有的 unicode 字符。
这也是为什么你在微信输入法中打不出 biangbiang面。
打比方的话,GPT 是什么?
如果你向一个孩子介绍 GPT,在定义和功能之后,你想给她打个比方来说明“GPT 是什么”。打比方就得用具体的、生活中的事物,那么,如果从GPT的知识边界维度来选择,你会选择什么比方?
一年前,GPT-4 发布,我当时的比方:GPT-4 就像一个刚从斯坦福毕业的大学生。知识扎实,能力全面,随叫随到,就看你怎么用。
这个比方有问题:因为GPT 的知识边界远远大于任何大学生。于是,可以有第二个比方:人人都知道爱因斯坦。所以,可能把 GPT 比作爱因斯坦更合适。那么,GPT可以被视作你私人的爱因斯坦,住在你的手机里,随时供你支配。
但是,爱因斯坦也只是凡人。他的大脑也与常人无异,而且他也只是少数几个领域的专家。所以,这个比方可以继续改进:GPT 可以比作你私人的阿拉丁灯神🧞♂️。
你就是阿拉丁,ChatGPT app 就是你捡到的神灯。使用神灯,你可以随时召唤出灯神,他的超能力是掌握了几乎全部的人类知识(除非不太重要的)。
我对第三个比方比较满意,我认为“阿拉丁灯神”更好地把握了大语言模型的本质。我们就生活在一个神话般的时代,每个人现在都是阿拉丁,问题只不过在于每个人怎么使用灯神为自己服务而已。
理解能力边界:GPT如何理解一个新概念?
第二个例子有点“生猛”。
昨天早上读到“帅呆的”六神磊磊写的一篇文章《莫言其实一点没动,只不过是屎位上涨了》。这篇文章语言生猛,观点大胆,让人大受震撼。
大受震撼之余,我发现:作者提出了一个全新的概念“短屎频”。这个概念在昨天之前是不存在的。
在人类知识体系中不存在,在 GPT的训练集中也不可能存在。我确认了一下,除了这篇文章,“短屎频”这个概念没有被使用过。
虽然这个例子有点生猛,但是为了测试 GPT的理解能力,我们还是得捏着鼻子上。
测试方法
我设计的测试方法分三步:首先提供全文作为背景信息;其次设计一个阅读理解题目;最后,如果理解失败,则补充一个提示,让大模型二次回答。
第一步:阅读文章全文
第二步:回答阅读理解问题
第三步:如果理解失败,根据提示再次回答
测试结果
百度文心一言:80 分
以中文为母语的文心一言,在这个测试中表现最佳。理解精准:“短屎频”这个新概念,指的是用劣质信息影响舆论与公众判断的社交媒体内容和平台。
文心一言是唯一直接看出概念关联的大模型:“短屎频”与“短视频”的概念关联。
Claude:0 分->50 分
Claude 的第一次回答是 0 分:定义解释错误,不是“评判”。具体含义解释中的第 1、2 点属于典型的confabulation(一本正经地胡说八道)[^AI 的 hallucination,并非人类的“幻觉”,更准确的概念是心理学中的 confabulation 这个术语,妄语症,说自己并不理解的话],看起来头头是道,实际上胡说八道,0 分!
初中回答政治卷子上的主观题时,很多人不会背的时候也绝不留空,胡说八道一通,经常靠这个蒙混过关,然后竟然演变成了一种应试技巧。这种“技巧”,大语言模型也深谙其道。但是我们不能惯着大模型,直接 0 分。
给出提示之后的第二轮回答,50 分,还是没有理解这个新概念:短视频=片面认知,短屎频=肤浅的思维方式。这个回答仍然没有理解这个概念的本质针对的是社交媒体平台,反应了 Claude 大模型本身的理解能力有限。
GPT:0 分->90 分
严格打分,GPT-4 的第一轮回答是 0 分。概念描述是对的,但是分析是错误的:对“短屎频”中的“屎频”二字解释错误。
最大的问题:没有看出来“短屎频”与“短视频”这两个概念之间的关联。看不出这一点,没有在新概念和已有概念之间建立关联,就是 0 分。
提示之后的第二轮回答直接提升到 90~100 分的水平,GPT 的分析是大部分人做不到的,也精准理解了新概念。一点就通,这是 GPT-4 认知能力强大的表现。 对比之下,很多人类学习者做不到“一点就通”,“举一反三”,本质上就是基础认知能力不足。
Google Gemini:-100 分
Google Gemini 在安全政策上如同惊弓之鸟,对于没问题的内容也拒绝回答。
对比之下,GPT-4 一开始认为文章里的“生猛语言”违反了使用政策。但是给系统反馈(这是误判),可以正常使用不受影响。
Gemini 的这种拒绝回答现象非常普遍,严重到影响日常使用,可以认为是认知能力低下的一种表现。
启发:关于GPT的理解能力
这个生猛案例,核心在于大模型对新概念的理解。
GPT们,有理解能力吗?
第一个问题,是GPT发布以来一直争论的问题。别争了。
从这个实例中可以看到,训练集中不存在的新知识,人类知识体系中不存在的新知识,GPT们照样可以理解。
毫无疑问,人类都认为自己有理解能力。而且,很多人类认为自己独占理解能力,坚信机器的理解并非“理解”,认为GPT无法实现“人类的理解”。但是,你要问他“什么是理解”,“人类是如何理解的”,他又说不出个所以然。
我认同 hinton[^geffory hinton,ilya 的老师,图灵奖得主,深度学习 3 巨头之一] 的观点, GPT生成的内容,并非有些人[^主要是统计学家、部分认知科学家、语言学家]以为的仅仅是概率统计规律支配下的自动文字补全(auto complete),并非他们认为的没有理解的“随机鹦鹉”(stochastic parrot)。
GPT们的理解,和人类的理解,真的有差异吗?
关于人类理解的科学理论,目前主要有两种:结构主义理论(structuralist theory)和特征理论(feature theory)。
在结构主义理论中,一个词语的意义取决于它的上下文、相关词汇。符号 AI 学派持有这种观点。
在特征理论中,一个词语的意义是它的一系列特征(features)。例如,狗这个词的含义包括这些特征:它是动物,有四条腿,会叫……
而GPT的理解方法,是这两种理论的综合。GPT用包含上千特征的数字向量,从文本中提取语言中的意义,然后通过万亿 token 的文本数据学习,掌握了这些文本中的语法和语义知识。最早的 AI 模型只有几个特征,而GPT-3 的特征向量已经包含了 1536 个维度。而人类从语言中提取的特征,远远达不到,很多人只能提取知识的表面特征,看不到知识的深层特征。
GPT基于特征的理解,来自对人脑的模仿。人脑的神经网络就是分层级的特征检测器。
人的视觉皮层有 6 层。举个例子,看到一只猫,最表层的大脑皮层识别的是猫的宽泛的大的特征,更深的皮层识别的更细致的特征。逐层深入,最终提取出丰富的特征,然后识别出:这是猫。GPT 效法了人脑的特征提取,只不过它的特征提取是上千维度,所识别的特征是更精细更微妙的特征。
为什么人类学习者在阅读课文之后提炼中心思想总是很困难?为什么阅读的时候,每个字都是认识,连在一起就不认识了?
因为他在特征提取,在特征互动,建立特征的关联这一块,缺乏训练。
对比之下,为什么即使是全新的文本,GPT 没见过的文本,GPT 也能生成高质量的回答?
因为GPT 的理解过程,虽然用的是人类无法直接看到的数学方式,但是,这种理解就是“理解”。这种理解,在原理上和人类一样,在效果上是人类无法企及的。理解的关键,在于脑子里的概念量,以及在概念之间建立关联的能力。GPT 的理解,和人类的理解没有差异,都是在概念之间建立关联。
结构主义理论加上特征理论,尤其是特征理论,这就构成了人类理解的最佳模型。这种理解已然在 GPT 中运行,以人类智能无法达到的方式。
GPT的理解能力,不但有,还很强
其实,除了这个案例之外,我经常遇到这种情况:你提出了一种现有语料中从未出现的观点,在知识之间建立了全新的关联。但是,GPT能针对这个话题与你展开卓有成效的对话。例如,中文互联网上谈到多巴胺的很多,但是没有一个弄清楚了基本概念,搞清楚多巴胺成瘾的本质。但是,你把你的新观念和 GPT 聊,就能形成有效对话。
Hinton认为,GPT 这样的聊天机器人有超越人类的理解能力:跨学科跨领域的模式识别能力。
因为GPT 的质量是人类的 1000 倍以上,GPT 的知识跨度是横跨人类的所有学科的。人类知识一共有 30 多个学科,在大学里划分为 400 个多专业。人类不可能让个人知识实现如此大的跨度。这种知识量的差异,让 GPT 有了强大的理解和模式识别能力。
OpenAI 的联合创始人 Greg Brockman 分享过他自己的案例:他的妻子得了很奇怪的 病,看了很多专家医生都没有确诊,直到最后有一个医生的知识面比较宽广,才碰巧确定了病因。在 GPT-4 出来之后,greg 把相关病情跟GPT 聊了一聊,结果GPT就给出了正确的诊断。
我们需要有益的人工智能的一个原因:
在过去的五年里,我的妻子的身体多个系统经历了痛苦(从人行道上一步踩下导致的脚部骨折、令人难以忍受的偏头痛、疲劳、关节疼痛和不稳定等),她最近被诊断出患有一种叫做高度可移动性艾勒斯-当洛综合征(hEDS)的遗传性疾病。
因为医疗系统是为单一专科设计的,而hEDS会影响她身体的每个系统(骨科、心脏病学、神经学、胃肠病学、皮肤科等),我们花了五年时间看了比她之前一生中还多的医生和专家。大多数医生只会关注与他们自己的专业相关的问题。我们很幸运,她的过敏科医生(!!)在观察和听取她所有症状和问题后将这些片段拼凑在一起。
随着人类医学的进步,我们似乎以牺牲广度为代价增加了医生的深度知识。我们需要更好的工具,能够同时向患者提供深度和广度的服务。这是如果建造得当,人工智能承诺的一部分——在你口袋里的可靠、个性化、负担得起的医疗保健,就像今天所有专业领域顶尖医生共同协作为你保健(而且你无需在他们之间传真表格)。
在技术上还有很长的路要走,在学习如何在医学等高风险领域与适当的专业人类监督一起有益地部署它方面也是如此,但是前景正变得越来越明朗。如果由技术开发人员、医疗服务提供商、政府和社会以深思熟虑的方式来接近,有希望为我们所有人的家庭成员(包括我们的非人类毛茸茸的家庭成员)提供更好的护理。
翻译:@gpt-4
个人知识的广度问题,可以通过GPT 等大模型得到很好的补充。
为什么在这个新概念的理解上,文心一言超过了GPT-4?
因为,GPT的理解和人类的理解一样,理解能力只能来自对已有知识的大量学习。
GPT-4失败了,文心一言成功了,原因是中文数据的占比差异。中文是文心一言的母语,是 GPT 的外语。数据量差异,导致了在这个中文新概念上的理解能力差异。
但是,GPT-4 本身的基础理解能力是非常强大的。在一句简单提示之后,理解力立刻达到 100 分。
GPT能理解人类知识体系中没有的新概念(“短屎频”),但是不理解人类知识体系中早就存在的旧概念(“biangbiang 面”)。这个现象该如何理解?
知识的价值,在于其关联。关联越多越丰富的知识,价值越大。例如,科学知识。而孤立的、与人类知识体系的关联越少,越边缘,越孤立。例如,“回”字的四种写法,这种知识与其他知识缺乏关联,在人类当中都被慢慢遗忘,大模型不学习这些知识,也是很自然的事情。
但是这里面隐含了一种知识传承上的危险:如果以后人类只通过 GPT 来获取知识,那么,很多类似 biangbiang 面这样的知识,就会被从人类知识体系中删除。
学习能力边界:大模型真能只靠学习5000 个句子就掌握一门语言吗?
第三个测试,是关于“学习能力”的。
大语言模型的学习能力如何?GPT们是“天才”吗?是“神童”吗?GPT真的能通过少量学习就变得很“聪明”吗?
最近,Claude3发布,并宣称在各种测试指标上全面碾压 GPT-4。很多人很激动,其中就包括一个语言学家。
语言学家@AnQu发现,Claude3只需要学习5000个翻译对(短语或句子),就能掌握一门语言!他测试的是车臣语,一种非常小众的高加索语言。
测试过程与结果
GPT-4是不支持这种语言的。而语言学家只是提供了几千个样例,Claude在学习之后就在翻译任务中取得了惊人表现:
有了很少量的数据,Claude就接近了我专门针对机器翻译训练的专业模型的表现。我简直无法相信自己的眼睛。
我进一步测试了来自文学、最新新闻文章甚至是不同车臣方言(语法和书写系统明显不同)的复杂段落,Claude始终表现出对语言结构的深入掌握,智能推断未知单词,恰当地使用外来词,给出合理的词源分析,保持原文翻译的风格,甚至在需要时创造新术语。这些都不在样本集中,只有几千个翻译对。车臣语是一种非常困难的语言,具有复杂的形态和语法。
完成这些任务需要对语言有深入的理解,同样的输入,一个对该语言不熟悉的语言学家要花上一年或更长时间才能实现。而Opus仅用不到一分钟就能轻松掌握这些微妙之处,只需几千个随机的翻译对。
source:@recatm
网友的解读
关于这件事,我发现一些解读很有趣。
有人认为这很“正常”:
有人无比悲观,觉得人类“学什么都是没有意义的”:
有人发现了背后的危机,可能导致部分人类文化的失落:
我当时的感觉是:尴尬。这个结论很奇怪,不符合语言和认知原理,肯定是哪里出了问题。
乌龙
后来发现,这是一个乌龙事件:研究方法有问题。Claude的训练数据集中是有车臣语数据的,Claude大模型并非完全没有车臣语的先验知识。
题外话:马斯克的媒体平台有“notes”这个机制,可以给原始信息补充。用这种简单机制就可以解决自媒体们瞎编乱造问题。我不理解为什么抖音微博等平台不“抄作业”。
启发:关于GPT的学习能力
这个案例的背后,是人类对学习、对智能本质的理解。
“学习”的神话
市面上充斥着关于“学习”的神话:“神童”、“天才”、“最强大脑”、“聪明绝顶”……
这些说法都明显违背关于语言和人类认知的基本原理,但是一直非常有市场,信徒甚多。从人类到LLM,他们的学习能力不断被神化。
即使 GPT的知识储备这么大,理解能力这么强,但是,它的学习能力也不可能是“天才”。学习能力不过是科学方法下、日积月累得到的一种结果,不存在“只用 5000 个句子就掌握一门语言”这样的神迹。
人类做不到,GPT 也做不到。神童论、天才论可以休矣。这非常暴露认知缺陷。
实话说,小树在英语上展现的成绩,不明真相的话,很多人会归因到天赋、智商等因素上。而在我看来,就是一个普通孩子,按照正确的方法,持续积累而已,没有任何超常的成分在里面。
智能的两种范式
这个问题的背后,是“智能的本质”:所谓智能,到底是什么?
有两种智能的范式:逻辑智能(logic-based) vs 基于知识学习的智能(leanring-based)。
在逻辑智能的信徒看来:智能的本质是逻辑推理。智能体使用逻辑规则来操作心理符号。他们经常使用的词汇是逻辑思维、认知、思维等大词。在这种范式下,知识的重要性,是远远不如逻辑推理、认知和思维的。
另一种智能范式,把知识和知识学习视作智能的本质。所谓智能,就是用神经网络对知识的学习过程,提取特征,建立关联,内化成神经网络中的万亿参数。知识和知识学习才是智能的关键,推理并不重要,在知识和学习之后,推理问题自然而然就能得到解决。
在这个本质问题上的分野,导致了人们在学习这件事上分道扬镳。前者相信最强大脑、逻辑思维、认知、格局、思维。后者只不过是学习知识,积累知识砖块,在知识砖块之间建立丰富而有意义的关联,然后,智能自然涌现。
毫无疑问,小能熊的学习理论,坚定地走在知识和学习的智能范式这条大路上。
学习的真谛,在于“预测下一个词”
GPT只做一件事:预测下一个词。
但是这背后,是学习的真谛:学习每个单词的一系列语义特征,学习这些特征如何互动,然后预测下一个词应该具备的特征,在此之上,“生成”下一个词。
这个过程,不是统计规律支配的概率生成,而是一种“理解”,触及了学习和智能的本质。
这个过程,在人类学习上表现为费曼:用自己的话说出来,“生成” 自己的知识表达。
费曼的过程,不只是一个“学习技巧”这么简单,而是说它浓缩了理解的本质,对智能的本质选择了知识与学习路线,对学习能力的养成选择了正确的路线。
人类学习的真谛,也在于“预测下一个词”,在于海量的费曼。
结语
今天这篇文章,来自我昨天做的几个小测试。我觉得很有趣,所以分享出来。
这3个测试,本质上回答的是“理解”问题:人是如何理解的,人是如何基于知识理解来学习的。以及关于智能本质、学习路线的大是大非问题。
这是大问题,是普遍争议、缺乏认识和共识的问题。大家阅读的时候免不了会有很多疑问,欢迎留言讨论。
希望本文对你有启发。谢谢。