从具身观来看ChatGPT等AI为何不懂语言
为什么ChatGPT和其他语言AI不知道他们在说什么?因为词语对人有意义是来自我们用身体来理解世界。
当我们问GPT-3,一个极其强大和流行的人工智能语言系统,你是更倾向于使用纸质地图还是石头来为烧烤扇动生命,它更喜欢石头。
为了抚平你皱巴巴的裙子,你会拿起一个温暖的保温瓶还是一个发卡?GPT-3建议用发夹。
如果你需要在快餐店工作时遮住你的头发,哪种方法更好,纸质的三明治包装还是汉堡包?GPT-3选择了包子。
当大多数人选择另一种方式时,为什么GPT-3会做出这些选择?因为GPT-3并不像人类那样理解语言。
没有身体的语言(Bodiless words)
我们中的一位是心理学研究者,他在20多年前提出了一系列类似上述的情景,以测试当时的计算机语言模型的理解。该模型没有准确地在使用石头和地图来扇动煤块之间做出选择,而人类却很容易做到这一点。
我们中的另一位是认知科学的博士生,他是一个研究小组的成员,该小组最近使用同样的场景来测试GPT-3。虽然GPT-3做得比旧模型好,但它明显比人类差。它把上面提到的三个场景完全搞错了。
GPT-3是为ChatGPT最初版本提供动力的引擎,它通过从一万亿个实例中注意到哪些词倾向于跟随哪些其他词来学习语言。语言序列中强烈的统计规律性使GPT-3能够学到很多关于语言的知识。而这种顺序知识往往使ChatGPT能够产生合理的句子、文章、诗歌和计算机代码。
尽管GPT-3非常善于学习人类语言中什么跟什么的规则,但它根本不知道这些词对人类意味着什么。它怎么可能呢?
人类是生物实体,其进化的身体需要在物理和社会世界中运作以完成事情。语言是一种工具,可以帮助人们完成这些工作。GPT-3是一个人工软件系统,可以预测下一个词。它不需要在现实世界中用这些预测来完成任何事情。
我是,所以我理解(I am, therefore I understand)
一个词或句子的含义与人体密切相关:人们的行动能力、感知能力和情感能力。人类的认知通过被体现出来而得到增强。例如,人们对 "纸质三明治包装纸 "这样一个术语的理解,包括包装纸的外观、感觉、重量,以及因此我们如何使用它:用于包装三明治。人们的理解还包括某人如何利用它提供的无数其他机会,比如把它搓成一个球来玩篮球游戏,或者遮住自己的头发。
所有这些用途都是由于人类身体的性质和需要而产生的:人们有一双可以折纸的手,有一头和三明治包装纸差不多大小的头发,有被雇佣的需要,因此要遵守遮盖头发这样的规则。也就是说,人们了解如何以语言使用统计中所没有的方式利用东西。
GPT-3、它的后继者GPT-4以及它的表亲Bard、Chinchilla和LLaMA都没有身体,因此它们不能自行确定哪些物体是可折叠的,或者心理学家J.J. Gibson称之为负担能力的许多其他属性。在人们有手和胳膊的情况下,纸质地图可以扇动火焰,暖瓶可以擀开褶皱。
如果没有手臂和手,更不用说需要穿上没有皱纹的衣服去工作,GPT-3无法确定这些负担。它只能在互联网上的文字流中遇到类似的东西时,才可以伪造它们。
大型语言模型人工智能是否会像人类那样理解语言?在我们看来,如果没有像人类一样的身体、感官、目的和生活方式,就不会有。
走向对世界的感觉(Toward a sense of the world)
GPT-4在图像和文本上进行了训练,使其能够学习单词和像素之间的统计关系。虽然我们无法对GPT-4进行原始分析,因为它目前没有输出它分配给单词的概率,但当我们向GPT-4提出这三个问题时,它回答正确。这可能是由于模型从以前的输入中学习,或者它的规模和视觉输入增加。
然而,你可以继续构建新的例子来绊倒它,想一想那些具有令人惊讶的承受力的物体,而模型很可能没有遇到过。例如,GPT-4说,一个底部被切掉的杯子比一个底部被切掉的灯泡更适合装水。
一个能够接触到图像的模型可能就像一个从电视中学习语言--和世界--的孩子:这比从收音机中学习更容易,但人类的理解将需要与世界互动的关键机会。
最近的研究采取了这种方法,训练语言模型来生成物理模拟,与物理环境互动,甚至与地理环境互动。
最近的研究采取了这种方法,训练语言模型来生成物理模拟,与物理环境互动,甚至生成机器人的行动计划。实体化的语言理解可能还有很长的路要走,但这些多感官的互动项目是在这条路上迈出的关键一步。
ChatGPT是一个迷人的工具,无疑将被用于好的--或不那么好的--目的。但不要被愚弄,以为它能理解它所喷出的文字,更不要以为它是有生命的。
作者:Joel Abrams
来源:theconversation.com
翻译:deepl
往期推荐: