查看原文
其他

辩论 | 语言模型需要“感觉”吗?语言的边界在哪里?

汉语堂 2023-07-17

The following article is from 计算神经语言学 Author 王书琪 Succi

欢迎订阅公众号或者合集!观学术争鸣,集众家之长。感兴趣请阅读原文。

本辩论是“深度学习哲学”(philosophy of deep learning)会议的一部分,该会议聚焦人工智能和认知科学的最新进展,详情请关注官网: https://phildeeplearning.github.io


2023年3月24日,在纽约大学举办的“深度学习哲学”(philosophy of deep learning)会议上,图灵奖得主Yann LeCun、心理学家Gary Lupyan等六位来自计算机科学和认知科学领域的科学家展开了题为“语言模型的意义和理解需要具身感觉吗?”(Do language models need sensory grounding for meaning and understanding?)的辩论。以下展示了六个人的立场:
正方
LeCun
LakeBrowning
反方Pavlick
Chalmers
Lupyan
文末点击“阅读原文”观看完整辩论视频。
下面我们将简要介绍六个人的观点。

正方: LeCun, Lake, Browning

  • LeCun:

    • “机器学习烂透了”(machine learning sucks);

    • 我们需要“世界模型”(world model)来构建“自主智能”(autonomous intelligence)

  • Lake:

    • 语言模型确实厉害;

    • 但是和人类的语言理解方式不同
  • Browning

    • 一些思想可以通过语言表达,而另一些却不能;

    • 人类之所以能够理解语言,是因为有以往的多模态(multi-modal)经验
      作为背景知识

下面我们将逐一介绍这三个人的观点。

LeCun | 机器学习烂透了,需要“世界模型”构建“自主智能”

LeCun认为,和人以及动物相比,机器学习烂透了。因为基于机器学习的AI会犯愚蠢的错误,而且也不会推理(reason)和计划(plan);相较而言,人类和动物则能够很快地学习新的任务,能够理解世界是如何运行的,能够推理和计划,而且有常识(common sense)。

除了认为机器学习烂透了之外,LeCun还认为自回归大语言模型也没前途(Auto-Regressive LLMs are doomed)。因为一旦犯一点小错误,这种错误就会在自回归中被指数倍地放大(见下图),而且还没办法修复这种错误。

图中蓝色圆圈为所有可能的token序列,红色椭圆为正确的答案。公式中,e表示错误的概率,P(correct)表示长度为n的答案的正确的概率。
LeCun指出,目前基于机器学习的AI面临三个挑战:
    (1) AI需要学习世界表征和预测模型(predictive model)。但是目前的监督学习和强化学习都需要太多的样例(sample)或试次(trial);
    (2) AI需要学习去推理。就像诺奖得主、心理学家Daniel Kahneman所说的“系统2”(system2) (注: 人类具有两种思考模式——系统1和系统2。系统1依赖情感、记忆和经验迅速做出判断,但容易产生错觉;系统2则通过调动注意力来分析和解决问题,比较慢,但不容易出错);
    (3) AI需要学习计划复杂的动作序列。

那么怎么应对这些挑战?AI未来的发展方向又是什么呢?LeCun借鉴认知神经科学的架构,提出了通过“世界模型”来构建“自主智能”的设想(如下图所示)。其中,行动器(actor)计划行动序列,并找到最优行动序列以最小化成本(cost)或“不适”(discomfort),世界模型(world model)预测未来的世界状态,感受器(perception)评估世界状态。该系统的目标是让自己“开心”,即最小化成本或“不适”。

LuCun的自主人工智能的模块架构

最后,LeCun总结了自己的核心观点:

    (1)预测是智能的核心;

    (2)几乎所有的事情都能够通过自监督学习(self-supervised learning)习得;

    (3)推理=模拟/预测+目标的最优化;

    (4)像H-JEPA(hierarchical joint embedding predictive architecture)这样的非对比训练(non-contrastive training)很有前景;

    (5)考虑内在成本(intrinsic cost)可以让系统变得可控;

    (6)情感对自主智能很重要。

Lake | 语言模型确实厉害,但是不同于人类的语言理解

Lake认为,要想让语言模型像人一样理解就必须要有具身感觉(如视觉)。Lake做了一系列“特殊雨伞测试”(ad hoc umbrella test)来探究一个人对词义的理解到底包含哪些内容以及AI模型能否像人类一样理解词义。所谓“特殊雨伞”,指的是动物用来遮雨的树叶或蘑菇等自然界物体(如下图所示)。人类可以很容易地将这些自然界物体类比为雨伞,但对于AI模型来说却没那么容易。

“特殊雨伞测试”使用的图片。图上的文字为AI模型circa2023对每个图片的理解。

Lake使用“图片说明模型”(image captioning system)circa 2020和circa2023来描述这些“特殊雨伞”,结果发现这两个版本的模型都不能识别图中的“特殊雨伞”(如上图文字所示)。这是因为人类能够进行类比和抽象,对词义的理解有更丰富的内涵,而该模型则不具备这种能力。

那么人类对一个词的理解到底包括哪些内容呢?一个模型需要对词义有怎样的理解才能“像人”呢?Lake提出了四个让模型的语言理解像人的“必要元素"(desideratum): 
    (1) 模型要能描述场景,并且理解其他描述;
    (2) 能够根据内在的渴望(desire)、目标(goals)和计划(plan)来选择单词;
    (3) 能够对指示有所回应,且能够恰当地发出请求;

    (4) 能够根据语言输入改变对世界的信念(belief)。

Lake总结道,纯文本(text-only)的模型确实可以做很多事,但是要想能够像人一样理解词语的意思,还需基于真实世界的信息,而更像人的模型才能更真实地理解人的意思、更有效地和人交流。
Browning | 语言理解基于以往的多模态背景知识

Browning首先从哲学史出发,介绍了二十世纪“逻辑主义”(logicism)的观点及其对科学研究的影响。逻辑主义的核心观点是,所有思想都是命题的(propositional),所有知识都是语言的(linguistic)。正如维特根斯坦所言“所有真命题的全体即是自然科学的全部”(the totality of true propositions is the whole of nature science)。逻辑主义认为,认知的核心是语言,非语言的加工过程如知觉、运动、情感等都不是认知,因此对计算机来说会很简单。

于是,1966年,麻省理工学院做了一个教计算机“看”东西的项目,即麻省理工暑期视觉项目(MIT summer vision project),研究者以为像视觉这种非语言的能力对计算机来说会很简单,但是项目却失败了。该项目的失败表明,视觉的加工也很困难;一些思想可以通过语言表达,而另一些却不能。

接下来,Browning介绍了表征的三种形式,以此解释逻辑主义的问题所在:
    (1) 第一种表征形式是语言的(linguistic)。它是逻辑的(logic)、数字的(digital)、原子的(atomic)。它由一系列离散的(discrete)、任意的(arbitrary)符号组成,受变量的约束(variable-binding),包括组合(combination)和操作(operation)的规则;
    (2) 第二种表征形式是图像的(imagistic)。它是类比的(analogical)、形象的(iconic)、图片化的(picture-like)。它通过“同态性”(isomorphism)来表征,即该表征和真实世界有某些相似之处,可以表征世界的更多细节;

    (3) 第三种表征形式是分布式的(distributed)。它存在于神经网络中(包括生物的和人工的)。该表征的关键是根据某个函数形成一个对表征物的统计模型。这种表征比较擅长表征“技能”(skills or know-how),但是不太擅长表征语言。

Browning指出,逻辑主义的问题在于:过于强调语言表征,而忽视了其他两种表征形式,因此它忽视了其他动物和婴儿所掌握的认知形式,如图像推理、熟练的技能、情感等。

因此,Browning介绍了另一种哲学观点——实用主义(pragmatism)。其观点是,认知的核心是非语言的,它是以行为和预测为基础的,不是被动的刺激,而是主动将世界划分为“愉悦”和“痛苦”的部分,并熟练地“趋利避害”以求在不利的环境中生存下来。

在语言观上,该主义认为,语言不是思考和储存知识的工具,而是社会技能的一部分,是主体(agents)间交流的工具。而交流需要背景知识,主体间有越多共同的背景知识(比如相似的出身、技能、文化等),就需要越少的语言、越容易彼此理解。因此,语言之所以能够发挥作用,是因为说话者本身就具有了一定的多模态具身技能和社交意识,从而实现成功的交流。

最后,Browning引用《庄子》的一段话总结了实用主义关于“知识”与“技能”的观点,即所谓“得心应手” “只可意会,不可言传” 是也。

轮扁曰:“斫轮,徐则甘而不固,疾则苦而不入,不徐不疾,得之于手而应于心,口不能言,有数存焉于其间....古之人与其不可传也死矣,然则君之所读者,古人之糟粕已夫!” 

——《庄子·天道》

Browning引用庄子的ppt


接下来我们看看反方的观点。

反方: Pavlick, Chalmers, Lupyan

  • Pavlick:
    • 感觉不是意义的必要前提;
    • 即使给语言模型赋予“感觉”,也不会让它的语言理解变得更好;
    • 语言模型可以被后续再赋予感觉(be grounded posthoc)

  • Chalmers:

    • 语言模型并不需要感觉去理解;

    • 但这事儿比较复杂
  • Lupyan

    • 具体词(如“苹果”)和抽象词(如“自由”)一样,其意义都深嵌于(embedded)语言中;

    • 即使是具体词,也不需要感觉去理解它

下面我们将逐一介绍这三个人的观点。

Pavlick | 感觉不是意义的必要前提
Pavlick介绍了三个实证实验来论证其主要观点——“感觉不是意义的必要前提”。

第一个是“视觉语言模型”(vision-and-language model)实验[1]。研究者将视觉语言模型VideoBERT和VisualBERT和其相对应的纯文字语言相对比,结果发现,多模态语言模型并没有比纯文字模型表现更好(见下图)。

Pavlick视觉语言模型实验结果。可以看出,VideoBERT和VisualBERT在物理交互问答(Physical Interaction: Question Answering, PIQA)、语义探测(semantic probes)以及形容词名词配对(Adj-Nouns)等任务和纯文字模型没有显著差异。

Pavlick的第二个实验[2]探究了语言模型与现实世界概念空间(conceptual space)的映射关系。以颜色为例,Pavlick通过小样本学习(few-shot learning)的方法教会GPT-3去回答RGB编码所对应的颜色,然后在三个“世界”中测试模型对颜色修饰词的理解。

如上图所示,这三个“世界”包括:
        (1) “正常世界”(original world)。此时颜色词对应其现实世界正确的RGB编码。如上图左边所示,此时“dark”表示“更深”的意思,“dark blue”表示比蓝色(blue)更深的蓝,“dark green”表示比绿色(green)更深的绿;
        (2) “旋转世界”(rotated world)。此时某个颜色对应其他的RGB编码,但保存了映射之间的关系(relation between mappings)。如上图中间所示,此时的“dark”表示“更绿” 的意思,即dark blue所表示的颜色比blue更绿,dark green所表示的颜色也比green更绿;

        (3) “随机世界”(random world)。此时某个颜色对应其他的RGB编码,且映射关系是打乱的。如上图右边所示,很难理解“dark”具体是什么意思。

结果发现,GPT-3不仅能够在“正常世界”表现很好,而且能在“旋转世界”中有同样好的表现,但在“随机世界”中会表现很差(如下图所示)。这表明,语言模型已经具有了表征颜色概念空间的结构,而不需要直接从真实世界中“感知”颜色

Pavlick第二个实验的结果。纵坐标为正确率。横坐标为不同的测量指标。

但是由于上述“颜色感知”实验是基于RGB编码的,有人质疑这也是一种语言符号,和真实的颜色感知相去甚远。
于是Pavlick做了第三个实验[3]。该实验使用“具身感知模型”(grounded perceptual model),即直接使用图片的像素(pixel)作为输入。在训练阶段,研究者使用图片编码器(image encoder)将输入的图片表征为向量并完成一些任务,如物体探测(object detection)、图像说明(image captioning)等。然后训练一个从图片编码器的输出空间(output space)到语言模型(如GPT-3)的输入空间(input space)的线性投影(linear projection)。这样,图像表征就能在语言模型中“假装”成一个文本token了。然后再以此为上下文,让语言模型预测下一个单词。
结果发现,和使用多模态微调的模型相比,只有线性投影的语言模型在图像说明、视觉问答(VQA)等任务上的表现没有显著差异。这表明,语言模型可以被后续再赋予“感觉”(be grounded posthoc)。
Pavlick第三个实验的结果。纵坐标为正确率。横坐标为不同的测量指标。

总的来说,Pavlick的实验结果表明:(1)给语言模型增加感觉并不能显著提高它的理解能力;(2)语言模型学到的表征和非语言的世界表征非常相似,可以后续再对其赋予“感觉”。

Chalmers | 语言模型不需要感觉去理解,但这事儿比较复杂

Chalmers围绕这个辩题提了四个问题,并一一作出回答。

问题1:语言模型需要具身感觉来思考和理解吗?

回答:不需要。

Chalmers认为,AI可以不经过具身感觉思考很多事情,比如它自己(itself)、数学和逻辑(math and logic)以及关于外在世界的假设(hypotheses about the external world)。
问题2:某些思考和理解需要具身感觉吗?

回答:需要。

AI在对感觉和身体领域的理解上还有局限性,因为某些思考和理解(比如“红色”,“如何骑自行车”)可能需要具身感觉能力。
问题3:感觉能将语言模型的理解能力提高到新的水平吗?
回答:不能。

一项对比纯文本大语言模型(text-only LLMs)和多模态大语言模型(multimodal LLMs)的实验表明,多模态大语言模型某些时候可能会比纯文本大语言模型表现好,但有些时候不能。而且在二者共有的领域上,比如认知测试和推理任务上,二者并没有显著差异。而且,现在的纯文本大语言模型已经能在很多非语言任务上表现出色了(比如GPT-4)。

问题4:现在的语言模型真的能理解吗?
回答:不能。

Chalmers把“理解”分为两种:“行为理解”(b-understanding, “b”指behavior行为)和“经历理解” (e-understanding, “e”指experience经历)。他认为目前的语言模型只能行为上看起来像理解了,但是还不具有主观理解能力,不能去主观“经历”一些事情。

Lupyan | 具体词和抽象词的意义都深嵌于语言中

Lupyan从对具体词和抽象词的理解中讨论这个辩题。

首先他指出,人们平时把抽象词想得太难了。提到抽象词总会想到“自由”“民主”这样的“大词”,但其实很多我们日常使用的词、甚至是三四岁小朋友都能使用的词也是抽象词,比如“fun”(有趣) “enjoy”(享受) “agree”(同意) “nevertheless”(但是)等,我们很难说“nevertheless”这个词能有什么感觉基础。

在一项英语词汇具体性评估的实验中[4],发现很多词都比“自由”更抽象,而且这些词能够被三四岁小朋友所使用(如下图)。

英语词汇具体性评估实验结果。其中,“具体"(concrete)的评判标准是"可以用手指或者进行表演的事物”,“抽象”(abstract)的评判标准是“该词的意义只能通过其他词来定义"。

接着,Lupyan使用ChatGPT强有力地反驳了正方Lake的“特殊雨伞”实验。他让ChatGPT想象自己是森林里的小虫子,问它可以用什么作为雨伞。结果,ChatGPT给出了一系列森林中可以当作雨伞的东西,比如树叶、蘑菇、草等(见下图)。这表明,纯文字的语言模型也能够理解人类语言中“雨伞”的核心概念。

Lupyan问ChatGPT在森林中可以用什么当雨伞以及ChatGPT的回答。

Lupyan进一步计算了人类和Google新闻词嵌入(word embeddings)对单词具体性打分的相关性。本实验的逻辑是:如果语言模型需要具身感觉的话,抽象词的相关性会比具体词的相关性更高,因为对抽象词的理解不需要具身感觉,此时语言模型和人类的理解更相似(都没有具身感觉的参与),所以相关性会更高。但实验结果却并非如此。结果发现,无论是具体词还是抽象词,其具体性打分的相关性没有显著差异(见下图)。这表明,语言模型对词义的理解不需要具身感觉。

人类和Google新闻词嵌入(word embeddings)对单词具体性打分的相关性。纵坐标为斯皮尔曼相关性,横坐标为具体性。

但是,对于一些感觉词的意义(perceptual word meaning)的理解,总需要具身感觉吧?比如“glistening”(闪烁的)、“transparent”(透明的)。但是一项对盲人的研究[5]发现,盲人和视力正常的人对视觉词的理解的相关性很高。这表明,盲人虽然看不见,但也能够像正常视力的人一样对视觉词有深刻复杂的理解。

盲人和视力正常的人对视觉词的理解实验结果。该实验的实验任务是词语相似度判断,即让被试从1(一点不相似)到7(非常相似)打分。横坐标为盲人归一化后的相似度打分,纵坐标为视力正常的人归一化后的相似度打分。

Lupyan进一步让语言模型(词嵌入模型)做了相同的实验[6],然后计算其结果和盲人以及视力正常人的相关性。结果发现,语言模型的结果和盲人以及视力正常人的结果具有高度相关性。

对比语言模型和盲人以及视力正常的人对视觉词的理解结果。发现语言模型的结果和盲人以及正常人的结果有高度相关性,相关性在0.6左右。

最后,Lupyan总结道,虽然儿童早期的语言是基于具身感觉的(heavily grounded),但是到了两岁半的时候就能说很多抽象的词了,其实我们说的很多内容都和直接的具身感觉没有关系。



总结与拓展

本辩论探讨了语言模型到底需不需要具身感觉来思考和理解,背后一个更大的问题是:语言和思想的关系是什么,语言文字的边界在哪里。是“语言的边界就是思想的边界”,还是像庄子说的“只可意会,不可言传”?本公众号前一段时间介绍了一篇Nature的文章,该文章认为AI需要具身感觉才能真正理解这个世界:Nature子刊 | 超越语言文字,让下一代 AI真正理解世界


关于这个问题你怎么看?欢迎留言讨论。


参考文献

[1] Yun, T., Sun, C., & Pavlick, E. (2021). Does Vision-and-Language Pretraining Improve Lexical Grounding? ArXiv Preprint ArXiv:2109.10246.

[2] Patel, R., & Pavlick, E. (2022). Mapping language models to grounded conceptual spaces. International Conference on Learning Representations.

[3] Merullo, J., Castricato, L., Eickhoff, C., & Pavlick, E. (2023). Linearly Mapping from Image to Text Space (arXiv:2209.15162). arXiv. https://doi.org/10.48550/arXiv.2209.15162

[4]  Brysbaert, M., Warriner, A. B., & Kuperman, V. (2014). Concreteness ratings for 40 thousand generally known English word lemmas. Behavior Research Methods, 46, 904–911.

[5] Bedny, M., Koster-Hale, J., Elli, G., Yazzolino, L., & Saxe, R. (2019). There’s more to “sparkle” than meets the eye: Knowledge of vision and light verbs among congenitally blind and sighted individuals. Cognition, 189, 105–115.

[6] Lewis, M., Zettersten, M., & Lupyan, G. (2019). Distributional semantics as a source of visual knowledge. Proceedings of the National Academy of Sciences, 116(39), 19237–19238.


点击“阅读原文”观看完整辩论视频↓

今日责编:建国


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存