查看原文
其他

人的直觉推理 与 LLM中知识的存储形式 【2023Q3】

孔某人 孔某人的低维认知 2023-12-12

TLDR

  • LLM类似于人脑的直觉推理,或其他神经系统更简单的生物的认知能力。

  • 网络的深度对于迁移学习能力很重要,浅层网络也能记住知识,但不能“举一反三”。

  • 深度越低的模型,越倾向于以整体固化的方式来记住知识和对应的反应,难以对其中的部分信息进行编辑或者直接提取。


0、前言

本文只是《Rethinking LLM(6):从认知科学角度看LLM》(发表于知乎)中部分观点的一个展开讨论,由于前文内容较多,且这一点又更为重要,所以专门开篇讨论。(也是为新公众号水一篇文章)

认知来源和(不)专业度声明:

  • LLM中的知识存储原理仍然是开放性问题,本文只是我目前的认知。

  • 本文认知主要来源于 认知科学对人脑的认知进展、人的直觉思维与LLM的相似性、个人的科学与算法sense 等方面的融合。


1、人脑的 直觉推理

随着《思考快与慢》一书的流行,系统1和系统2的观念被人广为人知,LLM确实行为表现更类似于系统1。

但认知科学的科普著作《理性之谜》 一书告诉我们:

  • 系统1和系统2只是一个非常粗糙的模型,比左脑右脑好不到哪里去。

  • 大家想象的系统2的理性思考中,其实也有类似系统1的直觉推理部分。某种意义上可以认为系统2不是完全理性的,也包含很多类似系统1的部分。粗略来说可以将这些系统2所依赖的“类系统1”部分称为【直觉推理】。


简单举一些例子让读者了解哪些都算作直觉推理:

  • 当我们在一个没有窗户的大楼中呆了很久之后出来,感受到外面湿润而略感凉爽的空气、地面有积水,立马得到一个直觉:【“刚才下雨了”】。

  • 当我们在家中寻找遥控器的时候,产生一个直觉【“遥控器要么在客厅,要么在卧室”】。

  • 当我们尝试思考某件事的原因时候,【出现在意识中的那些候选解释】。

  • (继续前面下雨的例子),跟我们一同出来的小王说“刚才下雨了”,我们知道【这不是他的胡乱猜测,而是根据空气、积水等等的“判断”】


以上【】中的内容其实都是直觉推理,在意识中并没有更进一步的产生这些想法的过程。这些想法是在非意识的大脑功能中产生的,仅仅是其结果出现在了意识之中,所以这类过程才被称作“直觉推理”。

上面的例子说明了,直觉推理可以产生很复杂的结果、很高级的功能,例如包含【或】的逻辑关系的命题,为一个想法寻找推论或者原因,对于别人的推理过程的直觉等等。虽然它看起来很像是系统1,但它的功能并不弱,准确性也未必就比单纯的理性思考低。我们经常听到“听从自己的内心”,这似乎很不理性。但这里解释了这个方式的原因:这就是让人重视自己的直觉推理的结果,这个方式的准确率并没有一般人认知的那么差。

直觉推理和意识中的理性推理即使在预测准确性上,也各有优劣。有兴趣的读者可以去完整阅读《理性之谜》一书。

直觉推理有一些特点:

【1】我们无法认知其过程,科学实验表明:仅仅在意识中思考某个想法的来源并不能得到该想法产生的真正原因

【2】直觉推理并不是以抽象知识和逻辑推理的方式进行的,我们无法靠简单的变更某个知识来实现让直觉推理得出不同结果。

类似于直接记住了“如果今天要下雨,那么出门时应该拿伞”这样的输入和输出关联,而没有中间的推理过程。也无法通过增加一个“伞随处可得”的信息就让直觉推理结果直接变成“不用拿伞”。也就是说这类似一种“肌肉记忆”,只能通过重复训练来获得和整体行为修改

1.1、单纯直觉推理的一种表现

在人生中,我们有时会遇到这样的对话者:“他说话速度、回话速度很快,但似乎无法快速接受别人在对话中提供的信息和事实,总是自说自话、在自己的逻辑中打转。而在讨论之后的一段时间他可能会接受别人提供的信息。”

这样的对话者智商未必低,可能就是很聪明。但我们现在知道了一种解释方式:他当时因为说话速度过快,没有给意识中的思考过程留太多空间,更多直接说出了他的直觉推理结果。而一般的人很难快速注意到自己的某个想法到底是直觉推理产生的,还是经过理性推理周密思考产生的,大家对自己的思考的理性度都是过分自信的

完全的直觉推理未必就差,只要他之前对该问题有足够的思考,能够应对所有的情况,那么快速的直觉推理结果没有任何问题。关键在于,收到与其之前认知显著背离的信息之后,他是否能够脱离完全依靠直觉推理的轨道,重新使用缓慢且费神的意识中的理性逻辑推理。

去看完《理性之谜》一书成本太高,但一个足够简单的建议是:当出现我们预想外的情况时,我们的说话和思考都应该慢下来,不要完全依赖直觉推理。但也并不是说一点也不依赖直觉推理,毕竟这其实也做不到。

1.2、人脑不是在线实时更新的

插入一个题外话。很多人觉得人脑是可以实时更新的,但其实这只是人脑的短期记忆能力的表现。

人脑的长期记忆大概是按天级别更新的,发生在人的睡眠期间。

上述讨论的直觉推理的更新速度我认为是不快于天级别的,某些认知和直觉的调整很可能需要很长时间。跟改变肌肉记忆是一样的。

2、LLM与直觉推理

读到这里,我们就会发现LLM的行为跟直觉推理很像,甚至很多时候我们就是像在跟一个2.1中描述的快速说话者进行沟通。它会承认错误,但很难修改自己的认知,因为那些认知就不是基于类似意识中的理性逻辑的方式产生的。不光LLM如此,人也是如此。

类似意识中的更理性的推理过程需要更深层的网络,但目前的LLM深度和内部特化结构还无法跟人脑相比。所以不得已还是有不少知识是以直觉推理的方式学习到的。事实上就算是人,也有很多知识是以直觉推理的方式记住的,因为这种方式的速度更快、耗能更低。

但也不是说LLM中全是直觉推理,完全没有迁移和推理的部分,无论是in-context learning还是对于transformer中某些特殊功能head的发现都印证了这一点。

所以LLM本质上跟人脑类似,知识在其中的存储形式可以看成是 直觉推理 和 理性推理的混合。相对于人脑来说,直觉推理的占比应该要明显更大。越小的模型,直觉推理的占比应该越大。

3、一些推论

3.1、直接的知识编辑可能很难

如果LLM内部都是按照类似知识库的足够抽象的方式存储知识的,那么直接的知识编辑大概是可能的。

但如果很多知识的存储方式就是类似“如果今天要下雨,那么出门时应该拿伞”这样的结果,那么就很难对其进行部分编辑,只能将其整体“打开”或者“关闭”。

3.2、微调很难系统性地增加知识

现在的微调大多是基于小参数模型的,那么其中很多知识都需要以一种直觉推理的方式进行记忆。

那么少样本、低训练量的微调足够形成这些新的直觉推理方式么?

但从这个角度上来说,我的直觉判断是:低训练量微调很难让LLM新产生直觉推理知识。

不过通过微调来调整已经学的各种直觉推理能力的“开关”应该是可以的。

虽然这不是一个事先预测,应该只是算对于目前大家微调经验的事后解释方式之一。

3.3、理想的蒸馏大概做不到

“不通过重新训练的方式将大模型的完整能力蒸馏成小模型”似乎不可能,因为这意味着需要把更多的抽象表达的知识压缩到直觉推理过程之中,需要知识存储方式有明显的改变。

如果知识的存储方式都变了,我的直觉是:我们很难通过不重新训练完整网络或者某些部分的方式将其蒸馏为更浅的小模型。

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式

希望留言可以知乎对应文章下留言


本文于2023.9.20首发于微信公众号与知乎。

知乎链接 https://zhuanlan.zhihu.com/p/657566686

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存