查看原文
其他

迈向泛化智能:探索基因瓶颈下的可塑性学习

百度AI 2023-03-16


泛化性(Generality)是当前人工智能追求的目标之一。传统的人工智能方法基于专家定义的目标(Target)、优化器(Optimizer)和收集的数据训练得到。这个过程需要算法专家的大量投入,难以广泛被用于在训练设计时没有被考虑的任务或者数据。


近年来迁移学习、元学习、预训练等方法的出现,都一定程度针对泛化性问题。然而,不管是元学习还是预训练,需要场景化地用于某个特定任务时,依旧需要算法工程师深入进行微调(Fine-tuning)。这个过程对于目标、优化器也都有一定要求,也有较严苛的数据质量需求。如:微调过程很容易出现灾难遗忘的问题,必须把握训练过程,设置停止条件或者设计一些方式加以规避。因此,这类方法难以真正泛化到跨度大的场景。


正是因为这些挑战,一类新的学习机制开始受到关注,这类机制曾被称为上下文学习 (In-context Learning),也可以叫提示学习(Prompts)或者基于模型的元学习 (Model-based Meta-Learning)(如图1)。这种学习方式的特点是,学习不再依赖于人工设计的目标函数和梯度,而是依赖于模型自身的机制。训练的过程也不是将数据一遍一遍地进行正向和反向梯度回传,而是把特征、标注以及反馈,都当作输入的观测序列。模型自主地从序列中去学习规律。更直观的解释,上下文学习用模型黑盒替代人工设计的优化过程,实现一个模型对于不同任务的适配。很多研究表明,上下文学习相比梯度回传,在小样本的学习效率上具有压倒性优势,而且可以持续终生地进行学习,并且不容易遭遇灾难遗忘问题。


图1:对比三类学习方法。上下文学习和可塑性学习相比于微调更不依赖于专家定义的学习目标和优化器,是完全基于模型或者参数化规则的黑盒(black-box)学习机制。上下文学习在语言模型中往往被称为提示(prompts),在元学习中则经常被称为基于模型的元学习(Model-based Meta-Learning),往往使用循环神经网络(RNN, LSTM),或者自注意力机(Transformer)等模型作为底座。


上下文学习在自然语言处理任务、图像生成任务、决策任务等任务上都取得了很好的效果。然而我们注意到,上下文学习通常不能处理太长的序列。即模型只能通过一段短的上下文去适应特定的任务和场景。可以想见,这个待适应的任务和场景一般不能相比预训练或者元学习阶段的任务跨度太远。举极端的例子,我们不能期望一个大规模语言模型通过提示或者上下文学习,就能学会去开车,一些稍微复杂一点的不能通过小样本学会的自然语言处理任务也做不到,往往最终依旧要依赖更大量数据的微调学习。


那么自然而然我们会问,有没有办法得到一个模型,可以进行几乎无限长序列的上下文学习,整个过程无需人工定义的优化方式和优化目标?这个问题的答案从目前看也许最接近人们期望的泛化型人工智能。比如它兴许可以实现这样一些场景:


  • 一个对话机器人可以在不断和某个用户聊天的过程中变得越来越了解他和周围的信息,了解他的喜好、性格,并且会变得越来越贴心。它甚至能通过聊天了解一些从未接触的全新的专业知识,和足够多领域的人聊天后,它转变为一个该领域的专家。


  • 一个机器人被部署去做某个他不了解的图像分类任务,通过和培训专员的简单沟通,基本就能学会;某个图片分类错了,只需要通过图片和语言/语音告诉它哪里错了,它下次就能做得更好。


  • 一个配送机器人进入一个他完全不了解的办公大楼,一个工作人员带着走一圈,介绍每个地方的名称和功能,它很快就能很好承担配送的工作。在它工作期间,某个通道因为封闭施工不能通行,可以自己发现其他较短绕路方案并在短时间内都走新的路。某天它发现施工完毕后,又能自主回到原先的路线。


  • 一个不会开车的 AI 机器人,只要有人像教练一样手把手教他怎么开车,它花个半个月就差不多学会。如果把它部署在一辆配置稍不同的小汽车上,它可能要额外花1天熟悉新车;如果把它部署在一辆差异较大的卡车上,它可能要花个2、3天熟悉。


这类技术目前看上去是天方夜谭。不过兴许它和我们接下来介绍的可塑性(Plasticity)机制和基因瓶颈(Genomics Bottleneck)存在一定的联系。


首先,我们介绍一个重要的类比,即生物智能的出现和元学习。生物智能的出现不是一朝一夕,而是自然界数十亿年进化的结果。这个进化却不是直接作用在生物的神经系统或者大脑,而是作用于基因。基因在种群繁衍中一代代遗传,但大部分知识则是在生物体出生后,后天学习得到的。这里存在两个学习过程:大自然的进化学习和生命体的后天学习。这两个学习过程中,大自然的进化是主线,是“外循环”;生命体的后天学习是支线,是“内循环”。这种学习循环的嵌套正是元学习的理论基础。然而,尽管存在一定相似性,现有的大多数元学习方法却忽略了这个嵌套循环中最重要的一个问题:知识并非在外循环或者自然进化中直接使用,也不能通过遗传获得,而是必须通过内循环获得。而造成这种现象的一个最重要的原因是基因瓶颈(如图2所示)。人类基因仅仅有109级别,而人大脑神经元突触却有1012级别。这意味着基因能承载的信息量远小于大脑。这一点可以由我们自身的经验印证。人类婴儿期基本是一张白纸,除了学习能力基本没有任何其他能力,甚至不能正常站立。婴儿的成长需要上十年的漫长的学习和适应。而基于这种现象,现有的元学习和预训练开始和生物智能有最本质的区别:在绝大多数元学习已有工作中,大部分的知识和技能都是元学习的外层循环阶段得到的,内循环仅仅只做微调,这和生物智能恰恰相反。


图2:启发元学习嵌套循环的生物大脑进化机制。外层循环用于基因进化。基因并不带有任何知识,而只带有“学习的能力”。真正学习的过程是每个个体从出生到死亡的过程,被称为内层循环。这个过程的学习主要是通过一类被称为“可塑性(Plasticity)”的机制。这类机制学习不依赖外界定义的目标,而是具备自主寻找目标,优化神经网络的能力,也就是我们通常理解的“泛化性”。在生物进化的过程中,存在“基因瓶颈”的现象,即进化过程中利用的基因仅能承载十亿级别的信息,而由基因决定的大脑有百万亿级别以上的可塑性神经连接。知识不能被遗传,但却影响了种族的存续,以致于进化在人类身上,是朝着学习和记忆能力不断扩展的方向选择的。


图3:对比经典机器学习、预训练、元学习、以及信息瓶颈元学习几类不同框架。这里用橙色和蓝色分别代表静态和适应性调整的幅度或参数量。经典机器学习一旦部署参数基本就是固定的,也仅能针对特定的任务;预训练模型可以针对特定任务进行微调或者部分微调,这两部分基本是分离的,微调部分除了初值,规则不依赖于预训练;元学习可以学习到用于微调阶段的初值以及规则,即微调(或适应性学习)过程可以依赖于元学习的结果;信息瓶颈元学习主要不同点在于,以较少的固定参数进入生命周期,但在生命周期内却可以获得多得多的信息,不再假设是小样本学习。


其次,大量研究表明,人类的后天学习过程,即内循环,基于一种被称为“赫布学习”(Hebbian Learning)的可塑性机制来自发调整神经元之间的连接。而当前机器学习的主流方法-梯度回传,却没有在生物大脑中找到充分的证据。赫布学习机制不是从神经网络的输出端去回传人为定义的目标,而是在神经网络前向的过程中自动调整连接的权重,而且连接权重的调整幅度依赖于其前后神经元的激活模式。这种学习方式目前在计算系统里面大多时候并不能产生任何有意义的学习。但如果将这种机制里面的一部分超参数放在元学习的框架下进行训练(类似于人类基因),情况则有不同。这种方式被称为基于可塑性的元学习。


再次,尽管之前有不少工作结合了上下文学习和监督或者强化学习,包括近期的 Decision Transformer,GATO 等工作,这类方法使用的模型却显然不符合“基因瓶颈”的原则。这些模型,要么对长序列完全压缩不了,要么要花费大得多的超参数处理小得多的适应性部分。那么有没有一种上下文学习的机制,可以用较少的元参数,去适应较大的神经网络, 且推断成本是线性的?


正是基于这些点, 由百度、中科大等联合发表在 Transactions on Machine Learning Research 上的论文《Evolving Decomposed Plasticity Rules for Information-Bottlenecked Meta-Learning》,深入探讨和实验了可塑性元学习机制。其核心创新包含了以下几点:


  • 文章指出,当前上下文学习只能做一些相对简单的小样本学习的最重要原因是模型自己可适应的参数的量级往往远低于固定参数。


  • 文章首次仿照生物智能提出了 Information-Bottlenecked Meta-Learning(见图3)。这种机制和传统 Meta-Learning 最大的不同点,是融合上下文学习,并考虑到基因瓶颈,以较少的元参数(meta-parameter)去学习相对较大的神经网络。整个学习过程中,外循环采用进化机制,内循环采用改进的赫布学习,完全不使用梯度回传。


  • 受人类大脑存在的循环神经网络结构启示,文章提出了同时融合完全冷启动的循环网络和可塑性学习共同参与内循环,并提出一种新的可塑性的规则,使得基因瓶颈和上下文学习能同时被满足,超参数的量级可以低于要学习的神经连接数量。


  • 文章还证明,在人脑发挥重要作用的多巴胺机制,在该框架中,也可以用于调节可塑性学习过程,并且也发挥着非常重要的作用。


该工作主要把这个方法用于 2D 元迷宫寻找随机目标的问题。在这组任务里里,智能体在迷宫中仅仅可以有限观测到它附近3x3的格子,而且每个智能体出生会面对一个随机采样结构的未知迷宫以及随机的目标点。智能体既没有迷宫完整的信息,也没有目标点的信息。一个智能体在其一生中有机会走8次迷宫,它需要在这8次机会中自行尝试探索,并不断去记忆迷宫的结构和目标点,以使得它能够在迷宫越来越快地到达目的地。不同于其他可塑性研究,智能体在出生时,使用的是一个完全冷启动 RNN 网络,效果较差。但随着内循环过程的推进,它能不断改变自己的权重以及隐状态,使自己变得更适应于当前的迷宫。实验证明,通过一种元参数要比 RNN 本身连接数少得多的可塑性机制,可以在它的生命周期内学习到一个较好的策略。它仅仅用了1300多个学习规则,就足以打败使用7万多参数的更复杂模型(如 Meta-LSTM),而且,问题越复杂,周期越长(最长可以达到1600时间步, 远长于目前大多数上下文学习的学习周期),可塑性 RNN 可以做得越好(如图4)。通过其在生命周期中的表现还可以看到,相比其他传统方法,它的起点低,天花板却更高,更像人类婴儿。


图4:基于可塑性的循环神经网络(PRNN,DecPRNN)在其生命周期的8次尝试中,在不同大小迷宫中的表现情况。


该工作也进行了一系列分析,证明可塑性是一种更佳的“长时记忆”机制,而循环神经网络机制更适合只作为“短时记忆”机制。这为我们解决超长序列建模问题提供了一定参考(图5)。


图5:基于可塑性的循环神经网络的可塑性连接的权重的变化通过 t-SNE 技术从高维压缩到二维空间(左)。对比 LSTM 的隐状态的变化(右),左图展示出更好的“长期记忆”能力,因为它的迁移更平滑,在空间上距离也更长。文章更利用详细统计指标证明,可塑性和长期记忆能力更相关。


以下展示了一个可塑性的智能体,在它的神经网络权重冷启动的情况下,如何面对一个新的未知的迷宫,通过自己的观测、行为和反馈,一边推理,一边通过可塑性学习自主更新网络权重,最终可以找到抵达目标点的最快路径。


智能体适应随机的9x9迷宫


智能体适应随机的15x15迷宫


最后,尽管我们看到这样的可塑性学习机制蕴含着无限的潜能,我们也需要关注到目前这个工作仅仅验证了一个较为简单的原型。这样的学习机制离最终应用仍然存在较多需要解决的问题,如:元学习的效率瓶颈;模型的可扩展性;单个内循环持续适应多个不同任务。我们也期待在这个方向上有更多探索和启发,能够一步步接近泛化型人工智能的大门。


▎论文地址: 

https://openreview.net/pdf?id=6qMKztPn0n

▎完整视频:

https://www.bilibili.com/video/BV1ce4y1k7DN/?spm_id_from=333.999.0.0


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存