AI训练了一个更小版本的自己
异常高效的语境学习
像OpenAI的GPT-3这样的大型语言模型,实则是种庞大的神经网络。它们可以生成类似人类创造的各种文本,从诗歌到编程代码,任何拥有语言结构的东西它们都能掌握。大量互联网数据被用于对这类机器学习模型进行训练,使其在接收一小段输入文本后,再预测接下来可能出现的文本。
但这并不是这些模型能做的全部。研究人员正在探索一种被称为“语境学习”的奇特现象。在语境学习中,一个大型语言模型可以在只看到几个例子后,就能“神奇地”学会完成一项它并没有专门为其接受过训练的任务。
通常情况下,像GPT-3这样的机器学习模型在应对新任务时,需要新的数据来进行重新的训练。在这种训练过程中,当模型在处理新的信息来学习新任务时,模型的参数也会得到更新。
但在语境学习中,模型的参数并不会更新,所以看起来就像是模型在没有学习任何东西的情况下,就习得了一个新任务。这无疑是一种异常高效的学习现象,它意味着,只需为它提供一个输入,就能完成我们想要的东西。因此许多科学家认为有必要对此进行详细研究。
来自麻省理工学院、谷歌研究院和斯坦福大学的科学家正在努力揭示这背后的秘密。他们研究了与大型语言模型非常相似的模型,以了解它们是如何在不更新参数的情况下进行学习的。结果显示,在这些庞大的神经网络模型能中,可能隐藏着一些更小、更简单的线性模型。
模型中的模型
在新研究中,研究人员认为首先要明确的是,语境学习者并不仅仅是在匹配先前见过的模式,而是真正在学习执行新任务。
以GPT-3为例,它有着数千亿个参数,并通过阅读互联网上的大量文本进行训练,从百科文章到论坛帖子应有尽有。因此,当有人向这个模型展示一项新任务的例子时,它很可能已经见过了类似的东西。这时它并没有在学习如何执行新的任务,而是在重复它在训练期间看到的模式。
因此在实验中,他们使用了在此之前在任何地方都不可能看到的合成数据来作为这些模型的提示。结果发现,这些模型仍然可以仅从几个例子中进行学习。
接下来,他们猜想,也许在这些神经网络模型内部,存在更小的,可以通过训练完来成一个新任务机器学习模型。
为了测试这种假说,团队使用了一种被称为转换器的神经网络模型,它具有与GPT-3相似的架构,但已被专门为语境学习进行训练。
通过探索这个转换器的架构,他们从理论上证明了转换器可以在隐藏态中写入一个线性模型。一个神经网络由许多层相互连接的节点组成,它们可以处理数据,隐藏态则是介于输入层和输出层之间的层。
通过对模型进行数学分析,研究人员发现这种线性模型写在了转换器模型的最早的某些层中。然后,转换器可以通过实施简单的学习算法来更新线性模型。
总结说来,这意味着在语境学习中,模型可以模拟并训练一个更小版本的自己。当需要完成一项新任务时,大模型可以仅仅使用已经包含在大型模型中的信息(固定的参数)来执行一个简单的学习算法,以达到训练那些更小的线性模型的目的。
继续探索隐藏层
这篇论文揭示了现代语言大模型最显著的特性之一,也就是它们从输入的数据中学习的能力,这是理解语境学习背后机制的重要一步。
在这一理论工作的基础上,或许能够通过向神经网络添加两层,使转换器进行语境学习。
研究人员表示,在实现这一目标之前,仍有许多技术细节需要解决,但它有助于工程师创建能够完成新任务的模型,而不需要用新数据重新进行训练。这些结果也是了解模型如何学习更复杂任务的垫脚石,也能帮助研究人员为语言模型设计更好的训练方法,进一步提高性能。
简单来说,这些模型并不像想象的那样“蠢”。它们不单单是记住了某些任务,而是真的有能力学习新的任务。
#创作团队:
编译:Måka
排版:雯雯
#参考来源:
https://news.mit.edu/2023/large-language-models-in-context-learning-0207
#图片来源:
封面图&首图:Jose-Luis Olivares, MIT
推荐阅读
AI4Science 和 ChatGPT,生物医药的契机?>>
一个被寄予厚望的粒子假说,被否决了>>蔻享学术 平台介绍
蔻享学术平台,国内领先的一站式科学资源共享平台,依托国内外一流科研院所、高等院校和企业的科研力量,聚焦前沿科学,以优化科研创新环境、传播和服务科学、促进学科交叉融合为宗旨,打造优质学术资源的共享数据平台。
识别二维码,
下载 蔻享APP 查看最新资源数据。