ICML2023 & 新加坡国立 | 一项关于 Transformer参数设置 的深度研究
引言
今年是Transformer的六周年生日,目前原文引用量已超四万,在应用方面,几乎所有的模型架构都有它的影子,并遵从着Transformer的基础配置(宽度设置为768,深度设置为12)。但您有没有质疑过:Transformer的配置是怎么来的?Transformer的配置能够适合所有的应用场景吗?难道就不能改变吗?今天给大家分享的这篇国际顶会(ICML 2023)文章给出了答案。
Transformer源头
基于Transformer的语言模型在自然语言理解任务上取得了优秀的成绩,例如问答、关系提取和对话系统。并且在视觉任务上,Transformer也大幅优于基于卷积的模型。有了足够的训练数据,基于Transformer的模型可以扩展到数万亿个可训练参数。通过对训练模型宽度(即隐藏维度)和深度(即Transformer块的数量)的缩放,这些基于Transformer架构的模型在各种任务、领域中展现了超强的优势。
「Transformer参数配置由来」?
当使用Transformer时,大部分都会依据现有的工作设置相同的宽度和深度。例如,通常情况下,会将transformer-base模型的宽度设置为768,深度设置为12。这里就会出现这么一个问题:大家为什么都要选择这些超参数,即使是针对不同领域的问题?为了解答这个问题,本文重新审视一些代表性研究中的传统配置。对于视觉Transformer,作者根据BERT中使用的配置来设置ViT,其中BERT的配置是根据OpenAI GPT进行设置的,而OpenAI GPT配置是根据原始Transformer论文进行设置。在最初的Transformer论文中,Vaswani 等人对机器翻译任务进行了一系列消融研究,以找到最佳配置。也就是说,对于很多任务的Transformer配置,很大程度上都是遵循基于机器翻译任务(即序列到序列任务)的消融研究的Transformer配置。
「对于不同的训练目标,是否都应该采用相同的配置?」
如今,基于Transformer的模型可以根据不同的目标和策略进行训练。以视觉Transformer为例,可以使用图像分类的监督学习设置从头开始训练 Transformer,在这个简单的图像分类任务中,每个图像都被建模为一系列Token,每个Token对应于图像中的一部分,最后使用全局信息来预测单个标签,即图像的类别。这里,由于训练目标是捕获图像的全局信息,因此不会直接考虑Token之间的差异。该图像分类任务与机器翻译任务有很大不同,机器翻译任务要求对Token序列有很强的理解并生成另一个序列。因此可以发现,不同的任务对应的Transformer的配置是存在差异的。
「简单分类训练目标的过度平滑问题」
之前的工作试图从头开始训练更深层次的变压器。然而,正如Zhou等人指出,通过分类任务进行训练(即使用输入序列的全局信号)会存在过度平滑问题。这意味着,在Transformer的更深网络层,所有Token表示往往是相同的。这一问题损害了训练视觉Trams former的可扩展性,特别是沿深度的缩放。当扩展到更大的模型时,只能得到轻微的改进,甚至更差的准确性。最近zhou等人表明,当添加特殊设计的正则化以避免“统一标记”(即过度平滑问题)时,可以在序列(图像)分类设置上训练更深的Transformer。
「掩码自动编码器可以让模型扩展的更深、更宽,而无需额外的训练数据」
与上面从头开始训练不同,掩码自动编码器是一个两阶段训练框架,包括预训练和微调。给定部分屏蔽的输入序列,预训练阶段的目的是恢复原始的未屏蔽序列。微调与上述从头开始的训练类似,但需要的训练次数要少得多。最近的研究利用屏蔽自动编码器成功地训练了大规模 Transformer,与监督学习相比,它无需使用额外的训练数据。这是违反直觉的,因为通常情况下,人们会认为提高子监督学习准确性的关键是提供更多的训练数据,而结果显示并非如此。
「掩码自动编码器可以缓解过度平滑问题」
直观地说,在掩码自动编码器框架(例如 BERT、BEiT)中,目标是根据未屏蔽的令牌恢复屏蔽的令牌。监督学习从头开始训练 Transformer 的目标是简单的分类任务,相比之下屏蔽自动编码器框架采用序列标记目标。这里假设掩码自动编码器训练可以缓解过度平滑问题,这可能是屏蔽自动编码器有助于扩大变压器规模的原因。具体来说,序列标记任务要求模型从相邻的未屏蔽标记中学习语义信息。由于不同的掩码令牌具有不同的未屏蔽的相邻令牌,因此未屏蔽的令牌表示必须携带其相应的且足够的语义,以准确预测屏蔽的令牌,这反过来又防止令牌表示变得相同。总之可以推断,掩码自动编码器的训练目标通过其对标记差异的正则化有助于缓解过度平滑问题。
「掩码自动编码器为什么可以缓解过度平滑问题?」
本文通过傅里叶域分析进一步探讨了这种现象背后的原因。首先,Transformer中的自注意力层会衰减输入信号的高频分量。当所有高频分量被擦除时,所有令牌表示将是相同的。掩码自动编码器训练目标可以看作是从噪声掩蔽输入信号的HC重建输入信号的高频分量(HC)。因此,掩码自动编码器可以通过学习较慢的HC衰减率来缓解过度平滑。这种能力是通过训练自注意力层中的权重来实现的。
Bamboo配置
「具有更深配置的掩码自动编码器的潜力」。如果掩码自动编码器缓解了过度平滑问题,这是否意味着屏蔽自动编码器可以从深度配置中获得更多好处?为了回答这个问题,本文重新审视不同训练目标的配置,特别是掩码自动编码器。因此,本文进行实验来研究掩码自动编码器配置并提出Bamboo(模型架构像竹子一样又窄又长)。
当使用掩码自动编码器训练Transformer时,为获得更好的训练效果,「本文使用更深和更窄的transformer架构配置」。为了评估该模型配置,本文对计算机视觉和自然语言处理任务进行了全面的实验。在视觉任务上,评估了大规模视觉Transformer训练的配置,使用Bamboo配置,掩膜自动编码器的性能大幅优于基线。
例如,在ImageNet上,具有相当数量的可训练参数和计算成本,本文提出的更窄和更深的基本尺度掩码自动编码器Bamboo-B在top-1准确率方面比 MAE-B 高出 0.9%。具体对比任务如下图所示:
实验结果
1、「掩码自动编码器确实缓解了过度平滑问题」。如下图所示,由于过度平滑,ViT 的余弦相似度沿着深度增加,然而,对于由掩码自动编码器框架预训练的模型,余弦相似度沿深度保持恒定。
推荐阅读
[1]ACL2023|知识图谱(KG)检索新框架--DiFaR
[3]Goat-7B干翻GPT-4,超PaLM-540B!24G可训练
[5]Meta最新模型LIMA,没有RLHF远胜Alpaca!!
[7]LLMs与AutoGPT结合:揭示GPT-4惊人决策能力