刷完EMNLP 2021论文列表,我们挑出了这8篇预训练相关必读论文
©作者 | 王馨月
单位 | 四川大学本科生
研究方向 | 自然语言处理
VG-GPLMs
论文标题:
Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization
论文链接:
https://arxiv.org/abs/2109.02401
项目地址:
https://github.com/HLTCHKUST/VG-GPLMs
多模态抽象摘要(Multimodal abstractive summarization, MAS)是将视频(视觉模态)及其相应转录本(文本模态)进行总结的模型,能够从互联网上的海量多模态数据中提取基本信息(下图是 MAS 任务的一个例子)。近年来盛行的大规模生成预训练语言模型(GPLMs)在文本生成任务中十分有效,这篇文章的作者尝试将在 MAS 中利用 GPLMs 的强大能力。
作者提出了一种基于注意力的附加层来合并视觉信息,同时保持其原始文本生成能力,来构建用于 MAS 任务的视觉引导(vision guided, VG)GPLMs。实验结果在 How2 数据集上显著超过了现有技术模型,对于整体改进的贡献率为 83.6%。
论文标题:
PermuteFormer: Efficient Relative Position Encoding for Long Sequences
论文链接:
https://arxiv.org/abs/2109.02377
项目地址:
https://github.com/cpcp1998/PermuteFormer
最近的 Transformer 变体 Performer 使用线性注意力机制将 Transformer 扩展到更长的序列。但是,这种方法与相对位置编码不兼容,而相对位置编码比绝对位置编码具有优势。在这篇论文中,作者讨论了向 Performer 添加相对位置编码的可能方法,提出了 PermuteFormer。
PermuteFormer 是一种基于 Performer 的模型,具有相对位置编码,可在长序列上线性缩放。PermuteFormer 对查询和键应用相关位置变换,将位置信息编码到注意力模块中。经过设计后,self-attention 的最终输出不受 token 绝对位置的影响。论文作者在长序列数据集 Long-Range Arena 以及语言建模数据集 WikiText-103 上评估 PermuteFormer。
论文标题:
Frustratingly Simple Pretraining Alternatives to Masked Language Modeling
论文链接:
https://arxiv.org/abs/2109.01819
项目地址:
https://github.com/gucci-j/light-transformer-emnlp2021
掩码语言建模(MLM)训练模型来预测输入标记的随机样本,这些样本在整个词汇表的多类设置中被 [MASK] 占位符替换。在预训练时,通常在标记或序列级别上与 MLM 一起使用其他辅助目标,以提高下游性能。然而,到目前为止,之前的工作还没有尝试检查其他更简单的语言直观目标是否可以单独用作主要的预训练目标。
在这篇论文中,作者探索了基于 token 级分类任务作为 MLM 替代品的五个简单的预训练目标。GLUE 和 SQuAD 的实证结果表明,作者提出的方法使用 BERT-BASE 架构实现了与 MLM 相当或更好的性能。
上图是论文提出的五个简单的预训练任务和 MLM。分别为:打乱、随机、打乱+随机、token 类型、第一个字符。
论文标题:
The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers
论文链接:
https://arxiv.org/abs/2108.12284
项目地址:
https://github.com/robertcsordas/transformer_generalization
这篇论文的作者提出了几个提高 transformer 系统泛化性的技巧,分别为:
使用相对位置嵌入解决 EOS 决策问题:实验表明,如果模型在没有 [EOS] token 作为输出词汇表的一部分的情况下进行训练,性能将进一步提高。得出的结论是,教导模型何时结束序列对模型的长度泛化能力有不良副作用。
谨慎选择模型:实验结果表明,在某些情况下,提前停止选择的模型甚至达不到最终泛化准确率的一半。大多数数据集都没有用于泛化的验证集 拆分。即使验证集可用于泛化拆分,使用准确率而不是损失来进行提前停止和超参数调整也至关重要。
Embedding 方案的重大影响:对于具有绝对位置嵌入的 Transformer ,单词和位置嵌入必须结合在一起。
论文标题:
The Power of Scale for Parameter-Efficient Prompt Tuning
论文链接:
https://arxiv.org/abs/2104.08691
在这篇论文中,作者探索了 “prompt tuning” 用于学习“soft prompt”以调节冻结语言模型(FPT)以执行特定的下游任务。通过使用 T5 对模型大小的消融,作者表明 prompt tuning 在规模上更具竞争力:当模型超过数十亿个参数时,论文提出的方法“缩小了差距”并匹配了模型调整的强大性能。
这一发现尤其重要,因为共享和服务大型模型的成本很高,而将一个冻结模型重用于多个下游任务的能力可以减轻这一负担。与完整模型调优相比,使用 soft prompt 调节冻结模型可以提高跨领域迁移的鲁棒性。
如图所示是传统模型 tuning 和 Prompt tuning 的对比。
CodeT5
论文标题:
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation
论文链接:
https://arxiv.org/abs/2109.00859
项目地址:
https://github.com/salesforce/CodeT5
BERT 和 GPT 等自然语言(NL)的预训练模型最近已被证明可以很好地转移到编程语言(PL)上,并在很大程度上受益于一系列与代码相关的任务。尽管取得了成功,但大多数当前的方法要么依赖于仅编码器(或仅解码器)的预训练,这对于生成(或理解)任务来说是次优的,要么以与 NL 相同的方式处理代码片段,而忽略了 PL 的特性,例如 token 类型。
这篇论文中作者提出了 CodeT5,这是一个统一的预训练 encoder-decoder Transformer 模型,它可以更好地利用从开发人员分配的标识符传达的代码语义。模型采用统一的框架来无缝支持代码理解和生成任务,并允许多任务学习。此外,论文还提出了一种新颖的标识符感知预训练任务,使模型能够区分哪些代码 token 是标识符,并在它们被 mask 时恢复它们。
此外,论文还利用用户编写的代码注释和双峰双生成任务进行更好的 NL-PL 对齐。实验表明,CodeT5 在理解代码缺陷检测和克隆检测等任务以及包括 PL-NL、NL-PL 和 PL-PL 在内的各个方向的生成任务方面明显优于先前的方法。
如图是 CodeT5 的预训练任务。
论文标题:
Thermostat: A Large Collection of NLP Model Explanations and Analysis Tools
论文链接:
https://arxiv.org/abs/2108.13961
项目地址:
https://github.com/DFKI-NLP/thermostat
为了促进语言领域的神经可解释性研究,论文作者展示了 Thermostat,其中包含大量模型解释和随附的分析工具。Thermostat 允许轻松访问超过 200k 解释,用于跨不同 NLP 任务的突出的最先进模型的决策,由多个解释器生成。随附的软件工具允许逐个分析解释,也可以在语料库级别上进行累积分析。
用户可以调查和比较模型、数据集和解释器,而无需编排实现细节。Thermostat 是完全开源的,使语言领域的可解释性研究民主化,避免了冗余计算并增加了可比性和可复制性。
论文标题:
T3-Vis: a visual analytic framework for Training and fine-Tuning Transformers in NLP
论文链接:
https://arxiv.org/abs/2108.13587
这篇论文作者提出了一个对于 transformer 的可视化框架,允许用户通过交互式可视化探索模型的不同方面(例如,隐藏状态、注意力),并允许使用一套内置算法来计算模型组件和输入序列不同部分的重要性。