最新综述:速览Transformer长文本建模研究进展
© 作者|董梓灿
机构|中国人民大学
研究方向 | 自然语言处理
本文介绍了一篇综述文章"A Survey on Long Text Modeling with Transformers",讨论了使用Transformer进行长文本建模的最新进展。文章也同步发布在AI Box知乎专栏(知乎搜索 AI Box专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨!
论文地址:https://arxiv.org/abs/2302.14502
论文概要
长文本建模一直以来是NLP的一个重要且具有挑战性的问题,文章关注长文本建模的三个挑战——长度限制、计算效率以及长文本的独特性质切入介绍了近年来近年来的工作和进展。之后,文章介绍了Transformer在长文本领域的应用以及讨论了若干个未来的研究方向。希望文章能够为为相关方向的研究者了解此领域提供参考。
长文本建模概述(Overview of Long Text Modeling)
符号定义
输入 :长文本序列 输出 :模型以输入为条件生成的输出,根据任务不同可能是一段序列、一个标签或者一个值 预处理方法 :对输入进行预处理,使得能够输入满足长度限制 模型架构 :进行建模的主体Transformer架构 特殊性质 :需要建模过程中满足的长文本含有的独特性质
定义:给定一个输入 ,对输入进行预处理。之后预处理的数据 使用模型 进行建模,并满足特殊性质 ,得到输出 应用于下游任务。
数学描述
长文本预处理(Preprocessing Long Input Texts)
背景:预训练语言模型(PLM)通常预定义了最大上下文长度,如BERT的可处理送往最大token数为512。面对长度限制问题,文章中介绍了三种方法 处理输入使得输入可以直接被PLM处理。
文本截断(Truncating Long Texts):从头开始对输入文本进行截断到PLM最大长度,将截断后的文本送入PLM。 文本分块(Chunking Long Texts):将输入文本分成一个个文本块,其中每个文本块长度小于等于PLM最大长度。之后,每个文本块分别被PLM处理。 文本选择(Selecting Salient Texts):将输入文本分成一个个文本块,识别并连接其中重要的文本块成为新的输入序列。新的输入需要满足小于PLM最大长度并送往PLM进行处理。
文章讨论了以上三种方法的具体工作以及彼此间的优缺点。
长文本Transformer架构(Transformer Architectures for Long Texts)
背景:原始的Transformer模型的复杂度随输入长度 呈现出 的增长。面对长文本建模需要的计算效率,需要探究更加高效的Transformer架构以及预训练的策略。
高效Transformer(Efficient Transformer):针对Transformer的自注意力机制进行改进降低复杂度。 固定模式(Fixed Attention Patterns):根据位置选择每个token可以交互的token子集。 可学习模式(Learnable Attention Patterns):根据输入的内容信息选择每个token可以交互的token子集。 注意力近似(Attention Approximation):对注意力机制进行近似改进,分为低秩近似和核近似。 高效编码器解码器注意力(Efficient Encoder-decoder Attention):对解码器和编码器之间的注意力机制降低复杂度。 循环Transformer(Recurrent Transformer):不改变自注意力机制,而是对输入进行分块,使用模型对当前以及存储的先前块的信息进行处理。 长文本预训练(Pretraining for Long Texts):针对长文本,设计更合适的预训练目标函数,使用长文本作为训练数据,并可以从现有的PLM开始继续训练。
长文本特殊性质(Special Characteristics of Long Text)
背景:之前两个章节的方法理论上足以处理长文本问题。但是,相比于普通的文本,长文本含有许多独特性质。利用这些独特性质,可以更好地对长文本进行建模。
长期依赖(Long-term Dependency):当前,许多方法关注局部细节信息的建模。然而,在长文本中,遥远的词之间可能存在依赖关系。 增强局部注意力:为了弥补高效Transformer中局部注意力的不足,增加模块捕捉长期依赖信息。 建模块间交互:文本分块中不同分块之间信息缺少交互,增加单向或者双向的块间信息交互。 句间关系(Inter-sentence Relations):长文本中含有许多句子,因此拥有复杂的句间关系。然而,PLM大多更善于捕捉token级别的依赖,因此需要对于句子层面的关系进行额外建模。 层次化模型:将Transformer结构修改为层次化模式,利用编码器显式编码句子级表示,解码器利用两个级别的信息。 图模型:将下游任务转化为结点分类任务,文本转化为图。其中,句子表示作为结点,利用边捕获句间关系,并使用图神经网络进行结点分类。 篇章结构(Discourse Structure):长文本中通常含有复杂的篇章(含有多个句子的语义单元)结构信息,如科学论文中的章节。 显式设计模型:在模型中设计模块负责捕捉篇章结构信息。 隐式增强模型:不改变模型架构,在训练,输入预处理等阶段引入归纳偏置。
应用(Applications)
文章介绍了涉及建模长文本的典型下游任务:
文本摘要(Text summarization) 问答(Question answering) 文本分类(Text classification) 文本匹配(Text matching)
未来方向(Future Directions)
最后,文章讨论了一些可能的未来方向:
探究适用于长文本模型架构 探究长文本预训练语言模型 探究如何消除长文本和现有语言模型之间的差距 探究在低资源情况下对长文本进行建模 探究使用大型预训练语言模型(LLMs)对长文本进行建模
总结
文章介绍了近年来使用Transformer解决长文本的一些研究工作,如果不足和遗漏,欢迎大家留言讨论。
更多推荐
EMNLP 2022|SimANS:简单有效的困惑负样本采样方法
从EMNLP 2022速览信息检索领域最新研究进展