【NLP论文分享&&语言表示】有望颠覆Transformer的图循环神经网络(GNN)
引言
基于Transformer的预训练模型近年来得到了很大的发展,成为自然语言处理领域的重要支柱之一。而随着研究的不断深入,最近的工作表明Transformer内部的注意机制可能不是必需的,卷积神经网络和基于多层感知器的模型也被也被当做替代Transformer方案来进行研究。而今天为大家推荐的这篇文章,「创新性的研究了一种不依赖注意机制且具有线性计算复杂度的图循环网络用于通用语言模型预训练。」
背景介绍
预训练神经模型(PTMs)已广泛应用于自然语言处理(NLP)中,使包括自然语言理解、问题回答、摘要生成和对话在内的一系列任务受益。目前的主流方法采用Transformer架构,这是一种基于自注意网络(SAN)的高度工程化模型,在计算视觉、语音和生物任务中显示出具有竞争力的性能。「尽管Transformer架构取得了成功,但基于变压器的模型通常受到二次元时间复杂度的困扰,同时需要大量计算资源、财务支持以及环境成本」。此外,最近的研究表明,作为Transformer的关键组成部分的注意机制可能是不必要的。例如,Tay等人发现,在没有Token-Token交互的情况下,学习合成注意力权重的模型也能在某些任务中获得不俗的表现。因此,「研究预训练模型的Transformer替代方案具有理论和实际意义,所以最近也提出了各种非Transformer的PTM方案,而我们则创新性的考虑一种图循环网络(GNN)用于语言模型的预训练」。
模型介绍
GNN及其变体已广泛应用于自然语言处理任务中,包括机器翻译、信息提取和情感分析。在GNN语言建模中,如何用图结构表示句子是一个关键问题。从这个角度来看,ConvSeq2seq可以被视为一个图卷积网络(GCN),它的节点连接位于本地内核内部。基于Transformer的模型可以看作是一个全节点连接的图注意力网络(GAT),而图循环网络(GRN)模型的连接的节点相对较少。我们遵循Sentence-state LSTM (S-LSTM) 的 GRN 结构,使用图结构表示一个句子,将每个单词作为一个节点,同时将一个句子状态节点周期性地执行状态转换,以允许Token节点与其相邻节点以及句子级节点交换信息。本文模型结构如下图所示:
实验结果
本文首先通过语言建模任务探索合适的架构设置。然后我们使用大规模语料库进行预训练,并验证我们的模型在学习英语和汉语 NLP 任务的可迁移知识方面的有效性。
1、在WikiText-103数据集上做模型训练,并和RoBERTa进行对比,如下图所示:
对于英文任务,模型结果与ALBERT和BERT相比很好,分别达到其了99%和98%的性能。 对于中文任务,模型效果与BERT相当(准确度在0.05点以内),并且略好于使用相同数量的训练语料的 ALBERT(78.78 对 77.92)。
推荐阅读
[1]必看!!【AINLPer】自然语言处理(NLP)领域知识&&资料大分享
[2]【NLP论文分享&&中文命名实体识别】如何构建一个优秀的Gazetteer/地名词典(浙大&含源码)
[5]【NLP论文分享&&源码】多修辞文本生成(nFLAG)
论文&&源码
Title: Pre-Training a Graph Recurrent Network for Language Representation
Author: Westlake University
Paper:https://arxiv.org/pdf/2209.03834v1.pdf
Code:https://github.com/ylwangy/slstm_pytorch