(含源码)「自然语言处理(NLP)」【论文速递】Shuffle-Exchange优化、Transformer优化、学习表示映射!
喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!
引言
本次共有三篇Paper和大家分享,第一篇主要是序列对序列建模训练的问题,将复杂度由
正文开始
1First Blood
TILE: Neural Shuffle-Exchange Networks -- Sequence Processing in O(n log n) Time
Contributor : University of Latvia (拉脱维亚大学)
Paper: https://arxiv.org/pdf/1907.07897v2.pdf
Code: https://github.com/LUMII-Syslab/shuffle-exchange
文章摘要
序列到序列处理的一个关键需求是对长期依赖关系的建模。为此,绝大多数最先进的模型都使用了
为什么要提出Shuffle-Exchange神经网络介绍
在算法任务中,每个输出符号通常依赖于每个输入符号,对远程信息的聚合甚至更为重要。算法综合的目标是从给定的输入-输出实例中得到一个算法,这些输入-输出实例通常是作为序列给出的。由于需要处理无限长度的序列,算法任务尤其具有挑战性。此外,泛化也起着重要的作用,因为训练通常是在短序列上进行,而在长序列上进行测试。目前最好的神经网络结构不能很好地适应序列长度。其中很大一部分使用了依赖于序列长度的二次复杂度的注意机制。这些模型可以很容易地在512左右的长度上进行训练,但在较长的序列上就会变得非常慢,而且内存不足。
在序列算法任务方面,在各种可学习任务和更长的序列泛化方面,最佳架构是改进的NeuralGPU(FreivaldsandLiepins,2018) NeuralGPU(Kaiser and Sutskever, 2015)。它有
什么是Shuffle-Exchange网络
将消息从多个源路由到多个目的地是计算机网络领域的一个研究热点,在计算机网络中,已经开发了几种用于连接两组设备的稀疏体系结构。作者受此启发,Shuffle-Exchange具有规则的分层结构,最适合作为神经网络的原型。Shuffle-Exchange由Shuffle和Exchange两个阶段的重复应用组成。下图则为该网络的架构图:Beneš网络是由连接Shuffle-Exchange网络镜像copy2。镜像拷贝是通过反转目标地址计算中位偏移的方向得到的。Beneš网络2 k−1交换阶段和2 k−2洗牌阶段。这样的网络可以在任何输入到输出的排列中路由2k消息。
Shuffle-Exchange模型结构介绍
该网络模型结构由交替Switch层(这里的Switch层和上面说的Exchange层是一个意思)和Shuffle层组成。
在Switch层中,我们将单元划分为相邻的非重叠对,并将开关单元应用于每对3。开关单元类似于门控循环单元(GRU),但它有两个输入[s1,s2]和两个输出[s1,s2, o]。它包含两个重置门,每个输出对应一个重置门。复位门主要负责单位的权力,这是很重要的,每个输出使用一个单独的复位门为单位产生不相关的输出。从技术上讲,创建对的实现方法是将序列s重新构造为两个更短的序列,其中每个新单元将沿着特征维度连接两个相邻的单元[s1,s2]。开关单元的定义如下:
TILE: OmniNet: A unified architecture for multi-modal multi-task learning
Contributor: IBM Watson
Paper: https://arxiv.org/pdf/1907.07804v1.pdf
Code: https://github.com/subho406/OmniNet
Transformer是一种广泛使用的神经网络结构,特别是用于语言理解。本文会介绍一个扩展的、统一的体系结构,它可以用于涉及各种模式的任务,如图像、文本、视频等。提出了一种时空缓存机制,除了对应于时间输入序列的隐藏状态外,还可以学习输入的空间维度。该体系结构使得单一模型支持具有多种输入模式的任务以及异步的多任务学习,因此我们将其称为OmniNet。
OmniNet介绍
我们提出了一个统一的体系结构,即OmniNet,以支持学习具有多个输入域的多模式任务,并支持针对任何一组任务的通用多任务。OmniNet体系结构由多个子网络(称为外围网络)组成,这些子网络连接到一个称为中枢神经处理器(CNP)的公共中枢神经网络,如下图所示:
每个外围网络用于将特定域的输入编码到特征表示中。在这项工作中,我们描述了图像、文本和视频外设。根据任务的不同,可以添加更多,比如语音外设。外围网络的输出表示总是一个时空张量
中央神经处理器(CNP)对每个输入域对应的外围网络生成的时空表示进行处理。CNP使用完全基于注意力的编解码器[23,24,25]模型进行序列转换,类似于转换器架构,这是最先进的多语言建模任务。在编码阶段,CNP实现了一个通用的
TILE: Learning Representation Mapping for Relation Detection in Knowledge Base Question Answering
Contributor:国家新型软件技术重点实验室(南京)
Paper: https://arxiv.org/pdf/1907.07328v1.pdf
Code: https://github.com/wudapeng268/KBQA-Adapter
关系检测是包括知识库问答在内的许多自然语言过程应用的核心步骤。目前得到较高的准确度,是因为关系已在训练数据中。当应对不可见的关系的时候,表现将迅速下降。造成这一问题的主要原因是不可见关系的表示形式缺失。为此本文提出了一种简单的映射方法——表示适配器(representation adapter),该方法基于先前学习的关系嵌入来学习可见和不可见关系的表示映射。利用对偶目标和重构目标来提高映射性能。我们重新组织了流行的简单问题数据集来揭示和评估检测不可见关系的问题。实验表明,本文方法要优于当前比较的一些方法。
1、我们不是仅仅从训练数据中学习关系表示,而是采用了从覆盖范围更广的整个知识图中学习表示的方法。
2、提出了一种映射机制,称为表示适配器,或者简单地称为适配器,以将学习到的表示合并到关系检测模型中。我们从适配器的非平凡训练的简单均方误差损失入手,提出将对抗性和重构目标结合起来以改进训练过称。
3、将简单的问题集重新组织为简单的问题平衡,分别对可见和不可见关系的性能进行评估。
4、实验表明,我们提出的方法在检测未知关系方面取得了很大的进步,同时与现有的检测方法保持了一定的可比性。
Representation Adapter介绍
Representation Adapter架构图如下:
其中,左边是基本适配器;中间是对抗性适配器;右边是带重构损耗的适配器。
Representation Adapter相关性检测应用
我们将适配器集成到最先进的关系检测框架中(Yu et al., 2017, hierarchy Residual BiLSTM (HR-BiLSTM))。
该框架使用问题网络将问题句编码为矢量
其中使用适配器的KBQA基线。共享的Bi-LSTM用相同的颜色标记。适配器映射依赖于特定任务的关系,而特定任务又依赖于相应的网络。
1、关系检测在SQB数据集上的微观平均精度和宏观平均精度。
2、采用不同的关系检测模型对整个KBQA系统的微平均精度进行了测试。
3、在测试不可见集中,我们计算了该预测率的宏观平均值。
论文阅读
ICLR 2020必看!「自然语言处理(NLP)」金融情感分析FinBERT模型(含源码)!!
「自然语言处理(NLP)」【爱丁堡大学】基于实体模型的数据文本生成!!
「自然语言处理(NLP)」【Borealis AI】跨域文本连贯生成神经网络模型!!
「自然语言处理(NLP)」CTRL:16.3亿个参数的条件转换语言模型
学术圈长按识别下方二维码,关注我们吧(づ ̄3 ̄)❤~
搓搓手~,点个【在看】吧(*^_^*)