查看原文
其他

【源头活水】将线性门控机制应用于卷积结构

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—DengBoCong

地址:https://zhuanlan.zhihu.com/p/395977833

nlp-paper:https://arxiv.org/pdf/1612.08083.pdf

nlp-paper:https://github.com/DengBoCong/nlp-paper

nlp-dialogue:https://github.com/DengBoCong/nlp-dialogue

text-similarity:https://github.com/DengBoCong/text-similarity

说明:阅读原文时进行相关思想、结构、优缺点,内容进行提炼和记录,原文和相关引用会标明出处,引用之处如有侵权,烦请告知删除。

统计语言模型本质上是在给定前面若干个单词的条件下,通过概率建模来估计单词序列的概率分布,即:

比较典型的方法是N-gram语言模型,即当前位置只和前面N个位置的单词相关,但是这样也会带来问题即,N若小了,语言模型的表达能力不够,N若大了,遇到稀疏性问题时,无法有效的表征上下文。LSTM模型一般会将单词embedding到连续空间,然后输入进LSTM,从而有效的表征上下文,但LSTM的问题在于,作为递归模型,当前状态依赖于上一状态,并行化受到限制,导致运行速度非常慢。
既然RNNs很难通过硬件的并行化进行加速,那么自然而言会尝试使用卷积,卷积网络非常适合这种计算范式,因为所有输入词的计算可以同时进行。所以这篇文章吸收了LSTM的门控机制,将其应用在了卷积结构中,从而使得卷积模型保留非线性能力的同时,能够一定程度上减少梯度消失问题,而使其拥有更加深的结构。


01

结构细节
首先使用一个lookup table  对输入序列进行embedding,其中  表示单词表中的单词数量,  表示嵌入大小,每个单词    在词嵌入查找表中都能找到一个向量表示    ,然后将序列表示E作为卷积层的输入,输入表示为    

其主要结构跟原始的CNN并无很大差异,只不过在卷积层引入了门控机制,将卷积层的输出变成了一个没有非线性函数的卷积层输出*经过sigmod非线性激活函数的卷积层输出。其中      是不同的卷积核,卷积核宽度为    ,输出通道数为    ,    和    是偏置参数。  这一部分就是所谓的门控机制GLU,它控制着哪些信息可以传入下一层,这也使得卷积模型可以进行堆叠,以捕获Long Term Memory。
当然,除了GLU,还有一种被称为LSTM-style的门控机制,即GTU:

不过从梯度的角度对两种门控单元进行分析,会发现GTU理论上会衰减的比较快,因为其梯度公式中包含两个衰减项,而GLU只有一个衰减项,可以较好地减轻梯度弥散,如下:
GLU: 

GTU: 

在模型预测时最简单的方法是使用一个  层进行预测,但对于词量大的词表来说,在计算上显然不够有效率,本文中采用  ,其为高频词提供更高的容量,为低频词提供更低的容量。这在训练和测试时降低了内存需求以及提供了更快的计算速度。


02

实验结果
Tanh是GTU去掉输出门部分后的模型,将其和GTU比较研究门限影响和贡献,从实验中对比可以看到GLU取得了最优的结果,如下:


03

总结
这里有几个小细节:
论文使用的是宽卷积
Specifically, we zero-pad the beginning of the sequence with k−1 elements, assuming the first input element is the beginning of sequence marker which we do not predict and k is the width of the kernel
对于文本长度更大的数据集而言,论文使用了更深的网络结构以获取其Long-Term记忆。
本篇论文做出的贡献如下:
提出一种基于线性门控单元(Gated Linear Units)的卷积网络并将其运用于语言建模。GLU在保持一定非线性能力的同时通过为梯度提供线性的传播路径使得在深度架构中能够有效减少“梯度消失”的问题。
在GBW数据集上证明了该卷积网络性能优于其他语言模型:如LSTMs,并在段落数据集WikiText-103上验证了该模型处理长距离依赖(long-range depenencies)的能力。
证明了GLU比LSTM-style门控具有更高的准确度和更快的收敛速度。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存