查看原文
其他

NLP.TM[24] | TextCNN的个人理解

机智的叉烧 CS的陋室 2022-08-08

【NLP.TM】


本人有关自然语言处理和文本挖掘方面的学习和笔记,欢迎大家关注。


往期回顾:

TextCNN应该是NLP中非常经典的模型了,文本分类中他应该是深度学习方法的入门级方法,最近发现很多博客和github其实对Textcnn没有完全理解,内容上其实完全违背了作者的本意,不要把TextCNN简单地认为就是用了CNN而已,TextCNN之所以被称为一个里程碑式的工作,会因为它具有很多有意思的思路,不仅仅是用了CNN本身。我来和大家谈谈TextCNN论文里面提到的一些思路和细节。

参考文献放两个,一个是原作,另一个是我参考的博客。

  • Yoon Kim,Convolutional Neural Networks for Sentence Classification:原论文。

  • https://www.cnblogs.com/bymo/p/9675654.html:博客一篇。

TextCNN的主要思路

具体思路可以用下面一张图来表示:

这个还是非常明显的,做了embedding后,卷积层、最大池化层、全连接层,一气呵成,这个结构相信对深度学习的大家应该理解起来都不会太难。

但是,只理解到这一步绝对不能理解到TextCNN其中的内涵,毕竟论文虽然不长,但是上面几句话确实不需要很多篇幅。

深挖TextCNN中Trick

一维卷积

首先,这里的一维卷积,绝对不是指卷积核是一维的,卷积核的实质是一个x行y列的向量,尤其y,是指embedding词向量的维度,x经常在2-5之间。来看这个图,大家应该会更加清楚的。

这里为了简化,每个单词给了一个只有5维的词向量,后面分别是给了3种类型的卷积核,但是都有一个特点,就是他的列都和词向量一致,这就是一维卷积的核心,相当于要从整个词向量(玄学的说就是语义)抽取关键信息。

另一个关键点在于一个关键点在于,卷积的横向x行,这个行的实际含义可以理解为N-Gram的形式的信息抽取。

预训练模型和微调

在那个时代,word2vector是非常常用的预训练模型,预训练模型的优点就是可以利用外部数据,外部数据代表的是整体语境的含义,这就是预训练词汇的优势。但是,这个理解外部信息也是一个劣势,毕竟你的具体问题不是整体领域,而是某个垂直领域,这就导致你这里需要分析和取舍。更为夸张的,作者给出了4种处理预训练词向量的模式。

  • 词向量直接用随机的。

  • 固定的预训练词向量模型。

  • 微调的预训练词向量模型。

  • 多通道预训练词向量模型。

这里的多通道,最终使用的方法是一个通道是固定的预训练词向量模型,走卷积核等整个链路,预训练模型不跟着反向传播更新卷积,另一个通道预训练词向量模型也是走卷积等整个链路,但是预训练模型参数会跟着反向传播更新,两个链路在最大池化后concat起来一起做全连接得到最终分类结果。

那么,上面几个方案,具体那个好呢,作者是做了实验的:

其实可以感受到,随机的和固定模型的小伙都是靠后的,而多通道和微调在不同的数据下则比较接近,各有胜负。

所以,通过论文这个角度,用预训练模型,然后进行微调,性价比是最高的,多通道毕竟运算复杂度更高。

这里多通道和微调的结果接近的深层次原因还有待深入探究,个人认为很可能是因为这里面都包含了微调,毕竟微调和固定的结果差距很大,这里可能在concat后的全连接中,给了固定模型更低的权重,从而导致两者接近过接近。这个猜想做着同样做了一些的分析:

超参的细节

超参作者谈的不多,直接整了,这由于是作者自己尝试过的,所以我们可以作为参考,我们看看里面有没有一些trick吧。

  • 卷积层的行用了3,4,5三种,代表的是三种N-Gram窗口大小,没用2,有点意思。(感觉这个中英文可能有差异)

  • 随机失活用了0.5,个人感觉还不小。

  • L2正则,权重3.

  • batch size用了50。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存