几个可作为Baseline的文本分类模型

查看原文

其他

几个可作为Baseline的文本分类模型

Original 老宋的茶书会 AINLP 2020-10-22

收录于话题

#AINLP@我爱自然语言处理

98个

作者：老宋的茶书会

知乎专栏：NLP与深度学习

研究方向：自然语言处理

前言

最近，从TensorFlow 迁移至 Pytorch，所以诞生了这个仓库：NLP-Pytorch，里面实现了一些文本分类的模型与阅读理解的模型。

Github地址：https://github.com/songyingxin/TextClassification-Pytorch

我认为文本分类任务对初学者是最友好的，且企业中大多数都是都需要文本分类，很多情况下你去了公司实习，做文本分类的可能性极大。本文对几个经典的文本分类模型进行总结，具体的实现可参见仓库，考虑到 Bert 的诞生，词向量可能会退出舞台，因此，只实现了这几大基本模型，后续的可能要在 Bert 上做文章了。

1. TextCNN[1]

表示一个第i 个词其 k 维的词向量表示，对于一个长度为 n 的句子，有：，我们通过对向量矩阵 X 进行卷积操作来提取特征，其中， x_{i:i+j} 表示第 i 个词到第 i+j 个词，共 j+1 个词。

对于一个窗口大小为 h 的卷积核，其 shape 为，其提取特征的过程为：

1个卷积核对 X 一次卷积的过程需要对分别进行卷积操作，我们得到最终的特征表示：

然后，文章对特征向量 c 采用最大池化操作来提取最重要特征：

上述的过程描述的是一个卷积核对 X 提取特征的过程，而实际中，我们往往要采用多种窗口大小的卷积核，且每种窗口的卷积核有很多个，这里假设卷积核的窗口大小为 3， 4， 5，卷积核的shape分别为，其对应的卷积核数量为。

对于窗口大小为 3 的卷积核，我们在一次卷积过后获得一个的矩阵，然后对该矩阵进行最大池化得到一个的向量，该向量就是窗口为3 的卷积核所提取的全部特征。

同样的道理，窗口为 4 的卷积核所提取的特征为一个的向量，窗口为 5 的卷积核所提取的特征为一个的向量。

最后我们将这三个向量拼接起来形成一个的向量，然后将该向量送入输出层：

2. 对TextCNN 的分析 [3]

文章 [3] 对CNN 用于文本分类时的超参进行分析，这些超参包括：词向量的选择，Filter 的大小，卷积核的数量，激活函数的选择， Pooling 策略，正则化方法。

Word Embedding

文章比较了三种情况：Word2vec， Glove， Word2vec + Glove，而实际上，三者的性能相差无几，具体的依旧要看任务数据集，并没有定论，因此在实际的开发中，分别采用不同的预训练词向量来帮助我们更好的选择。

Filter Size

不同的数据集有其适合的 Filter Size，文章建议区域大小为 1-10 内进行线性搜索，但如果数据集中的句子长度较大(100+)，那么可以考虑设置较大的 Filter Size。

不同size的 Filter 进行结合会对结果产生影响，当把与最优 Filter size 相近的Filter 结合时会提升效果，但如果与较远的Filter 结合会损害性能。因此，文章建议最初采用一个 Filter ，调节 size 来找到最优的 Filter size，然后探索最优Filter size的周围的各种 size 的组合。

卷积核数量

对于不同的数据集而言，卷积核的设置也有所不同，最好不要超过600，超过600可能会导致过拟合，推荐范围为100-600。同时，卷积核数量增多，训练时间会变长，因此需要对训练效率做一个权衡。

激活函数

尽量多尝试激活函数，实验表明，Relu， tanh 表现较佳。

Pooling 策略

实验分析得出， 1-max pooling 始终优于其他池化策略，这可能是因为在分类任务中，上下文的位置并不重要，且句子中的 n-granms 信息可能要比整个句子更具预测性。

正则化方法

实验表明，在输出层加上L2正则化并没有改善性能，dropout是有用的，虽然作用不明显，这可能是因为参数量很少，难以过拟合的原因所致。文章建议不要轻易的去掉正则化项，可以将 dropout 设置为一个较小值 (0-0.5)，推荐0.5 ，对于L2，使用一个相对较大的约束。当我们增加卷积核数量时，可能会导致过拟合，此时就要考虑添加适当的正则项了。

3. TextRNN

以双向LSTM 或GRU来获取句子的信息表征，以最后一时刻的 h 作为句子特征输入到 softmax 中进行预测，很简单的模型，就不详细介绍了。

4. TextRCNN [4]

说实话，这篇论文写的真乱，一个很简单的思想，看起来比 Transformer 还复杂，真的是有点醉，不推荐看原论文，写的真的很冗余。

文章的思想很简单：

首先，对于单词 w_i ，获得其词向量表示
然后，采用双向 GRU 来获取每个词的上下文向量表示
为了更好的表示词的信息，文章将原始词向量，上下文表示结合起来，形成词的新的向量表示，这里作者采用一个全连接网络来聚合这些信息：

采用最大池化来获取句子的最终表示：
最后，采用一个softmax 来做分类：

5. HAN [5]

问题定义

HAN 主要针对 document-level 的分类，假定document 中有L个句子：，对于句子 s_{i}，其包含有 T_{i} 个单词：。

Word Encoder

对于一个句子 s_{i} ，文章采用词向量矩阵将其做 Embedding，然后采用双向 GRU 来获得该句子的上下文表示，以第 i 个句子中的第 j 个单词为例：

Word Attention

考虑到在每个句子中，各个词对句子信息的贡献不同，因此此处引入一个注意力机制来提取语义信息，更好的获得句子的表示。

Sentence Encoder

一个 document 中有L个句子，我们需要对这L个句子的信息进行整合，但很明显，句子之间的信息是由关联的，因此文章采用双向GRU对句子信息进行综合来获得每个句子新的表示：

Sentence Attention

考虑到在一个document中，各个句子的重要程度并不同，因此采用一个Attention 来对句子信息进行整合最终形成 document 的最终信息：

Document Classification

最后

虽然文本分类是最简单的任务，但其在企业中应用最为广泛，十分适合初学者入门学习。

Reference

[1] TextCNN：Convolutional Neural Networks for Sentence Classification

[3] A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification

[4] Recurrent Convolutional Neural Network for Text Classification

[5] Hierarchical Attention Networks for Document Classification

[n] Large Scale Multi-label Text Classification With Deep Learning

原文链接：

https://zhuanlan.zhihu.com/p/64603089

本文由作者授权AINLP原创首发于公众号平台，点击'阅读原文'直达原文链接，欢迎投稿，AI、NLP均可。

喜欢此内容的人还喜欢

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…