当期荐读 2020年第5期 | 基于深度学习的人文社科专题数据库文本资源分类研究
图源:Internet
是沁 李阳
(南京大学信息管理学院,南京,210093)
摘要
文本资源是专题数据库建设的重要组成部分,亦是目前人文社科研究获取领域知识的主要途径。针对专题文本资源主题相近、内容专深、特征相似的特点,基于长短期记忆模型,提出一种融合注意力机制的人文社科专题文本资源分类模型。采用词向量完成样本文本数字化,利用长短期记忆模型进行语义特征提取,并引入注意力机制,突出关键短语以优化特征提取过程,最后采用Softmax给出专题文本分类结果。通过爬取“新华丝路”数据库与“一带一路”专题库的相关文本信息资源,对本文提出的模型的可行性和优越性进行验证,结果显示,融合长短期记忆模型与注意力机制的人文社科专题文本资源分类模型,在长短专题文本分类任务中表现都优于其他模型。
关键词
人文社科,专题数据库,专题文本分类,长短期记忆网络,注意力机制
1 引 言
专题数据库是指面对用户的定向需求,以某一学科、专题、地域特色文化等为对象,对相关资源进行搜集、处理并按一定标准和规范将其数字化的资源库,它具有鲜明的主题特征,并以此为主线描述和组织资源。随着数字人文、社会计算等领域的蓬勃发展,人文社科对优质数据资源的需求越来越迫切,专题数据库建设作为人文社科数据资源开发与利用的重要途径,受到了学界越来越多的关注。
人文社科专题数据库的基础为资源层,其涵盖了文本、图片、音频、视频等多种资源形态。其中,文本资源是专题数据库资源的重要组成部分。由于受大数据、云资源建设、科研众包、开放共享环境等影响,人文社科专题文本资源呈现爆发式增长,作为一种整合聚敛程度较高的数字化资源,如何实现自动分类成为专题数据库资源开发与管理的一个重要现实问题。
文本分类是构建层次化、关联化知识体系的基础和前提,决定了数据揭示与展示的质量和效果。与传统文本的分类不同,在专题数据库情境下,专题性质的文本信息资源属于主题相似度较高的不规则长短文本,因此,需要从不同维度对文本特征进行分析,否则很难判断其语义差异。同时,专题文本具有专业性强、复杂度高、时效性强等特征,这又增加了文本处理与分析的难度。
当前,人文社科对于知识的挖掘已经进入到“深水区”,专题数据库作为承载知识建构的重要方式,也在从数字化走向数据化和智慧化。在人文社科专题数据库文本分类中运用深度学习技术,可以在相关资源输入、分类、整合等模块实现“自动化生产”,既节省了人力资源又提高了分类效率。基于此,本文提出了一种新的混合式专题文本资源分类模型,基于LSTM模型提取专题文本特征信息,引入注意力机制获取含有重要意义的主题关键词,以提高人文社科专题文本分类的准确率,从而更好地为专题资源建设与管理提供服务。
2 相关研究现状
2.1
人文社科专题资源分类研究
人文社科专题数据库分类体系设计的主要目的是实现人文社科资源有效整理、归类,便于用户查找使用。目前人文社科专题资源分类的研究主要集中于分类体系现状分析、分类体系设计与实施两个方面。严丹等[1]对中国一带一路网、国研网“一带一路”战略支撑平台、社科文献出版社“一带一路”数据库与EBSCO“一带一路”全文数据库的建设现状、构建框架、栏目组织分类等开展调研;董永梅[2]在分析非遗网站和专题数据库中非遗资源分类体系缺陷的基础上,结合传统文献分类法、网络自编分类法、大众分类法构建了科学的非遗资源分类体系。胡昌平等[3]针对专题资源形式多样性、专题特色性等特征,构建了基于主题的特色文化资源分类体系,并结合“摆手舞”验证分类体系构架。现有研究在奠定专题资源分类研究理论基础的同时,也为深度学习下的专题文本资源分类模型构建提供了分类依据。
2.2
基于深度学习的文本分类模型研究
文本分类是指按照已经以定义好的主题类别,对数据集中的每个文档划分类别,是自然语言处理领域的一个经典课题。近年来,国内外学者相继展开了文本分类的相关研究,已有的研究通常分为传统机器学习方法与深度学习方法。传统的基于机器学习的文本分类方法通常包括朴素贝叶斯算法[4]、K-近邻[5]、支持向量机(Support Vector Machine, SVM)[6]、随机森林[7]等。尽管这些方法在一些实验中取得了一定的效果,但是在进行专题文本分类时仍存在一定的局限。人文社科专题文本具有类目繁多、语义相似、高时效性等特点,若使用传统的文本分类方法,容易忽略词序、语法等文本结构信息,造成特征矩阵高维稀疏等问题。
序列化模型将文本看作是有序的词语序列,这种模型结合文本的有序性与词语之间的关联性,可以学习到一些词袋模型无法学习到的语义信息[8]。Mikolov等[9]提出利用基于时间序列的循环神经网络(Recurrent Neural Network, RNN)进行文本分类。RNN是一种具有“记忆”功能的网络模型,通过链式重复神经网络架构保留历史信息,因此能够有效捕获和学习序列依赖关系。但实际上,随着两个时间步长之间的差距变大,标准RNN也无法学习长期依赖性。Hochreiter等于1997年提出了长短期记忆网络(Long Short-Term Memory, LSTM),该模型具有学习长依赖性数据特征的能力,之后,许多学者将其用于文本分类并对其进行一系列改进[10]。Zhou等[11]将双向长短期记忆网络(Bidirectional LSTM, BiLSTM)结合二维最大池化技术,分别在时间维度和向量维度提取文本特征以完成分类任务。然而LSTM及其演化模型在对文本特征提取过程中,未考虑到词语在语义表示中的重要程度,容易造成重点词被忽略,而非重点词被重视的现象,进而导致分类效果提升不明显。
在改善分类效果方面,最早运用于图像识别、机器翻译的注意力机制也逐步用于自然语言处理领域。注意力机制来源于认知心理学中人脑注意力机制,能够有选择性的重点关注文本的某些部分,较好地区分文本中词语的重要性程度,近来在文本分类领域得到关注。Zhou等[12]提出混合注意力模型,利用CNN、RNN分别提取字符级、词语级语义特征,并引入注意力机制实现中文短文本分类;卢玲等[13]针对长文本字符较多的特点,提出结合注意力机制的文本分类方法,将句子级信息过滤与长文本分类相结合,有效地改善了文本分类性能。
本文结合LSTM模型与注意力机制两种结构的优点,从词向量、文本、关键短语三个层次学习专题文本语义特征,以此构建一个WALSTM(Word2Vec-Attention-LSTM)混合体系结构。由于专题文本资源在主题与内容上有一定的相似性,通过在LSTM模型后引入注意力机制计算注意力分布概率,获得具有短语重要性区分度的文本特征表示,以此获得专题文本资源的细微差异。本文在研究中试图解决以下三个问题:①基于LSTM模型与注意力机制构建人文社科专题文本资源分类模型;②通过爬取典型专题库的文本资源,对模型可行性进行验证分析;③选择目前在中文文本分类任务中应用广泛的模型进行对比实验,验证构建的人文社科专题文本资源分类模型的优越性。
3 人文社科专题文本资源分类模型构建
3.1
人文社科专题资源分类研究
针对专题文本分类难度大、分类准确率低的现状,本文设计了基于深度学习的人文社科专题文本资源分类模型。以原始专题文本作为输入,样本类别作为输出,完成端对端的分类任务,其示例结构如图1所示。
(1)词嵌入层:将已分词后的专题长短文本作为输入,将文本转换为低维词向量。
(2)LSTM层:以词嵌入层输出作为输入,使用LSTM提取专题文本语义特征。
(3)注意力层:采用注意力机制计算有效特征,弱化无效特征,获取含有更高区分度的专题文本特征表示。
(4)分类层:利用dropout技术防止过拟合,用Softmax分类器预测人文社科专题长短文本的类别。
3.2
词嵌入层
文本分类的首要任务是解决文本表示问题,即通过某种形式将文本字符串转化成机器能够处理的数值向量,即进行词向量训练。
给定一个包含L个词的专题文本S,则S可以表示为{x1,x2,…,xL},其中每个词xl都可以转换为低维实值向量el。专题文本中的每个词通过查询词向量矩阵得到对应的词向量,词向量矩阵表示为Wword∈Rdw×|V|,其中,|V|表示词汇表大小,dw为词向量维度。为了保证文本向量的质量,同时降低词向量的针对性,增强泛化能力,本文选择搜狐全网新闻语料库训练词向量。在训练WALSTM模型过程中将对词向量维度进行微调,以期达到最佳分类效果。
3.3
长短期记忆网络层
人文社科专题文本资源是一种以时间为参考的序列化数据形式,且文本中还包含深层嵌套的语义,需要一种具有深度特征挖掘的序列化模型对其进行内容挖掘和特征抽取。LSTM是一种序列模型,同时也是一种深度学习模型,它能满足专题文本语义挖掘所需要的序列挖掘与深度挖掘两大需求。在序列挖掘方面,LSTM好似一个“记忆”设备,将专题文本中的词语从头到尾输入,并被“记住”,相比于RNN,LSTM模型能“记住”并挖掘更长的句子,并能在很大程度上避免训练中存在的梯度弥漫和梯度消失等问题。在深度挖掘方面,LSTM模型的多层神经网络结构有利于挖掘专题文本的深度语义特征。本文借鉴Hochreiter等[10]提出的LSTM结构,具体步骤与公式如下所示。
首先,通过“遗忘门”确定需要丢弃的信息,其计算公式如下:
其中,σ表示sigmoid激活函数,权重介于0-1,0表示彻底丢弃,1表示保留全部输入信息;xt表示输入向量,ht表示隐藏层向量,W、b分别表示权重矩阵与偏置向量。
其次,更新细胞状态。
设it为由sigmoid激活函数控制的输入门,确定更新信息,其计算公式为:
则在Ct-1基础上更新的细胞状态Ct为:
最后,通过“输出门”选择输出的信息。
3.4
注意力层
在专题文本资源分类过程中,主观上会根据语义决定其类别。然而句中每个词对语义表达所提供的信息是不同的,专题文本语义通常由主谓宾等关键词所决定。利用注意力机制,根据词语在表达句子意思中的重要程度分配权重,重视对句意表达重要的词,弱化对句意表达不重要的词,有助于获得包含更具语义特征的表示。如图2所示,在预测例句“医药保健企业深耕新兴市场”分类情况时,注意力机制生成对应到每一个词的权重值,分别为[a1,a2,a3,a4,a5,a6],那么权重向量中a1、a2的值将高于其他权值。
引入注意力机制后,专题文本的特征表示计算过程如下:
其中,ht是由LSTM学习得到的t时刻的特征表示,ut为ht通过一个简单神经网络层得到的隐层表示,uw是一个随机初始化注意力矩阵,αt为ut通过使用Sotfmax函数归一化操作得到的重要性权重,si即为最终特征向量。
3.5
分类层
为防止模型在训练过程中出现过拟合的现象,本文采用dropout技术,并通过Softmax分类器对所获得的专题文本特征进行多分类处理:
其中y是一个维度为类别数量大小的向量,代表专题文本属于某个类别的概率,n是可能的类别个数,则输入句子的类别为:
在模型训练过程中,通过最小化预测类别与实际类别的交叉熵训练模型,本实验给定训练的专题文本x和专题文本的真实类别l,则交叉熵误差为:
其中,θ为模型参数,li指实际的类别标签向量中的第i个值,yi为Softmax的输出向量y的第i个值。此外,本文为防止过拟合还对其进行L2正则化,则最终的目标函数为:
其中λ为L2正则项系数,N为训练样本量,模型训练采用Adam优化器来最小化目标函数J(θ),它能够利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率[14]。
4 实证研究
4.1
实验数据
为了检验本文构建的人文社科专题文本资源分类模型的分类效果,分别在两个数据集上设计了对照实验进行比较。采用网络爬虫方式采集“新华丝路”数据库①与“一带一路”专题库②的文本数据,并对获取的专题文本数据做如下操作:①清洗脏数据、空缺值和乱码句段;②剔除文本数量低于700的类别文本;③选用Jieba分词系统对专题文本数据进行分词,对分词结果去除停用词;④根据原有数据库基本架构设计,结合专家意见分析相关专题文本特征,并确定最终的归类和分类类别。处理后的数据集信息如表1所示。
“新华丝路”专题文本资源的分类难点在于字符较多,且围绕文本主题存在较多的补充性说明,大量的描述与承接性句子与文本的主题相似度较小。数据集样本示例如表2所示。
“一带一路”专题库以收录“一带一路”相关研究的元数据为主,其数据集特点为文本字符较少,属于短文本,且结构完整,句子语法结构规范。具体文本内容示例如表3所示。
4.2
基线模型选择
本文选择了三个神经网络模型作为基数模型,分别为:
(1)CNN:根据Kim[15]实现词语级卷积神经网络模型,词向量作为输入,卷积核个数为256,卷积核大小分别为3、4、5,卷积核层数为1。
(2)LSTM:模型来源于文献[10],本文赋予长短期记忆网络模型隐层神经元数为256,层数为1。
(3)CNN-BiLSTM:BiLSTM表示双向长短期记忆网络模型,由两个上述长短期记忆网络模型构成。BiLSTM以LSTM最终时刻隐层输出作为序列的单向输出向量,通过合并正反向向量,得到最后的双向输出向量进行文本分类。CNN-BiLSTM模型通过一维卷积核在文本不同位置滑动来提取词语的上下文信息,生成短语的特征表示,并在卷积层后采用BiLSTM模型提取文本特征。BiLSTM模型中正反向LSTM神经元数均为256。
4.3
模型训练
本文数据集均为中文文本,利用Word2Vec训练词向量,维度为300。
序列长度指数据集文本经过分词处理后的词数。由于本文选取的两个专题文本样本长度差异较大,因此需将两个样本分别处理成统一长度的序列,当输入样本长度小于本实验设定的序列长度时,使用0填充;当输入样本长度大于设定序列长度时,采取截断处理。当设定序列长度过大时,容易造成特征稀疏;当设定序列过小时,将会导致文本信息丢失。本文通过统计数据集的文本长度,设置序列长度分别为300和30。
WALSTM模型性能受到LSTM隐层输出维度、迭代次数、丢弃率等因素影响。在实验中采取十折交叉验证评估模型表现,选取最合适的参数组合,所有模型均以“新华丝路”数据集为基础确定超参数,以其最佳分类效果时模型参数为最佳参数。通过多次实验,在数据集上表现最好的参数组合为LSTM隐层输出维度为128,迭代次数为30次,丢弃率为0.1,学习率为0.001,正则系数为0.001。保持参数不变,在“一带一路”专题数据集上完成分类实验,测试在不同条件下的泛化能力。
4.4
实验结果
本文采用精度(accuracy)、召回率(recall)、F1值(F1-score)对实验结果进行评价。将基线模型同本文模型在不同数据集上的分类效果进行对比,实验结果如表4、表5所示,最优结果用粗体表示。
通过对比本文所提出的模型与CNN模型、LSTM模型、CNN-BiLSTM模型的实验数据发现,无论在样本长度较短的“一带一路”数据集还是在样本长度较长的“新华丝路”数据集上,WALSTM模型的分类效果都明显优于其他三种方法。
(1)通过对比CNN与LSTM模型的实验结果可知,LSTM模型分类效果优于CNN。CNN类似于传统的N-gram模型,通过捕捉专题文本的局部特征进行分类。然而,人文社科专题文本资源之间具有较强关联,需要考虑较远词语之间的联系,CNN在处理专题文本时忽略了语言中依存关系的结构特点。
(2)从LSTM与CNN-BiLSTM的对比结果可以看出,在CNN中引入BiLSTM网络层,专题长文本分类效果并没有得到较大改善。在“一带一路”数据集上,CNN-BiLSTM的分类准确率略低于LSTM,其原因可能是摘要等短文本存在特征稀疏问题,难以根据词的共现信息挖掘其语义,使得基于自动特征学习的CNN与BiLSTM在应用于短文本分类时,仍然存在不足。
(3)WALSTM和CNN-BiLSTM的对比表明,本文所提的模型分类效果提升较大,表明了其应用于专题长短文本分类的有效性及适应性。WALSTM与基线模型相比,优点在于不仅能够细粒度、完整地学习人文社科专题长短文本的全局特征表示,而且能更好地学习到具有注意力分布的更高级别表示的长期依赖关系。
4.5
LSTM参数检验
在循环神经网络中,每一轮epoch包括所有的训练操作,理论而言训练轮数越多越有利于达到模型最优效果,但是当训练轮数到达一定量时,可能会存在过拟合风险,反而导致模型精度下降,同时增加了计算机运算负担,大大降低模型实用性。因此,本文通过改变epoch次数来探究模型合理的训练次数。
实验过程中,选取“新华丝路”数据集进行epoch次数选取实验,分别设置epochs={1,2,3,…32},得到的实验结果如图3所示。
从图3中可以看出,当epochs=3时,测试F1值达到最高点,随着迭代次数不断增加,测试F1值在80—81.5%之间起伏,这表明模型的性能较为平稳。本文以模型训练充分且F1值在一个较高的水平作为训练条件,因此epoch选值30是最适合本实验模型的取值。
5 结 语
本文基于人文社科专题数据库建设的大背景,以专题文本资源为研究对象,从深度语义向量提取角度出发探索改善其分类效果的方法。针对传统卷积神经网络模型、长短期记忆网络模型、双向长短期记忆网络模型未考虑词语在语义表示中的重要程度的问题,引入注意力机制以减少特征提取过程中的信息冗余现象。在多分类、多数据集下进行实验,结果表明,结合LSTM模型与注意力机制的WALSTM模型在处理专题长文本分类任务时,分类精度较基线模型最高提升了18.2%,在处理专题短文本分类任务时相较于LSTM模型提高了7.8%。由此可见,该模型在提取专题文本语义特征时,具备保留历史信息且利用前后文信息的能力,且能利用注意力分数计算缓解语义信息丢失问题。
下一步笔者将从语料选择和模型处理两个方面做一些改进。本文选取的专题短文本为一带一路相关研究摘要数据,专题长文本为一带一路相关新闻文本,虽然具有一定的代表性,但中文数据与英文数据中的语义信息与语法构成存在一定差异,笔者将在后续研究中添加英文专题长短文本进行分类模型性能测试实验,以得到更具有普遍性的模型效果数据。在模型处理方面,主要体现为使用Bert模型训练文本向量,进行更深层次与更细粒度的语义挖掘,再结合条件随机场(CRF)模型进一步提高人文社科专题短文本分类准确率。此外,本文所提出的模型对于输入数据的长度进行设置,可能会在一定程度上影响模型对较长专题文本的分类精度,后续研究可通过调整序列长度来选取合适的取值。
尾注:
“新华丝路”数据库① https://www.imsilkroad.com/
“一带一路”专题库② https://www.ydylcn.com/zx/
作者简介
是沁,博士研究生,研究方向为数据管理与知识服务, Email:13809072562@163.com。
李阳,博士,助理研究员,研究方向为应急情报与信息资源管理。参考文献
*原文载于《信息资源管理学报》2020年第5期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
是沁,李阳.基于深度学习的人文社科专题数据库文本资源分类研究———以“新华丝路”数据库与“一带一路”专题库为例[J].信息资源管理学报,2020,10(5):23-29,37.
制版编辑 | 王阿凤