论文荐读 2020年第1期 | 大数据驱动的社交网络舆情用户情感主题分类模型构建研究 ——以“移民”主题为例
题图源于网络
专题 · 突发事件应急情报分析
大数据驱动的社交网络舆情用户情感主题分类模型构建研究
——以“移民”主题为例
王晰巍¹ ² 邢云菲¹ 韦雅楠¹ 王 铎¹
(1.吉林大学管理学院,长春,130022;
2.吉林大学大数据管理研究中心,长春,130022)
摘 要
基于卷积神经网络构建大数据驱动的社交网络舆情用户情感主题分类模型,通过爬虫分别获取微博和Twitter用户针对热点主题“移民”的情感文本内容,利用Word2Vector训练中文词向量,GloVe训练英文词向量,使用NLPIR和BosonNLP工具进行分词,构建基于“移民”主题的用户情感语料库,通过CNN卷积神经网络对情感分类进行训练和测试,并将分类结果与TimeLSTM和SVM的分类结果进行对比以验证CNN分类的优越性。数据结果表明,所构建的模型能够实现有效的多语言环境下中英文文本分类,通过合理设置激活函数和相关参数能够优化提高模型分类准确度,相较传统机器学习具有一定的优越性。在处理“移民”话题的文本分类上,CNN分类效果优于TimeLSTM模型。研究为跨语言的社交网络舆情用户情感主题图谱的可视化分析提供了前期的研究框架。
关键词
卷积神经网络, 社交网络, 情感分类, 主题模型, 舆情监测, 用户研究
1 引言
国内以微博、国外以 Twitter为代表的社交媒体由于其海量信息资源和平台的开放性,已经成为包括企业、媒体和网民获取信息和传递信息的重要媒介[1]。中国互联网络发展状况统计报告显示[2],截至2018年6月,中国网民规模达到8.02亿人,互联网普及率为57.7%,在整体网民数量中微博用户数比例达到42.1%。相比而言,Twitter月活跃用户达3.3亿人,同比增长4%,是美国广受欢迎的社交媒体平台。社交网络用户从信息的被动接收者转变为主动进行信息获取和传播,并针对社会热点事件表达观点、情绪和态度[3]。社交网络的便利性和普及性使得虚假信息、偏激言论和不良信息渗透到互联网空间,影响了互联网生态环境[4]。对社交网络用户的情感演化研究成为近几年国内外学者在分析舆情演化和舆情发展中关注的重要问题,它能够帮助舆情监管部门及时了解网民的情感倾向,并采取有针对性的措施引导舆情朝着健康和谐的方向发展。国内外学者开展了社交网络舆情情感分析的相关研究。国外学者Xu等[5]提出了 一种改进的词表示方法,将情感信息的贡献集成到传统的TF-IDF算法中,生成加权词向量,将加权后的词向量输入双向长短时记忆(BiLSTM)中,用前馈神经网络分类器得到了评论的情感倾向;Kumar等[6]采用Harel-Koren快速多尺度布局构建网络可视化,采用基于 Spearman秩相关系数的意见排序方法对产品进行正、负排序,并用机器学习方法(朴素贝叶斯、最大熵和支持向量机)进行情感分类研究; Luo[7]等提出了一种基于注意力的双向神经网络方法,即长短时记忆与条件随机场层(AttBiLSTM-CRF)进行化学命名实体识别和分类,取得较高分类准确率。国内学者朱茂然等[8]提出一种 基于用户网络结构与情感倾向的Leader-PageRank算法,以汽车论坛为例识别在专业领域具有影响力的意见领袖;李勇等[9]使用 MATLAB软件及数理统计分析工具进行社交网络用户情感传播的时间序列分析并绘 制有关图表,据此分析情感传播的线上线下差异及其影响因素;吴鹏等[10]利用词嵌入技术通过增加文本的情感特征生成具有情感意义的词向量,并训练双向长短期记忆模型得到网民负面情感识别模型。
从国内外学者对情感分类的研究来看,国内学者对网民情感的研究主要集中在情感分类设计算法、文本挖掘和词典构建等,较少使用机器学习方法对社交网络舆情情感主题模型进行构建,国外学者对机器学习有较深的研究,其中研究较成熟的方法有朴素贝叶斯和支持向量机等;正在扩展的机器学习方法有CNN和LSTM 等模型;研究刚刚起步的有由LSTM改进的BiLSTM模 型和 Attention-based BiLSTM模型。BiLSTM即双 向 LSTM,较单向的LSTM,能更好地捕获句子中上下文的信息,但模型训练耗时较长;Attention-based BiLSTM 模型是在 BiLSTM 模型上加入 Attention层,先计算每个时序的权重,再用最后一个时序的输出向量作为特征向量,但其在标识不需要一致性的其他实体类型方面存在缺陷。由于BiLSTM-Attention模型的复杂性,大大增加了算法 的时间复杂度,因此需要大量数据才能体现算法的优越性。目前少有研究模型基于同一主题同时采集国内外社交媒体上用户的评论文本进行情感的对比分析及分类,也不能体现模型对多语言文本处理的优越性。
本文基于卷积神经网络构建大数据驱动的社交网络舆情用户情感主题分类模型,通过网络爬虫获取微博和 Twitter 数据, 使 用 Word2Vec进行中文分词和训练词向量,使用GloVe进行英文分词,构建基于“移民”话题的中英文情感语料库,使用改进的卷积神经网络构建情感主题分类模型,通过调整参数提高模型分类准确率,使本文提出的 CNN 情感分类模型在分类基于“移民”话题情感文本时效率最高。本文使用Time-LSTM 和 SVM 模型与改进的 CNN模型的分类结果进行对比分析,验证 CNN模型的优越性,并试图解决以下三个方面的研究问题:①基于改进的 CNN 模型构建大数据驱动的社交网络舆情用户情感主题模型;②通过典型舆情话题分析国内外两大社交网络媒体用户的情感倾向;③通过调整参数使模型性能达到最优,并对比Time-LSTM和 SVM模型验证本文提出的模型优越性。研究在理论层面基于卷积神经网络构建大数据驱动的社交网络舆情用户情感主题模型,在实践层面针对热点主题构建情感语料库,从而为跨语言的社交网络舆情用户情感主题图谱的可视化分析提供前期的研究框架。
2 相关理论
2.1 情感分类
情感是人对客观事物是否满足自己的需要而产生的态度体验,是人类表达自己看法和观点的重要方式,可以被认为是对人类面部表情和信息行为的研究[11]。情感分析是通过抽取文本获得用户主观情感倾向来分析用户的情绪变化趋势和情绪分布规律,进而追踪网络舆情热点发展动态[12]。
情感分类指将网民情感分为多种类别[13]。一般情感被研究学者分为正向、负向和中性,不同学者在进行情感分类研究时使用的研究标准也不同。学者 Ekman[14]在1972年最早将情感分为六大类,分别是愤怒、厌恶、恐惧、快乐、悲伤、惊讶;Francesca[15]在分析网民针对移民问题的网络道德脱离和敌对情绪的基础上,把网民针对移民的情感总结为优势比较、道德辩护、结果影响、责任位移和非人道主义。
2.2 社交网络舆情用户情感分类
社交网络文本具有字数少、语法不规则、数据噪声大等特点,增加了情感分析的难度[16]。主题评论是用户意见的来源,情感分析有助于识别用户对意见领袖的情感倾向,社交网络用户的生成内容(UGC)按用户情感可分为积极、中性和消极[17]。
有相关学者提出一种基于多 Agent和卷积神经网络的新型社交网络搜索与感知模型,并将该模型分别应用于社交网络搜索、感知和连接感知分析[18]。Zhang等[19]提出了一种用 于卷积神经网络的端到端可训练的全局池操作算法,并设计了一种AlphaMEX的称为非线性平滑对数函数,有效提取文本特征;张海涛 等[20]基于卷积神经网络构建了微博舆情情感分类模型,并采用 NLPIR工具进行分词,通过Matlab编程实现模型训练和测试。但由于在情感分类过程中,中文文本表示方法中词语间修饰关系的语义信息能力较弱,难以利用依存句法揭示句子中词语间的修饰关系的特性,将句子中的依存关系转化为文本表示特征项;英文单词则存在丰富的词形变换。为了应对这些复杂的变换,英文训练词向量前要进行词形还原和词干提取,这给情感分类任务带来较大的挑战。
2.3 大数据环境下的分词和词向量训练
中文分词是将连续的汉字序列按照一定规则重新组合成次序列的过程。英文单词间以空格作为自然分解符,而中文只能通过字句和段这些明显的分解符来分隔,词与词之间没有形式上的分解符,因此相比英文分词,中文分词更加困难。中 文 分 词 Word2Vec依赖 skip-grams 或连续词袋来建立神经词嵌入,是用来训练词向量进而构建语言文本的浅而双层的神经网络[21]。Word2Vec模型在词向量训练完毕后能够映射每个词到一个向量来表示词与词之间的关系, 这个向量为神经网络的隐藏层[22]。GloVe是训练英文词向量的无监督学习算法,是针对来自全球语料库的聚合单词词共现统计进行的,它的结果能够表示英文单词向量空间的线性子结构[23]。GloVe曾被训练2亿条推特 和27亿英文符号,被广泛应用于英文分词领域,能够达到比Word2Vec更高的准确率。GloVe模型训练词向量代价函数为:
其中vi 和vj 是单词i和单词j的词向量,bi 和bj 是两个标量,f 是权重函数,N 是词汇表大小, N*N 表示贡献矩阵维度。Word2Vec和 CNN模型在文本分类上比 GloVe 与 CNN模型结合时容错率更低,因此关联度更高。由于两个模型都可以根据词汇的共现即词汇共同出现的频率信息,将词汇编码成一个向量。Word2Vec的输出是单词同时出现的概率分布,而 Glove通过计算单词同时出现的概率的比率来区分单词。Word2Vec中隐藏层没有使用激活函数,因此隐藏层学习的其实是线性关系。Glove提出了一个加权最小二乘回归模型,输入为单词与上下文同时出现频次矩阵:当前学者将 Word2Vec与 CNN模型结合的研究成果更多,但 GloVe在处理英文文本时更有优势。基于此,本文采用 Word2Vec进行中文分词,英文分词采用GloVe。
3 大数据驱动的社交网络舆情用户情感 主题分类模型
基于国内外领域内学者的相关研究,本文基于卷积神经网络构建大数据驱动的国内外社交网络舆情用户情感主题分类模型,如图1所示。①通过大数据环境下的网络爬虫技术获取微博和Twitter输出接口数据 API,爬取两个社交媒体用户评论数据。②在数据预处理阶段,清洗数据并删除停用词,对词性进行标注,人工判断情感倾向性(包括正向、负向和中性)。③在训练词向量阶段,使用 BosonNLP等工具进行分词,使用 Word2Vec训练中文词向量、GloVe训练英文词向量,构建文本矩阵和中英文情感语料库。④把标注好的数据标记为训练集,通过卷积层、池化层和全连接层调节模型参数权重,进行交叉验证;在测试集中对正确率、召回率和 F1值进行测试。⑤通过对参数进行调试确定最优模型。
图1 大数据驱动的社交网络舆情用户情感主题分类流程图
3.1 数据采集及处理
本文使用网络爬虫获取微博用户评论数据,模拟浏览器访问设置简单规则自动获取数据。本文使用 Scrapy爬虫框架,start_requests中根据用户ID 启动4个 Request,分别为:_id即采用“用户ID-微博ID”的形式作为一条微博的唯一标识;Comment即微博被评论的数量;Content即微博的内容;PubTime即微博发布时间[24]。本文使用Python获取Twitter用户评论数据,连接 API接口,建立 Tweepy类库,设置search( ) 和 lang( ) 参 数, 以 “Illegal Immigrantion”作为关键词,遍历发布 Twitter的用户终端获取数据。
通过R语言编程对评论信息进行数据清洗和删除停用词,主要对字段缺失值、重复信息和乱码信息进行预处理,形成训练数据集和测试数据集,主要分为以下几步:①首先对训练文本进行分词,由这些词作为向量的维数来表示文本;统计每一类文档中所有出现的词语及其频率,然后过滤并剔除停用词和单字词;②统计文本中所有出现的词语及其频率,然后过滤并剔除停用词和单字词;③统计文本集中出现词语的总词频,并取若干个频率更高的词汇作为这一类的特征词集;④去除每一类别中都出现的词,合并所有类别的特征词集,形成总特征词集,用该集合去筛选测试集中的特征文本。
3.2 文本向量训练与选择
Word2Vec训练词向量主要依据给定的语料库,通过优化后的训练模型高速有效地将一个词语表达成向量形式,其核心架构包含 CBOW 和 Skip-gram。基于 Hierarcical Softmax 的 Word2vec优化模型包括输入层、投影层和输出层。训练的目标是最大限度地观察实际输出词在给定输入上下文且考虑权重的条件 概率。从隐藏层到输出层,通过权重矩阵 W 计算词汇表中的得分,然后使用softmax来计算词的后验分布。通过 GloVe进行全局词频统计,把每一个单词表达成一个由实数组成的向量,这些向量可以捕捉单词之间的一些语义特性,比如相似性或类比性等。采用 AdaGrad的梯度下降算法,对矩阵 X中的所有非零元素进行随机采样,学习曲率 (learning rate) 设为0.05,在vector size小于300的情况下迭代50次,其他大小的vectors迭代了100次,直至收敛。通过对向量的运算得到两个单词之间的语义相似性。将微博用户评论数据和 Twitter用户评论数据采用NLPIR/ICTCLAS2016工具进行分词,用于对比Word2Vec与GloVe训练词向量的结果。
3.3 基于卷积神经网络的情感主题分类模型
用xi 表示一条用户评论信息中第i个词对应的词向量,维度为300。由于评论信息包含的词语或单词数量不同,通过补零将每条评论内容扩充成同等长度,则一个长度为n 的句子表示为:
通过对词向量的纵向连接操作即相加可将评论信息转化为大小相同的句子矩阵作为 模型输入,即 X1:n ∈Rn*300。
对文本句子矩阵进行卷积操作时,首先考虑滤波器的选择和初始化。滤波器W ∈Qkp 中k是滤波器的尺寸,代表每次卷积操作过程中词语或单词的数量;p 是词向量的维度。卷积运算即一个滤波器与一个包含k 个词的字符串进行卷积得到的特征向量。当滤波器 W 卷积某一个字符串 Xi,i+p-1 时,产生的特征向量 ci 表达式为:
ϑ 是偏置项,f 是非线性激活函数。在训练词向量过程中,输入层向量表示为 X =(x0,x1,…,xn) ,中间层向量 表 示 为 T = (t0,t1,…,tn) , 输出层向量表示为Y = (y0,y1,…,yn) , 从输入层到中间隐含层权重为γij , 隐含层到输出层的权重为δjk ,隐含层偏差阈值为σ,输出层阈值为ρ,则从输入层到中间隐含层和从隐含层到输出层的公式分别表示为:
通过输出向量 mk 与目标向量nk 比较计算误差μk 和隐含层误差μj ,即
4 样本选择及数据处理
4.1 样本选择
2018年11月1日美国总统发表公开演讲并发布 Twitter“非法移民影响到所有美国人的生活,伤害了美国工人,加重了美国纳税人的负担,破坏了公共安全 ……”表示正在签署行政令取消“只要在美国出生就可以获得公民身份”的政策。该移民政策无论对美国公民还是移民都产生了重要影响,引起各国媒体和公众的广泛关注。以“Trump;Illegal Immigration”和 “特朗普;移民”为关键词分别在Twitter和微 博上检索,得 到 6285973 和 35286 条信息,说 明该话题热度高,信息量大,关注的网民数量多。因此,本文选择“移民”热点话题作为数据源,获取国内外社交媒体用户评论内容作为研究样本,进行用户情感分类研究。
本文共获取Twitter有效数据25320条、微博用户评论有效数据20142条。在总结 Twitter和微博用户的评论信息基础上,把 Twitter 和微博用户情感分为对“反对非法移民”政策的支持、反对和中立。通过人工标注方法,由三名情报学博士研究生和两名情报学硕士研究生对情感记性进行标注并复合,判断情感倾向性(正向、负向和中性),最终形成训练样本集。大数据驱动环境下样本数据量大,数据内容复杂,无法进行贴标。本文采用关键词聚类方法,将具有相同关键词的文本聚类为一类进行分类处理。如 Twitter评论中带有关键词 “ancestors”和“immigrants”的文本进行共同标注,95%的网民表达的观点大致相同,即早期美国人都是由移民组成,美国历史是由移民构成的,美国公民不应反对移民。因此这些评论可被聚类为反对美国总统提出的反对非法移民政策。通过关键词聚类方法能够更加快速高效地进行文本分类任务。
4.2 情感语料库构建
本文对文档进行分词,通过将文档中的文本归类为情感词和程度副词、否定词,以此判断情感词与程度副词或否定词结合产生的情感值[25]。如情感词与程度副词的乘积代表程度副词的程度值,情感词与程度副词的乘积乘以“-1”代表情感词前有否定词,最后,将一条语句的所有情感词的情感值得分加起来,大于0 的归于正向,小于0的归于负向。本文选择 BosonNLP情感词典构建社交媒体用户中文情 感语料库。英文语料库的构建主要来自两个英文语料库词典, 一个是MPQA词典(http:// mpqa.cs.pitt.edu/),该词典的主观词语来自 OpinionFinder系统,含有8221个主观词,并为每个词语标注了词性、词性还原以及情感极性;另一个是哈佛大学提出的General Inquirer情感词典 (http://www.wjh.harvard.edu/~inquirer/homecat.htm),该词典收集了1914 个褒义词和 2293个贬义词,并为每个词语按照极性、强度等设置不同的标签。本文构建的“移民”话题情感语料库如表1所示。
表1 移民话题情感语料库构建
BosonNLP情感极性词典可以用于构建社交媒体情感分析引擎、负面内容发现等应用。在BosonNLP情感词典中,采用UTF-8进行编码,每行为一个情感词及其对应的情感分值,以空格分隔,共包括114767个词语。数值为负代表该词的语义呈负向,数值为正代表该词的语义呈正向。情感强度由数值决定,值越大代表情感强度越高。本文基于微博热词榜和Twitter流行词统计表进行人工添加网络热词,建立社交媒体用户关于“移民话题”的情感语料库。
4.3 数据处理
通过 Word2Vec与 GloVe对微博和Twitter用户评论文本进行分词,使用TF-IDF评价词级别向量即关键词出现频率,如表2所示。数据结果显示,微博用户评论关键词IDF排名 在前的为美国、移民、孩子、国籍、生子等,其中关键词“美国”的词频最高, 为 3912。而 Twitter用户评论关键词主要集中在“Immigrats”“born”“Illegal”“People””Twitter”等,其中 “Immigrats”词频最高,为18255。针对美国总统提出的反对非法移民政策,微博用户主要关注如何合法成为美国移民和“赴美生子”的争议问题,而 Twitter用户主要关注合法移民与非法移民应区别对待,以及美国是否应接纳移民等问题。
表2 微博和Twitter“移民话题”关键词及词频
经人工对词性进行标注判断情感倾向性结果如图2所示,针对美国总统提出的“反对非法移民”政策,微博用户有34.37%的持支持态度,超过一半的(52.04%)持中立态度,仅有13.59% 的反对该政策。而 Twitter用户则大多数持反对态度,其中有50.21%的反对美国总统 或该政策, 有 40.49% 保持中立, 仅有9.30%的支持该政策。
图2 国内外社交媒体用户情感分类结果
4.4 实验环境
每次选取80%的数据集作为训练集,选取剩余的20%作为测试集,测试集不参与训练。本文对 BosonNLP情感极性词典基于微博热词榜和Twitter流行词统计表进行人工添加网络热词,建立社交媒体用户关于移民话题的情感语料库。该语料库数据量大,覆盖面广。采用Keras深度学习工具包,使用 Python作配置环境,通过 CNN 卷积神经网络进行情感分类测试,实验环境设置包括定义嵌入层、定义卷积核大小、设置最大池化层、设置不同激活函数等。参数的不同选择,在很大程度上影响了模型整体的性能。本文针对卷积核尺寸、激活函数等待调整参数,通过实验进行讨论分析,以确定最优的参数组合。
5 数据结果及讨论分析
5.1 模型训练及测试
本文将卷积核尺寸分别配置为1, 2, 3,4,5,6,特征映射数量为500,dropout比率为0.5,L2 正 则 化 系 数 为0.6。本文以微博和Twitter用户针对“反对非法移民”话题的评论数据为例,对模型进行10次训练和测试,如表3所示。当卷积核尺寸大于1时,模型处理情感分类任务才能有效提升广度,因此卷积核尺寸为1时模型处理分类任务准确率最低。
表3 不同卷积核尺寸 CNN分类准确率
卷积核尺寸大小为偶数时卷积核即使对称加入补白也不能保证输入和输出特征图尺寸不变,因此,卷积核尺寸为偶数时模型的分类准确率低于卷积核尺寸为奇数时模型的准确率。卷积核尺寸为3时模型的分类准确率最高,达到91.03。
准确度用来衡量结果的有用性,召回率用来衡量结果的完整性。卷积核尺寸为5时,模型分类召回率最高为89.26,说明在该卷积核尺寸下模型识别率最高。F1值是精确度和召回率的调和平均值。卷积核尺寸为3时,模型F1值最高为90.02。因此,本文选择3作为卷积核大小。本文分别对激活函数,Dropout随机失活率与迭代次数进行控制变量实验,以获得最优模型参数。
5.2 激活函数和参数设置
神经网络基于反向传播训练是可微激活函数。反向传播在函数应用上呈梯度下降,需及时更新网络权重。常见的激活函数包括线性激活函数、sigmoid函数、tanh函数、ReLU 函数和ELU函数等。通过 ReLU神经元的较大梯度可能导致权重更新过度,神经元再也不会因为任何数据点而被激活,经过这一单元的梯度从此以后将永远为零。基于此,本文选择 PReLU函数、tanh函数和ELU三种函数分别设定卷积层和池化层来测试模型的分类准确率。PReLU函数将系数即很小的非零梯度作为激活函数参数,因 ELU 收敛速度更快,能够得到比 ReLU更高的分类精确度。
实验结果显示,在卷积层使用 ELU 函数,池化层选择tanh函数,模型达到最优效果,情感分类准确率达到91.65%, 召回率达到92.24%,测试集F1值达到90.36%。ELUs是ReLUs的一个相对平滑的版本,它能加速收敛并提高准确度,与ReLUs相比,ELUs拥有负值,这就能允许它们以更低的计算复杂度将平均单位激活推向更加接近0的值。tanh在特征差别明显时的效果很好,在循环过程中会不断扩大特征效果。在分析关于“移民”话题情感语料库分类上,可在卷积层和池化层采用上述两种激活函数,从而使分类准确率达到最高。
在相同网络结构下,决策面越复杂,参数值往往越大,而参数较小时得到的决策面相对平缓。L2正则化是在原有损失函数中增加了L2正则化项,在优化网络输出与真值的误差时还要让参数尽量小。L2 参数从0到0.9变化对模型的影响如图3所示。数据结果显示,L2参数变化对模型分类准确率没有明显影响,L2参数取值为0.6—0.7时模型对中文文本分类准确率最高,因此将L2参数设置在0.6左右,模型在分类中文情感时效率最高;L2 参数在0.5或0.7时,模型在分类英文文本内容时准确率最高,因此将 L2参数控制在0.6左右能够最优化处理中英文情感分类任务。当 L2值设定为0.6或0.7时,该分类模型能够处理最多中英文文本分类任务。此外,L2参数为0.6时,模型分类中英文文本的 F1值最高,因此,本实验将L2参数最终设置为0.6。
图3 L2参数选择
设置 Dropout随机失活率参数能够减少模型分类误差,防止过拟合现象。Dropout参数从0.1—0.9变化对模型的影响如图4所示。相比较L2参数,Dropout参数的变化对模型分类性能具有更明显的影响,中英文文本随随机失活率变化效果相似。当 Dropout参数在0.3— 0.5之间变化时,模型分类效率最高,召回率和 F1值也较高;当 Dropout参数为0.4时,模型分类中文文本和英文文本准确率都达到最高,同时,模型分类的召回率也较高,说明此时该分类模型也能够成功处理最多中英文文本分类任务;Dropout随机失活率参数超过0.5时,模型的整体指标呈现下降趋势,可能产生过拟合现象。因此,在对关于国内外社交媒体用户针对“移民”话题的情感分类上,将 Dropout参数设置为0.4能使模型分类效果达到最优。
图4 Dropout参数选择
同时,增加模型训练次数能够有效降低模型分类误差。CNN情感分类模型误差率随训练次数的增加呈现逐步下降趋势。在模型训练初期,误差率在1.02%左右,相对较高。随着训练次数增加到 1000 次,误差率下降到0.3%左右。但当训练次数超过1000次时,模 型误差率反而上升,可能导致过度训练。因此把训练次数控制在1000以内能够保证误差率在0.3%左右。
5.3 模型对比实验
为验证模型的优越性, 本文使用Time-LSTM和 SVM 支持向量机分别训练微博和Twitter用户针对“移民”热点话题的评论内容, 结合卷积神经网络训练结果对本文构建的CNN模型的优越性进行对比实验,结果如图5所示。
图5 对比实验结果
Time-LSTM 模型是具有记忆来自输入的先前数据并基于该知识作出决定的存储器。这些网络更适用于书面数据的输入。Time-LSTM基于上下文感知情景进行文本分类,在处理具有时间序列的上下文感知情感分类上具有更高的准确率。本文通过调整参数使模 型分类文本准确率和召回率都微高于Time-LSTM。只有当训练样本数量在600左右时, CNN模型的准确率微低于Time-LSTM;当训练样本数量在800左右时,CNN模型的召回率微低于Time-LSTM 模型;当样本数量持续增加,CNN模型表现出更多优势。对比实验数据结果表明,本文构建的 CNN模型在中英文文本分类处理的准确率分别提高了3.07% 和 5.68%;召回率分别提高了3.03%和4.86%;F1值分别提高了2.48%和5.27%。由于国外社交媒体微博用户评论内容短文本更多,而国外社交媒体Twitter用户评论内容以长文本居多,在处理短文本分类上,CNN模型比Time-LSTM 模型分类效果更好。相比较Time-LSTM分类模型,本文提出的大数据驱动的社交网络舆情用户情感主题模型对英文文本情感分类任务效率提高更明显。
本文综合对比BiLSTM和BiLSTM-Attention的训练结果发现,BiLSTM 训练过程耗时较长,而BiLSTM-Attention模型由于复杂性高,大大增加了算法的时间复杂度,因此需要大量数据才能体现算法优越性。本文提出的改进的CNN算法在训练次数较少时准确率高于 BiLSTM 和 BiLSTM-Attention模型,并且训练速度 较快,但随着训练次数增加则显出劣势。因此,本文认为,当训练数据量足够大时可选择BiLSTM或 BiLSTM-Attention模型或将CNN与 BiLSTM 模型结合,能够达到最优分类效果。
6 研究结论
将卷积核尺寸设置为3,在卷积层使用ELU函数,池化层选择tanh函数,L2参数设置为0.6,Dropout函数设置为 0.4,在处理国内外社交媒体用户针对“移民”话题的情感文本分类能够达到最优效果。本文提出的大数据驱动的社交网络舆情用户情感主题模型比传统的 SVM 模型分类文本准确率和召回率提高了4%左右,具有一定的优越性和实用性。
本文基于卷积神经网络构建大数据驱动的社交网络舆情用户情感主题分类模型,通过网络爬虫获取微博和Twitter数据,使用 Word2Vec进行中文分词和训练词向量,GloVe 进行英文分词,构建基于“移民”话题的中英文情感语料库。使用改进的卷积神经网络构建情感主题分类模型,通过调整参数提高模型分类准确率,使本文提出的 CNN情感分类模型在分类基于“移民”话题情感文本时效率最高,为其他学者进行后续相关话题情感分析和分类研究提供了文本支撑。在实践层面,本文的研究可帮助政府及舆情监管部门及时掌握网民情感倾向,并针对网民情感极性变化规律采取有效管控措施。数据结果表明,CNN模型能够提高不同语言环境下文本情感的分类性能。
本文克服了人工抽取特征的困难,提高了大数据驱动的多语言环境下情感分类的准确率和分类效率。但本文在研究中,仅以一个话题为例进行实证分析具有一定的局限性,构建的情感语料库不能全面覆盖所有语义。另外,本文并未做图像和符号处理,而是删除了停用词、图片、符号等要素。在后续研究中,本文将针对社交网络中民生领域更为广泛的主题,通过机器学习来构建更多语料库和进行主题模型训练和测试,并利用深度学习对图片和符号进行分析,调整降低模型的过拟合风险及模型的训练难度。
作者简介
王晰巍,女,教授,博士生导师,研究方向为大数据应用、舆情分析和信息行为。
邢云菲,女,博士研究生,研究方向为社交网络、舆情分析。
参考文献
*原文载于《信息资源管理学报》2020年第1期29-38页,欢迎个人转发,公众号转载请联系后台。
*本文引用格式:
王晰巍,邢云菲,韦雅楠,等.大数据驱动的社交网络舆情用户情感主题分类模型构建研究——以“移民”主题为例[J].信息资源管理学报,2020,10(1):29-38.
制版编辑 | 王小燕
• 论文荐读 2020年第1期 | 数据开放获取使科学惠及更广——中国开放科学与科学数据开放获取的进展与前瞻