当期荐读 2020年第6期 | 突发公共卫生事件微博舆情主题挖掘与演化分析
图源:Internet
曹树金 岳文玉
(中山大学信息管理学院,广州,510006)
摘 要
探索突发公共卫生事件微博舆情传播周期中各阶段的热点主题,勾勒舆情事件主题演化的时序发展趋势,为舆情决策与分析提供科学依据。以近期发生的影响巨大的一起重大突发公共卫生事件为例,结合生命周期理论、TF-IDF特征词-权值模型以及潜在狄利克雷模型方法,将时间维度融入微博文本分析,进行包括时间序列的主题挖掘工作,挖掘隐含的主题信息和舆情演化规律,并提出相应的舆情管控策略。采用的舆情演化分析方法能够揭示突发公共卫生事件微博舆情传播周期中各阶段主题的讨论内容和时序发展趋势,研究对于优化微博平台民意收集作用和辅助相关管理部门在处理类似事件时,有效引导与控制网络舆情提供了一定的理论基础支撑和科学决策支持。
关键词
突发公共卫生事件 网络舆情 主题分析 演化分析 舆情分析 微博文本挖掘
1
引言
突发公共卫生事件具有控制难度大、爆发性强以及应对周期长的特点,不仅影响公众的身心健康,也给政府相关部门的防控工作带来挑战。社交媒体技术的快速发展为突发公共卫生事件网络舆情产生、发酵、升温、传播与爆发提供了环境,以微博为代表的新媒体已经成为公众发表观点的重要渠道。2019年底,一起重大突发公共卫生事件在我国爆发,2020年1月30日,世界卫生组织宣布将该事件列为“国际关注的突发公共卫生事件”[1],对公民生活和社会经济发展带来巨大影响,引发公众在微博平台上的激烈讨论。公众针对当前事件发表意见、情绪和态度的相关信息,迅速形成舆情通过微博快速传播。一方面,这些大量信息为相关管理部门提供了宝贵的公众意见及态度来源;另一方面,由于新闻素材来源广泛,信息不对称导致的谣言和公众情绪波动不断发酵,舆情爆发和传播难以控制,增加了社会不稳定的风险要素。
2020年2月10日,习近平总书记在北京调研指导该事件防控工作视频会议中,作出“要加强舆论引导工作”的重要指示[2]。政府相关部门应及时了解舆情发展状况和公民态度,根据处置进展动态发布信息,促进信息通畅和民心凝聚。有效的舆情管控,需要对整个事件进行全面了解并把握舆情演化规律。本文以该事件为例,基于大量相关微博文本,结合生命周期理论、TF-IDF模型和LDA模型方法,将时间维度融入微博文本分析,结合特征词权重辅助进行主题识别工作,挖掘隐含的主题信息和舆情演化规律。针对舆情事件的演化特征进行对策性研究,形成从采集与处理、挖掘与分析,到策略支持的全过程舆情分析框架,对于优化微博平台民意收集作用和辅助相关管理部门在处理类似事件时有效引导与控制网络舆情,提供了一定的理论基础支撑和科学决策支持。
2
相关研究
2.1 突发事件生命周期研究
由于不同学者的研究角度不同,突发事件生命周期的阶段划分具有不确定性,有四阶段、六阶段以及八阶段等多种划分模式。Fink[3]对于突发事件的传播提出了经典的四阶段生命周期模式,包括潜伏期、爆发期、蔓延期和恢复期;贾亚敏等[4]构建了城市突发事件网络舆情传播的生命周期模型,并将其划分为起始阶段、爆发阶段、衰退阶段及平息阶段,其研究反应了各个阶段的量化特征;廖海涵等[5]将微博舆情传播周期划分为萌芽期、成长期、衰退期以及平稳期;李纲等[6]将网络舆情的发展演化过程分为潜伏、成长、蔓延、爆发、衰退和死亡六个阶段;吴晓娟[7]依据目标话题传播趋势的多峰特征,将舆情演化周期划分成八个阶段。上述研究多利用生命周期理论为指导,对突发事件网络舆情的演化模式进行分析,更细致、深入地挖掘了舆情事件传播中的有效信息。本文以生命周期理论为基础,依据突发事件网络舆情生命周期曲线的特点对舆情事件进行划分。
2.2 微博话题发现研究
随着微博的普及,微博话题发现及演化研究逐渐受到学者关注。主题模型是当前话题发现研究的重要方面。国外学者对主题模型领域的研究相对较早,Salton等提出了空间向量模型(Vector Space Model)[8]和TF-IDF(Term Frequency-Inverse Document Fre-quency)特征词-权值模型[9];Deerwester等提出了潜在语义分析模型(Latent Semantic Analysis,LSA)[10],引入“语义”维度,对TF-IDF矩阵实现了降维;Hofmann提出了基于概率统计的PLSA(Probabilistic Latent Semantic Analysis)模型[11];Blei等在PLSA的基础上,引入Dirichlet先验分布,提出了隐含狄利克雷模型(Latent Dirichlet Allocation,LDA)[12]。在国内,越来越多的学者参与推动微博话题的研究,陈磊等[13]在LDA的基础上融入Word2vec方法,提高特征分类的效果;伊秀娟[14]提出一种基于标题加权的TW-LDA(Title-Weighted LDA)主题模型,通过对特征词加权,提高了对主题描述的准确性;李海磊等[15]将词对向量空间模型(Biterm-VSM)和LDA模型进行结合,解决传统的话题检测方法在微博短文本上存在的缺陷。
2.3 突发事件微博舆情管理研究
国外研究主要集中在社交媒体舆情状态监控以及舆情分析处理技术等方面。例如,Keelan等[16]通过分析博文的特征以及对博主的论点类型进行分类,了解公众对疫苗接种的看法和态度,认为关注公众对公共事件的态度以及利用新媒体技术引导公众舆论是政府应对舆情的有效措施;Ma等[17]介绍了重大突发事件中网络舆情信息的获取方法,绘制舆情传播规律曲线,并从信息发布和动力来源的角度提出应对策略。国内的研究范围主要集中在突发事件网络舆情管理、监测以及舆情引导的应急决策支持等方面。刘继等[18]构建了网络舆情基本特征挖掘体系,将机器的定量计算和决策者的定性分析相结合,构建舆情智能监测机制;姚乐野等[19]指出了突发事件应急管理实践中的情报工作存在的不足,探讨了情报工作如何反映事件演化过程以及为应急管理流程提供支撑等问题。
综上,通过梳理相关研究领域的发展动态可以发现,一方面,在微博话题发现的相关研究中,学者多采用LDA模型进行微博话题的挖掘研究,虽在一定程度上提高了话题发现的准确性,但未能很好地解决主题中出现的高概率无效词对于主题可解释性的影响问题;另一方面,对网络舆情的分析多集中于意见的挖掘分析,而对于事件主题在整个生命周期中强度变化的可视化揭示相对较少,对主题内容演化规律的揭示探索不足。突发公共卫生事件的发展演变复杂,具有高危性和不确定性,针对舆情快速、准确地制定相应决策,还需依赖情报这一关键要素[20]。因此,本文试图解决以下问题,一方面,以生命周期理论为指导,结合TF-IDF模型和LDA建模,构建舆情分析框架,以近期发生的重大突发公共卫生事件为例,通过定量分析和可视化方法,洞察舆情事件传播周期中不同阶段的舆情热点和主题演进过程,为舆情分析中的观点挖掘和主题分析研究提供一定的方法参考;另一方面,针对舆情事件的演化特征进行对策性研究,为相关管理部门在处理类似事件舆情管控时提供科学的决策依据。
3
研究设计
3.1 研究框架
本研究以近期发生的重大突发公共卫生事件为例,选用新浪微博平台中该事件相关微博的数据构建实验语料库,基于TF-IDF模型和LDA模型追踪微博舆情事件传播内容,结合生命周期理论,挖掘舆情事件传播周期中不同阶段的舆情热点和主题演进过程,其总体研究框架如图1所示。首先爬取相关热门微博文本及评论数据,对采集到的文本进行预处理,具体操作包括中文分词、删除停用词以及加入用户自定义词典等;其次,结合生命周期理论和舆情发展反复性的特点,对舆情传播周期的不同阶段进行划分;再次,基于TF-IDF模型对各周期阶段每个文档的每个词计算TF-IDF权值,并对采集到的微博文本语料库进行LDA建模,结合词汇的TF-IDF权值对主题下的特征词进行筛选,以辅助各主题内容的识别;最后,基于LDA模型输出的概率分布文件,进行热点主题挖掘和主题强度演化分析。
图1 微博舆情演化分析框架
3.2 研究方法与步骤
3.2.1 突发公共卫生事件微博传播的生命周期划分
从以往的研究来看,由于研究视角不同,突发公共事件网络舆情发展阶段划分具有不确定性,为了准确表达舆情发展规律,结合生命周期理论和舆情发展反复性的特点,初步采用贾亚敏等[21]划分的舆情传播四阶段发现,衰退阶段不能体现网络舆情传播信息数量变化的波动性,同时平息阶段不能体现舆情具有的长尾效应,故将这两个阶段分别命名为波动阶段和长尾阶段。在此基础上,将突发公共卫生事件微博传播的生命周期划分为起始阶段、爆发阶段、波动阶段和长尾阶段。
(1)起始阶段,是指从事件舆情发生源头到舆情信息快速传播爆发之前的这个阶段[22]。微博舆情发文量和评论转发数量较少,话题种类少,爆发区域有限,难以引起相关管理部门的重点关注。
(2)爆发阶段,舆情信息的发布数量呈现指数级增长,在短时间内维持较高水平并达到最高点的这段时间。公众关注度急剧上升,舆情话题数量激增,微博发布与评论转发数量随时间呈现激增的曲线形式。
(3)波动阶段,是组织强烈震荡的时期,持续时间较长[23]。微博发布与评论转发数量呈现下降趋势,但由于信息渠道的多元和不完全可控,致使不断出现与突发公共卫生事件相关的新议题,引起舆情事件的传播不断出现反复。
(4)长尾阶段,在经过波动期之后,舆情事件传播量维持在相对较低的水平,但由于网民的多元化和利益诉求不同,仍有部分组织或个人对事件进行持续的关注,对其讨论不会快速终止,仍会存在一定的消弭期。
3.2.2 突发公共卫生事件微博信息的主题发现
LDA模型的本质是基于“文档-主题-词”的三层贝叶斯概率模型,是可实现文本聚类的主题生成模型[24],具有高效的抽样推理算法和模型泛化能力。但由于LDA模型不适合处理平均文本长度在100以下的短文本[25],因此本文的检索策略是对事件相关的热门微博进行采集,热门微博信息质量较高,较少出现单条句子级别的短文本,且本文采集到的每条微博平均文本长度为130。因此,可以将LDA模型运用于本文的主题挖掘,在文档语义层面实现海量热门微博文本基于主题的文本建模。但由于主题中仍然存在一些无效词影响主题的表意性,因此,本文引入TF-IDF特征词权值模型辅助各阶段主题内容的识别。
TF-IDF是一种文本分类中计算特征权重的方法,主要用于反映词在语料库所有文本中的重要性。TF表示词频,统计文本中每个词出现的频率,IDF表示逆文本频率,评价每个词对于语料库的普遍性,TF值和IDF值相乘得到TF-IDF值。具有较高词频和较低逆文本频率的词在文档中具有重要地位,可作为该文档的代表标签[26]。本文利用TF-IDF统计出各阶段词汇权值排序,结合LDA模型抽取各阶段主题特征词,将二者结果进行对照分析,减少无效高频词对主题分析的影响,辅助挖掘隐含的主题信息。
微博文本信息中隐含着网民对舆情事件的观点态度和情感倾向,同时由于网民的多元性,在同一阶段内会出现多个主题。因此,依据微博数据的特征,本文基于LDA模型构建由时间、微博文本两因素融合下的主题挖掘模型,结合TF-IDF权值模型的分析结果,挖掘舆情发展各阶段的潜在主题。
3.2.3 突发公共卫生事件微博信息主题强度演化分析
为了发现突发公共卫生事件微博舆情传播各阶段的主题演化过程,本文从事件演化的整个生命周期中提取共性主题,具体分析主题强度演化特征。在LDA建模中,主题强度相较于文本数量等可直接观察到的信息来说是抽象变量。通过LDA模型的训练结果,得出各主题在每条微博文本下的概率分布,可作为判断微博文本讨论主题的衡量标准[27]。通过LDA模型生成文档主题隶属概率θd,k,θd,k代表第d个文档中主题k的概率。一个主题在不同文档中的主题隶属概率总和相较于其他主题越高,则表明其强度越高。主题强度的计算方法为[28]:计算某一主题在所有文档中主题隶属概率的平均值。主题Tk在某一时间段的强度可表示为:
|D|为文档集合D中的文档数量,d表示文档集合中的一篇文档,θd,k表示主题Tk出现在文档中的主题隶属概率。主题强度的演化分析即计算各主题在不同时间段的强度值,来反映主题强度演化情况。
4
实证分析
4.1 数据采集与预处理
本研究选用新浪微博平台数据作为数据来源,2019年12月29日[29]湖北省武汉市对于该事件聚集病例进行首次报告,通过搜索相关热门微博发现,第一条微博源于2019年12月31日。本文以该突发公共卫生事件疾病名称的关键词组合的方法采集从2019年12月31日至2020年4月4日时间段内的热门微博及评论数据。2020年1月9日,通过病原学鉴定初步确定该传染性疾病的名称,对在此之前出现的不明原因呼吸道传染性疾病的相关微博也纳入语料库,以保证语料来源全面准确。因此,人工清洗原始数据,去重并剔除与事件不相关的微博文本、图片以及链接等数据,共采集39142条微博数据,微博数据集包括博主ID、微博文本、博文链接以及29634282条评论数和转发数。
为提高实验结果的准确性,对爬取的相关微博数据进行文本预处理。采用ICTCLAS分词工具,对微博文本进行汉语分词处理,并在用户自定义词典中加入该事件相关术语。将“全文”“收起”等无实际意义的词作为停用词,进行过滤处理。数据预处理需要持续重复进行,依据模型输入需求,需对用户自定义词典进行不断扩充,直至得到满意的处理结果。
4.2 事件相关微博传播的生命周期划分
通过对样本微博评论与转发总数的统计分析,得到微博相关信息在时间序列上的分布特征,如图2所示。需要说明的是,《人民日报》在2020年2月5日15:37的一条关于征集求助者信息的博文,评论和转发总量为15190056。由于人民日报是服务于政府的中央媒体,这条微博属于政府借助网络平台征集信息,不属于公众自发讨论的舆论热点信息,参考价值有限。而且由于该条微博数据量过大,易导致结果失真,影响后期的舆情演化分析,故该数据不纳入本研究当中。
根据图中评论和转发数量的变化情况发现,目标话题的传播趋势为峰值分布无规律的多峰特征,且波动较剧烈。为了准确表示舆情发展规律,结合舆情发展反复性的特点,将舆情阶段划分为起始阶段(2019年12月31至2020年1月17日)、爆发阶段(2020年1月18日至2020年1月21日)、波动阶段(2020年1月22至2020年2月10日)和长尾阶段(2020年2月11日至2020年4月4日)共四个阶段。
图2 该舆情事件每日评论转发量
4.3 事件相关微博的文本分析
本节首先基于TF-IDF模型对各周期阶段每个文档的每个词计算TF-IDF权值,得出各周期阶段的热词排序,其次采用LDA模型挖掘舆情事件主题特征,并结合词汇的TF-IDF权值对主题下的特征词进行筛选,以辅助识别各周期阶段热点主题信息,最后揭示在生命周期各阶段微博舆情的热点主题分布。
运用TF-IDF特征词-权值模型提取出微博数据中各传播周期对应的热词,表1是统计结果的一部分,其中选取了各周期阶段排名前10的词语。
表1 TF-IDF结果示例
采用LDA模型方法探索该事件微博舆情的主题特征,进行包括时间序列的主题挖掘工作。在试验阶段,本研究将主题设置为15—22类,对每一类中词的隶属概率进行分析。研究发现,将主题分为15—19类时,各类中的词项隶属概率逐渐上升,但主题间区分度较弱,在分为20类主题时输出的实验结果较好,在分为21类时词项的分布概率下降。因此,将主题数目设置T=20,超参数设置为α=0.01,β=0.05,迭代1000次,抽取各主题下概率最高的前30个术语,利用Gibbs Sampling进行参数估计和推断。
为了更准确地挖掘该舆情事件各阶段的主题内容,结合TF-IDF模型统计出的各传播周期对应的特征词权重,筛选掉主题下一些权重低且无效的高频特征词,例如“超过”“人数”“取消”等,在一定程度上减少无效高频词对主题分析的影响,增强主题的可解释性。选取起始阶段、爆发阶段、波动阶段、长尾阶段出现频次占比均值较高的前四个主题进行分析,结合特征词权重择优选取概率较高的10项特征词进行展示,如表2所示。
表2 事件发展不同阶段舆情主题讨论内容
将表2与表1抽取的热词结果进行对照分析,TF-IDF模型能够直接通过各周期阶段的热词提取,来反映舆情事件各阶段权重较高的词汇,而LDA模型则抽象层级更高,可更好地帮助研究人员对多个周期阶段进行比较分析。观察发现,各阶段文本中权值较高的词语在各阶段主题抽取的特征词中基本涵盖,将两种文本分析方法结合可以更准确地揭示在生命周期各阶段微博舆情的热点主题分布。
在起始阶段,微博发布的热点话题集中在topic17、topic1、topic5、topic16,对各话题的特征词进行解释,主题17是陈述在武汉发现不明原因感染病例的调查;主题1是描述为了应对国家卫生健康委通报武汉出现不明原因病例群组个案,香港特区政府启动新型传染病严重应变级别;主题5讨论的是武汉市不明原因的病例患者治愈出院的情况;主题16陈述的是不明原因病例的临床表现。
爆发阶段,热点主题集中在topic6、topic7、topic15、topic18,其中主题6是结合该阶段微博文本内容,描述的是钟南山、李兰娟等专家对于该突发公共卫生事件的解读;主题7描述的是我国各省市以及泰国、韩国出现该病例的情况;主题15讨论的是应对该突发公共卫生事件的防护指南;主题18陈述的是患者救治的统计情况。
波动阶段,应对该突发公共卫生事件的防护指南和钟南山等专家发布居家康复及防护策略仍然是该阶段的热点,新增主题3是描述全国众志成城抗击传染性疾病的公众组织行为,新增主题10的内容是对一线医护人员、警方以及志愿者的报道以及对抗击该传染病英雄的致敬。为了进一步得到该阶段三个峰值出现的原因,参照其对应的时间段查找相关微博文本发现,第一峰的产生主要归因于该突发公共卫生事件如何发生和传播的科普,第二峰的产生原因是李文亮医生在抗击该传染病中被感染不幸逝世而引发网友的热议,第三峰的产生归因于习近平亲自调研指导该突发公共卫生事件的防控工作。
长尾阶段,热点话题集中在topic18、topic2、topic13、topic9,其中主题18是对患者救治的统计描述持续受到关注;主题2是陈述公共卫生突发事件在全球的蔓延情况;主题13是讨论相关部门发布的企业复工复产的保障措施;主题9是关于全国各地区召开防控工作新闻发布会的情况。
4.4 基于舆情主题演化的舆情管控策略
在新媒体环境下,网络舆情数据呈现体量大、传播速度快、价值密度低的特点。通过对该疫情事件微博的主题分析,能够辅助突发公共卫生事件舆情管控工作从纷繁复杂的数据资源中挖掘事件发展过程中舆情演化规律以及公众在不同阶段的关注点,本文实验所得的20个主题大致可划分为防护措施及响应(Topic1、Topic3、Topic9、Topic14、Topic19)、突发公共卫生事件的发生与发展(Topic4、Topic8、Topic17)、相关防护知识及科学研究(Topic6、Topic11、Topic12、Topic15)、国际情况(Topic0、Topic2、Topic7)、患者救治情况(Topic5、Topic10、Topic18)、该事件的影响(Topic13、Topic16)等六个大类。为了从宏观上全面地展示各主题的演化趋势,本研究将实验所得的主题强度值进行可视化展示,为突发公共卫生事件应急响应部门提供有效的决策依据,如图3所示。
图3 主题演化趋势图
总的来说,起始阶段各主题热度演化趋势波动剧烈,同一时期不同主题之间的热度差异较大,在爆发期和波动期各主题热度演化趋势由波动趋于平缓,长尾期各主题热度演化趋势趋于平缓和稳定。微博用户通过微博平台密切关注事件的发生与发展情况以及抗击的措施和响应,这与牟冬梅等[30]发现的在长生疫苗事件微博舆情中用户密切关注事件起因和政府响应的研究结果存在相似之处。从主题时序发展趋势来看,国际情况和事件的影响是热度上升的主题类别,事件的发生与发展是热度下降的主题类别,防护措施及响应、患者救治情况、相关防护知识与科学研究是热度波动的主题类别。
舆情各个阶段主题探讨的内容侧重点存在差异,依据前文划分的舆情事件的四个阶段,从主题的频次占比情况看,起始阶段主要集中在事件的发生情况和应对举措等主题,是对舆情事件较为宏观的探讨。这与安璐等[23]发现的MERS-CoV事件微博舆情中公众在潜伏阶段的主要关注点在首发事件报道上的研究结果相吻合。管理部门应当第一时间公开透明地提供公共卫生事件发生的初步核实情况,动态持续发布事件的进展,在明确不明原因病原体后,应告知公众相关知识、感染风险及预防措施,快速并有针对性地回应民众疑问。
进入爆发阶段,防护措施及响应、相关防护知识与科学研究成为人们关注的重点,同时对事件发展的关注出现下降态势。这一阶段信息呈井喷之势,真假信息混杂、传播速度快。结合微博内容发现,该阶段出现了“喝板蓝根和熏醋的预防方法、SARS病毒寄生蝙蝠”等谣言,普通民众易受到谣言误导,引发事件的衍生危害。同时,结合上述研究发现,在强度较高的主题中出现了“恐慌”“焦虑”等特征词,情绪化言论增多。刘雅姝等[31]同样发现在超级真菌感染的舆情事件中,爆发阶段是微博用户对于舆情事件态度情绪的集中表达。该阶段管理部门的管控重点在于舆情引导和控制,以权威评论意见引导民众情绪理性化尤为重要。与网民进行交流互动和意见沟通,可以帮助民众认清事实本质,使各种谣言趋于缓和与平息。网络“意见领袖”在舆情演化和分裂中有着重要地位[32],应引导各领域具有权威性的活跃网民参与网络舆情管理。通过他们的权威意见表达,传达主流价值观,引导舆论客观理性正向发展。
波动阶段,防护措施和响应以及相关防护知识和科学研究依然是最受关注的话题,公众倾向于采取务实的态度,积极了解当前防护知识及国家的应对举措。同时,患者的救助情况得到热议,该阶段出现了一些使舆论热度波动的事件,例如,群众要求相关部门对涉及李文亮医生的有关问题作全面调查,从而引发事件舆情迅速增长。结合上述研究,由该阶段和爆发阶段的舆情波动来看,当舆情出现较为复杂的情感倾向时,通常会导致微博舆情的快速增长。该阶段管理部门的管控重点在于应急决策和响应,同步处置网上舆情和网下问题,通过获取的实时情报,对事件舆论的演变情况进行动态分析,相关部门应及时回应公众诉求以及告知应对举措,提高政府的公信力。
长尾阶段,防护措施和响应、相关防护知识及科学研究受到持续关注,事件发展情况的关注度有所下降,人们逐渐开始关注该事件的国际发展情况以及事件的影响。需要注意的是,防护措施和响应、相关防护知识及科学研究在后三个阶段进行了持续性的讨论,这与安璐等[33]发现的中文埃博拉微博舆情中措施与响应主题在后两个阶段进行了持续性讨论的研究结果存在相似之处。相关管理部门应重点对这类舆情进行监督和干预,快速并有针对性地发布权威解释,关注该事件对各行各业的影响,如开学、就业以及复工复产等问题,出台相关措施并及时发布,做好善后恢复。通过舆情评估,对整个应对过程进行经验总结,发现类似事件舆情传播应对规律,在未来类似突发公共卫生事件发生时,可将已有知识快速向情报转化[20]。
5
结论与意义
本研究以近期发生的重大突发公共卫生事件为例,结合应用TF-IDF模型、LDA模型方法和生命周期理论,探索微博舆情发展各阶段的热点主题,勾勒舆情事件主题演化的时序发展趋势,追踪不同阶段主题演化规律。通过实证分析得出以下结论:
(1)研究构建的从“采集与处理、挖掘与分析、到策略支持”的全过程舆情分析框架和采用的舆情演化分析方法,能够揭示突发公共卫生事件微博舆情传播周期中各阶段主题的讨论内容和时序发展趋势。
(2)从主题讨论内容来看,微博用户通过微博平台密切关注该事件发展情况以及抗击疫情的有效措施,舆情各个阶段主题探讨的内容侧重点存在差异。当舆情出现复杂情感倾向时,通常会导致舆情迅速增长和网民意见态度集中。从主题时序发展趋势来看,起始阶段各主题强度演化趋势波动剧烈,在爆发期和波动期各主题强度演化趋势由波动趋于平缓,长尾期各主题强度演化趋势趋于平稳。
本研究结论具有一定的理论意义,以往学者在网络舆情的研究中多集中于意见挖掘分析,或通过LDA模型的训练结果直接进行主题分析。相较于传统主题聚类分析,本文基于LDA模型和TF-IDF权值模型的结果进行对照分析,减少无效高频词对主题分析的影响,辅助挖掘隐含的主题信息。同时,引入主题强度这一不可直接观测的抽象变量,其可视化结果可以更加直观地反映各类主题在整个生命周期中的强度变化,为舆情的观点挖掘和主题分析研究提供一定的方法参考。
研究结论还能为相关管理部门在处理类似突发事件时有效引导与控制网络舆情的实践工作提供参考。一方面,当舆情传播趋势在短时间内呈现指数级增长时,舆情事件即进入爆发阶段,反之,传播量呈现规律性递减时,舆情事件即进入波动阶段。同时主题强度演化呈现出一定规律,起始阶段舆情事件相关主题数量较少且受关注程度低,未形成规模化;在爆发期和波动期用户参与量大幅度提升,相关主题数增多;长尾期议题信息较少,较少出现新的关注点。相关管理部门在处理类似突发事件时,将舆情传播数据波动幅度与主题强度演化规律进行对比,及时识别舆情演化的周期阶段。另一方面,在舆情演化周期研判的基础上,实现舆情预警、引导和控制的管理流程。在舆情传播的起始阶段,进行及时研判并预警,推进舆情良性发展;在爆发阶段和波动阶段,注重舆情引导;在舆情长尾阶段,注重舆情评估,探索舆情传播应对规律,形成预案以维护社会稳定。
本研究仅限于单个案例,数据覆盖面和研究范围有限,其结论的普适性有待考证。后续若对突发公共卫生事件网络舆情进行更为宏观的研究,则需选择更多具有代表性的事件和更广泛的数据源进行对比分析,以便对该类问题做更深入的研究。
作者简介
曹树金,教授,博士生导师,研究方向为信息组织与信息检索、用户信息行为、网络信息管理等, Email:caosj@mail.sysu.edu.cn;
岳文玉,博士生,研究方向为网络信息管理, Email:yuewy3@mail2.sysu.edu.cn。
参考文献
*原文载于《信息资源管理学报》2020年第6期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
曹树金,岳文玉.突发公共卫生事件微博舆情主题挖掘与演化分析[J].信息资源管理学报,2020,10(6):28-37.
制版编辑 | 王阿凤
往期推荐
当期荐读 2020年第6期 | 人工智能技术在新冠病毒疫情防控中的应用与思考
扫码关注我们
微信号|xxzyglxb