当期荐读 2021年第2期 | 基于知乎平台的突发公共卫生事件主题演化研究
图源 | The Internet
赵蓉英1,2,3 常茹茹1,3 陈湛3 王煜然3 孙竹墨3 游晟奕3
(1.武汉大学中国科学评价研究中心;
(2.武汉大学信息资源研究中心;
(3.武汉大学信息管理学院,武汉,430072)
# 摘 要 #
2020年初,突发公共卫生事件——新冠疫情逐步爆发,引起社会各界广泛关注。本研究针对国内最大的话题讨论平台——知乎,利用LDA(Latent Dirichlet Allocation)主题模型,对新冠疫情期间的网络讨论主题进行了内容和强度演化分析,探究疫情期间网络上的舆论关注话题及其关注度的变化。本研究对疫情信息监管等均有积极的参考价值,对未来突发公共卫生事件的应对和处理也具有学习和借鉴意义。
关键词
新冠肺炎 突发公共卫生事件 主题演化 知乎 网络舆情 LDA模型
1 引言
新型冠状病毒引发的疫情作为突发公共卫生事件,已经成为2020年春节前后社会波及面最大的公共危机事件。从新冠病毒初显端倪、专家组展开调查,到疫情爆发,人民响应政府号召开展全面抗疫,到现在国内疫情逐渐得到控制,而国际疫情局势却愈发严峻,我国的防疫防控重点也逐渐从国内疫情防控转变为境外疫情输入防范和对国际疫情的医疗援助。
在疫情发展的过程中,民众对于新冠肺炎疫情的关注点和关注度也在不断变化。本次事件的相关信息传播与17年前“非典”时期相比有一个非常显著的区别,那就是社交媒体平台的高度发达,微博知乎等网络平台成为多数人信息获取与情感表达的重要媒介,而传统主流媒体的影响力也通过这些社交媒体平台与移动客户端得到了进一步的实现。
通过社交媒体上的话题演化研究,我们能更深入、全面地还原疫情发展的过程,了解疫情各阶段对社会各方面所造成的不同程度的影响,也能很好地了解在这一过程中民众对疫情的认知变化、态度变化以及关注点变化。这些信息对于政府等相关部门都具有一定的参考和指导作用,可以利用它们制定和展开相关的应对措施,以解决疫情控制、人民权益保障、信息监管等各方面的问题,对未来突发公共卫生事件的应对和处理也具有学习和借鉴意义。
知乎作为国内最重要的社会化问答平台,有着超过两亿的用户人数,然而基于知乎的舆论研究和主题演化研究还相对较少,通过基于知乎的新冠肺炎疫情主题演化分析,可以对这一领域的研究进行补充。此外,由于知乎话题发布的参与者身份标识不明显,因此其传播内容具有原创性、共创性、跨学科性和多元性的特点,能够真实反映群众们关注的话题。此外,知乎有专业权威人士对于热点、事件进行评价,其给出的问题答案一般容易得到认可,这也使得知乎平台的研究相对其他社交媒体更具科学性。因此,对知乎这一社会化问答平台在突发公共卫生事件场景下的内容特征进行分析,能较为合理地深入了解社会大众在应对突发事件中的真实反应。
本研究旨在利用知乎这一网络平台对疫情发展过程中的网络话题讨论进行主题演化分析,挖掘主题演化规律,了解人们对于疫情的关注点和态度变化,更加全面地认识疫情发展过程。
2 相关研究
2.1 主题演化模型的发展
主题演化主要衡量同一主题随时间变化表现出的发展性、差异性和动态性,在概率主题模型LDA提出以后,学者们对其进行了一系列的扩展研究工作,具有代表性的有动态主题模型DTM[1]、增量LDA模型ILDA[2]、在线LDA模型OLDA[3]等。目前,许多学者应用模型开展主题演化分析,取得了众多研究成果。刘自强等[4]着眼于学科主题演化,注意到目前研究主要以单一维度进行分析,信息负荷过大,存在感知局限性,因而提出了多维度的学科主题演化分析模型,从学科主题强度、结构和内容三个维度有效地分析学科主题演化的复杂过程,为主题识别相关研究提供了一种新的研究视角;范少萍等[5]利用医学语义关系,基于医学文献开展主题演化类型与演化路径识别方法研究,描述了主题演化的六种类型,设计了基于统计与语义相结合的关键关联计算方法,提出利用密度和热度开展核心主题识别的研究,从关键关联与核心主题两方面共同识别主题的演化路径,确定了主题演化类型。
随着信息技术的发展,现在人们越来越多地在社交媒体上发表观点,社交媒体上的海量数据成为科研人员炙手可热的研究材料。目前除了对文献进行主题演化分析以外,不少学者都针对微博等社交媒体进行主题演化分析的研究,主要体现在以下两个方面。
一方面,部分学者针对微博等社交媒体所独有的特点,将现有的模型加以改进和完善。例如,唐晓波等[6]对概率主题模型LDA进行了扩展,使其适合中文微博短文本的处理,对微博主题进行演化分析,结合主题相似度和主题强度两个指标进行主题的演化分析,直观清晰地反映微博主题的内容发展和热度变化,有利于用户理解主题脉络和发展规律;李慧等[7]发现以往在主题演化的研究方面并没有将微博的话题标签融合到主题模型中来实时地观察话题演化情况,而利用OLDA模型可以实时地追踪热点话题演化的优势以及微博的“话题标签”的特性,于是提出了适合微博的热点话题演化模型LOLDA,从话题内容和强度两方面分析话题演化规律。另一方面,部分学者结合已有的主题演化模型,创新地提出了新的模型。例如,史庆伟等[8]针对传统主题模型忽略了微博短文本和文本动态演化的问题,提出了基于微博文本的词对主题演化模型BToT,引入连续的时间变量具体描述时间维度上的主题动态演化,同时在文档中构成主题共享的“词对”结构,扩充了短文本特征。
2.2 突发事件的主题演化分析
许多学者利用突发事件爆发时社交媒体上产生的大量信息进行主题演化分析,我们对其中部分研究进行了文献整理和综述。Qu等[9]通过对中国人使用微博回应2010年玉树地震的调查,利用微博信息内容对不同主题的趋势以及信息传播的过程进行分析发现,人们在灾后使用微博主要有四个目的,即状态更新、意见表达、情感支持和呼吁行动。这些不同的信息类别在灾害反应期间显示出不同的趋势和传播方式。这些趋势表明,在灾害反应的不同阶段,对不同问题的注意有所转移。张绍武等[10]从主题热度变化、内容变化及关键词等多方面对新疆暴恐事件的网络舆情进行了研究,并构建主题演化模型,模型利用了两次非负矩阵分解和层级式狄利克雷过程,通过可视化分析与比较,总结出了新疆暴恐事件的一些规律。王子涵等[11]通过分析突发事件的基本性质发现,突发事件的演化过程可由具有时序进化结构的潜在话题反映出来,从而设计实现了突发事件话题演化分析系统,从话题内容和热度两方面分析公众观点变化,还原事件发展过程,通过对“韩国部署萨德反导弹系统”话题的分析,证明了该方法的有效性。
此外,与卫生公共突发事件相关的研究也有许多。吴小兰等[12]对新浪“H7N9”突发事件中用户的关系网络进行研究,分析微博用户关系网络的社区结构特性,然后根据寻找到的社区结构有针对性地追踪典型群体所讨论的话题及其话题演化发展,对“H7N9”突发事件的主题演化进行分析发现,“医生类”社区所讨论的话题较之最大社区更为接近“H7N9”,同时,所得到的“肺炎”“传人”等词表现出“H7N9”独特的特性。安璐等[13]利用LDA模型和自组织映射方法比较分析了Twitter与微博平台上关于西非埃博拉病毒爆发的微博热点主题类别,揭示其演化模式和时序趋势的异同点,并以此为依据,为突发公共卫生事件管理部门的应急决策提供了实际的建议。罗闯等[14]将利益相关者引入突发事件网络舆情演化分析,对突发事件网络舆情的生命周期进行划分,确定舆情各阶段涉及的利益相关者群体,利用LDA模型对各阶段各主体关注的话题内容进行分析,从内容角度对舆情的演化过程进行揭示,最后以“寨卡事件”为例进行分析得出,自媒体和普通群众、医疗卫生领域人员和易感人群分别具有类似的舆情关注点演化过程的结论。
总体来说,在国内外针对突发事件的主题演化分析研究中,多使用LDA模型。在社交媒体平台选择方面,一般局限于新浪微博和Twitter,对于国内的其他社交媒体,比如知乎等平台研究甚少,而这些平台在公众中的使用率也是很高的。
3 模型相关原理
3.1 LDA主题模型
2003年,Blei等三人提出潜在狄利克雷分布(Latent Dirichlet Allocation)模型,简称LDA模型,该模型现已成为主题建模中的一个重要标准。LDA模型是一个三层贝叶斯产生式概率模型,LDA模型假设每个文档均由多个主题混合而成,而每一个主题,则是多个词汇上的概率分布。设主题的混合分布为P(z),词的概率分布为P(w|z),此时就可得到文档中每个词的概率分布:
上述描述也可看出LDA模型所采用的词袋方法,将每一篇文档视作词频向量,不考虑词语词间的顺序,从而简化了问题的复杂性。
3.2 困惑度(perplexity)
构建LDA模型时需要确定主题数目。主题本身是一个较为抽象的概念,基于不同粒度对文本语料集进行划分,所获得的主题数量不同。运行LDA模型主题数K需要提前给定,一般情况下,同一类语料,其内容越多就越复杂,则相应的主题数应当越大。不同时间下语料数量不同,内容复杂程度不一致,其主题数也不一定相同。本文使用在自然语言处理中常被用来衡量语言概率模型优劣的一个方法——困惑度,来对不同主题数的LDA模型及所得结果优劣进行度量。困惑度计算公式如下:
公式中D表示语料库中的测试集,M为总文档数(此实验中为讨论数),Nd表示文档d中的单词数,wd表示文档d中的词,p(wd)即文档中词wd产生的概率。
困惑度基本思想是给测试集赋予较高概率值的语言模型,较小困惑度意味着模型对文本有较好的预测作用,LDA模型可以理解为低困惑度下模型所获主题更容易被解释。通常情况下,总体趋势上困惑度会随潜在主题数增加而减少。本实验基于LDA主题模型,LDA模型需要传入的主题个数均采用统计语言模型中常用的评价标准——困惑度来确定。
4 实验过程
4.1 实验目的与内容
本实验的研究目的是为探究新冠肺炎疫情事件爆发后,网络上的讨论话题随时间的演化过程。主要从两个维度进行演化探究:①内容演化:即探究各话题所占讨论比重随时间的演化情况,通过内容演化分析,可以发现各个时期人们所最关注的热门话题,探究人们对疫情的关注点变化;②强度演化:即对于同一个话题,其热度和受关注程度随时间的演化过程,根据内容强度演化分析,可以得到某一话题从开始出现到被广泛关注再到最后热度下降的整个生命周期,探究人们对该话题的关注程度变化。
4.2 实验工具及环境
本实验中的数据采集及模型实现均使用Python完成。知乎网站数据爬虫使用Requests库实现,中文文本分词使用jieba中文分词组件实现,LDA模型使用Gensim库中的LdaModel实现,关键词词云使用Wordcloud库实现,统计图使用Matplotlib库实现。
4.3 实验数据及处理
本实验的数据材料为2020年1月18日至2020年3月28日知乎平台“新型冠状肺炎”话题及其六个子孙话题中的全部讨论信息,共计提问38388条、评论54404条。
使用jieba中文分词组件对这些文本进行分词处理,并去除其中的常用中文停用词2485个,删除去停用词后有效文本长度小于10的无价值文本。由于LDA模型对于短文本的处理效果较不理想,而知乎提问和评论中又存在大量的短文本数据,因此,将语料中的评论文本与其相对应的提问文本进行合并处理,并按一定的比例重复,以提高LDA模型的建模效果,最终共得到55856条实验语料。
5 实验结果分析
5.1 主题强度演化分析
将所有语料一起进行LDA建模,是一种全局性的分析方式,得到的主题结果较为宽泛、笼统,且考虑到所有语料的数据量较大,大量热度相对较小或持续时间较短的话题难以被有效地挖掘,但对得到的话题进行时间切片后可以进一步清晰地总结出该主题的内容和热度随时间的演化过程。
在每一个时间片中单独进行LDA建模,是一种局部的分析方式,可以更加准确地提取出每一个时间片中的主题分布,但提取的主题相对比较片面独立,因此,较难判断相邻时间片中主题的演化关系。
本文选择对所有的语料进行LDA建模,挖掘整个过程中讨论最多的主题,首先根据主题关键词绘制词云,并用人工方式归纳总结出主题含义;再针对每一个主题下的语料进行时间区间划分,提取该主题在各个时间区间中的关键词和热度,绘制该主题的热度演化过程折线图,本文将文本数作为主题强度的定量值;最后结合人工的方式总结其内容演化过程。
5.1.1 所有主题内容及强度演化分析
建模时,根据困惑度确定最优主题数目,实验表明,当主题数设为6时困惑度值最小,因此最优主题数目为6,如图1所示,即该LDA模型需要传入的主题个数为6。
图1 困惑度(perplexity)计算结果
所有主题强度随时间的演化情况如图2所示,纵坐标为对应时间段的讨论文本数。我们共划分出六个主题,归纳出的各个主题名称如表1所示。主题1代表着人们对医用物资生产企业等所受影响的讨论。由于疫情前期口罩等医用物资紧缺,因此人们对该话题的关注度较高,但随着国家相关政策的出台、社会各界的有效协调以及海内外人们团结一心互帮互助,医用物资的问题逐渐得到解决,所以后期人们对这一主题的关注度有所下降。主题4代表人们对疫情期间美国经济的相关讨论。在疫情前期,美国暂时没有发生疫情大规模爆发的情况,因此美国经济没有受到大的影响,然而随着疫情的全球性蔓延,美国经济不可避免地受到重创,在3月中旬,美股出现了多次熔断,引起了人们的广泛关注和讨论,因此该话题热度在这一时段急剧上升。此外,经过深入研究发现,主题5讨论热度的出现是由于知乎平台发起的疫情相关活动导致的,并非是人们的自发关注,而是有所引导,因此被视为无效主题舍去。
图2 各主题强度随时间演化情况
表1 各主题名称
由图2还可以看出,在研究的前几个时段主题1和主题2热度较高,人们普遍更加关注疫情期间在家工作以及何时复工的问题,在后几个时间段,主题3与主题4的热度快速上升,人们的关注点逐渐向疫情的国际趋势转移,这与疫情的发展情况是息息相关的。随着政府的有效举措和人们的积极配合,疫情在国内的发展得到及时控制,人们的生活也逐渐恢复,所以人们的关注点也从个人生活随之转向整体经济的复苏情况。再加上国外疫情的爆发,人们对其他国家疫情的关注不断上升,讨论热度居高不下。
总的来说,疫情相关的讨论热度持续上升,人们对疫情相关的话题一直都十分关注。
5.1.2 单个主题内容及强度演化分析
分别对各个主题的内容演化进行详细分析,以主题3为例,单一主题的内容和强度演化情况如图3所示,纵坐标为对应时间段的讨论文本数。该主题反映了人们对新冠肺炎疫情感染、传播等情况的讨论,根据分析得出,该主题的讨论重点最开始集中在武汉的疫情,这是由于疫情最初在武汉大规模爆发;随后全国各地纷纷检测出了感染者,疫情逐步扩展到全国,因此人们的关注点也扩大到对全国范围内疫情的讨论;随着亚洲其他地区如日韩等国纷纷发现了新冠病毒感染者,人们逐渐开始关注国外的疫情;接着疫情又在世界范围内爆发,意大利、美国等国家的疫情十分严重,人们开始更多地关注欧美国家乃至全世界的疫情;最后,国内出现了多例境外输入病例,人们的关注点也随之转变为控制境外输入等方面。
图3 主题3内容和强度演化情况
从图3还可以看出,该主题的讨论热度一直处于上升趋势,说明疫情期间人们对于各地各国的疫情投入了越来越多的关注。
5.2 时间片内主题情况分析
根据时间区间划分所有的文本数据,对每个时间区间中的语料进行LDA建模,挖掘每个时间区间中的热门话题及其热度。通过LDA模型可以从语料中提取指定个数的主题,并输出主题中出现概率最高的关键词,再结合人工分析就可以归纳总结出其代表的话题含义,而话题热度则使用该主题下的相关语料数量来表示,在此基础上使用绘图工具生成各主题的关键词词云,以及各时段主题热度分布情况统计图。由于疫情发展迅速,而整个发展过程较短,所以知乎上的讨论话题变化较快,因此,本实验将69天划分为10个时间区间。
除了对整个时段内主题的内容和强度的演化进行分析外,还针对10个时间片分别分析了每个时间片内的主题情况,以时段1(2020年1月20日—2020年1月27日)和时段9(2020年3月16日—2020年3月23日)为例。
时段1共包含6个主题,其热度和词云如图4所示,各个主题在柱状图中的颜色与词云的颜色相对应。我们归纳出了各个主题的名称如表2所示,主题2文本数量少、内容不清晰,故视为无效主题,在生成时段1的整体词云时将其舍弃。从图4可以看出,主题1所代表的“新冠肺炎的预防”这一主题在该时段占比最多,这是由于时段1处于疫情初期,人们更多地关注疫情的预防以及医用物资等方面的问题;而且时段1正处于我国的春节前后,所以人们关于疫情对春节期间走亲访友等活动的影响的讨论也格外多。与时段1相似,在分析时段9时将主题2视为无效主题,生成了主题情况及词云(如图5),其主题名称如表3所示。由于时段9处于国内疫情好转、国外疫情严峻的时期,所以主题1和主题3占有极高的比例,反映出这一时段内人们的关注焦点逐渐向国外移动,尤其是这一时期出现的美国政府的言论以及美国股票的异常情况,引起了人们的广泛讨论。
图4 时段1(2020年1月20日—2020年1月27日)主题情况
图5 时段9(2020年3月16日—2020年3月23日)主题情况
表2 时段1主题名称
表3 时段9主题名称
6 结论与展望
6.1 研究结论
从研究结果可以看出,新冠疫情期间,知乎上人们关注和讨论重点的变化具有一定规律,关注的范围从武汉到全国再到世界,讨论的重点从个人的工作学习生活到国家的经济复苏和重启、从疫情的预防到感染和治愈,整体上看是由小及大,根据发展规律是从前到后。总的来说,人们关于疫情话题的讨论一直热度很高,说明人们一直十分关注疫情的变化。具体表现为以下几个方面。
对主题强度演化分析发现,在疫情前期人们普遍更加关注疫情期间在家工作以及何时复工的问题,在后期人们的关注点逐渐向疫情的国际趋势转移,这与疫情的发展情况是息息相关的。此次突发公共卫生事件期间,人们对各类相关话题的讨论热度一直处于上升趋势,说明人们对于各地各国的疫情情况投入了越来越多的关注。
6.2 研究展望
本研究围绕本次突发公共卫生事件——新冠肺炎疫情展开了对知乎平台上的主题演化过程的分析,积累了经验的同时也发现了一些问题。首先,本文结合词云方法优化了LDA模型的主题演化可视化,在数据处理部分,为了弥补机器在语义理解分析方面的缺陷,进行了人工的分析判断,因此实验结果的主观性难以忽略。其次,本文只考虑了文本的内容和时间属性,话题的浏览量没能结合到主题热度的计算中。对作者、链接等结构性信息在主题演化中的角色和作用,仍然需要进一步研究。最后,在LDA主题模型的应用中只对模型进行了小幅度的优化,以后的研究应当针对知乎平台话题和评论的情况进行更多具体的优化。在后续的研究中可以致力于解决上述问题,提出适用于知乎平台的主题演化模型,研究也不仅仅局限于疫情方面,还可以围绕其他热点话题,开展新的研究。
参考文献
作者简介
赵蓉英,博士,教授,研究方向为信息计量与科学评价、知识管理与竞争情报;
常茹茹,博士研究生,研究方向为信息计量与科学评价, Email:Changrr@whu.edu.cn;
陈湛,本科生,研究方向为知识管理与信息管理;
王煜然,本科生,研究方向为知识管理与信息管理;
孙竹墨,本科生,研究方向为知识管理与信息管理;
游晟奕,本科生,研究方向为知识管理与信息管理。
*原文载于《信息资源管理学报》2021年第2期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
本文引用格式: 赵蓉英, 常茹茹, 陈湛, 等. 基于知乎平台的突发公共卫生事件主题演化研究[J]. 信息资源管理学报, 2021, 11(2): 52-59.
往期 · 推荐
当期荐读 2021年第2期 | 在线医疗健康类项目众筹成功的影响因素综述及展望
当期荐读 2021年第2期 | 信息生态视角下高校学生网络健康信息搜寻行为影响因素及互动关系研究
信息资源管理学报
微信号
xxzyglxb
制版编辑 | 王阿凤
审核 | 于 媛