议题、情绪和话语:新旧媒体交织演绎的肺炎舆情史
数据说明
本研究数据涵盖清博大数据提供的1月1日至2月21日期间以“肺炎”为检索词的微博数据和728家报刊数据,其中,微博17112409条,报刊报道452521篇。数据中包含微博和报刊报道原文、链接及其情感倾向等信息。其中,2月11日与2月15日的报刊数据缺失。
由于数据覆盖的时间段较长,我们依据代表性事件将其划分为9个时间段。将所有数据的原文分词,利用LDA主题模型将每个时段中微博与报刊的词汇分别聚类成5个类别,再根据每个类别中的词汇人工归纳出主题。(LDA 主题模型通过词项在文本集合中的共现信息抽取出语义相关的主题集合,可以将词项转换为文本的语义空间。[9])
在进行文本的词频统计时,我们去除了检索词“肺炎”,在微博部分去除“转发”“微博”等无意义的词,在报刊部分去除“本报讯”“通讯员”等报刊固定用词及其他无意义的词;我们对部分词汇做了规范化,例如将“湖北省”统一规范为“湖北”,“武汉市”统一规范为“武汉”,繁体字统一转换为简体字。
在高频词共现分析部分,我们分别统计出9个时间段内微博与报刊的前50个高频词,通过bibexcel生成共现矩阵,使用VOSviewer进行可视化呈现。在词共现分析中,词与词之间的关系是用共现次数来体现的,如果两个词共同出现的次数多,说明这两个词的关系比较密切,进而代表两个词所表达的语义更加接近,词与词之间的距离,代表词之间的关联强度。[9]
参考文献
[1] 南都传媒.记疫:2019—2020抗击新冠肺炎疫情记忆https://m.mp.oeeee.com/h5/pages/v20/nCovTimeline/?from=singlemessage&isappinstalled=0
[2] 《中国新闻周刊》微信公众号. 湖北13地“封城”,武汉周边疫情告急,物资紧缺.1.24, https://mp.weixin.qq.com/s/b9p6qmek3IXs-5w_AP-kMw
[3] 《人民日报》微信公众号.湖北急需防控物资清单!.2020.1.25, https://mp.weixin.qq.com/s/UItfjWFqtR8MGJAzeh3uwQ
[4] 《南方周末》微信公众号. 口罩每天生产800万只,厂商疯狂加班生产.2020.1.24. https://mp.weixin.qq.com/s/pLJOk_83sCkqnyL9_nI6zA
[5] 《新京报》微信公众号.全世界都在捐赠,为什么湖北医疗前线物资还在告急?2020..02.01. https://mp.weixin.qq.com/s/dc1tFhfCXGwpJW5uJFmimQ
[6] 参见链接https://weibointl.api.weibo.cn/share/129891694.html?weibo_id=4466894641500523
[7] 参见《人民日报评论》. 战“疫”信心,“火神山”燃旺丨人民锐见. 2020.02.02. https://weibo.com/ttarticle/p/show?id=2309404467528586887336
[8] 《新京报》.做好基层疫情防控,筑牢第一道防线.2020.02.11.http://epaper.bjnews.com.cn/html/2020-02/11/content_778642.htm?div=-1
[9] 阮光册,夏磊.基于共现分析的文本主题词聚类研究[J].图书馆杂志,2018,37(11):99-104+119.
研究报告撰写:葛书润、邓海滢、杨凯文
王怡溪、林子璐、文露敏、姚思妤
数据分析:赵群、邓海滢、惠一蘅
数据可视化:惠一蘅、刘建坤、李晨
邓海滢、罗斯、马冰莹
资料收集与整理:李晨、杨凯文、王怡溪
文露敏、姜紫荆、林子璐、李江梅、惠一蘅
版面编辑:马冰莹
统筹:方洁
特别鸣谢:清博大数据
RUC新闻坊数据与新闻中心出品
往期回顾
特别策划
技术前沿
报道规范
趣闻杂谈
数据新闻习作