查看原文
其他

疫情之下的数据表达 | 2020疫情数据报道分析报告

RUC新闻坊 2021-05-15

The following article is from 湃客工坊 Author RUC新闻坊

【本报告由澎湃新闻·湃客有数栏目和RUC新闻坊联合出品,于2020数据创作者大会上首次发布。】


19世纪中期,英国伦敦西部爆发了霍乱约翰·斯诺(John Snow医生用一幅标注霍乱地区水泵位置和病亡人数的地图发现了霍乱“由水传播”的证据,并成功劝服伦敦政府取下了“宽街”(Broad Street)水泵的把,疫情因到了控制


时光跨越百年,在肆虐全球的新冠疫情之中,数据新闻与数据可视化再一次释放了不可小觑的能量。


从疫情之初的感染追踪、病例溯源、时间梳理,到中期的防治科普、逝者悼念,再到疫情预测、疫苗评估,数据新闻的创作者们持续摸索着疾病传播的路径和社会构造的链条,加速了公众对病毒的认知,推动了紧急情态下卫生系统的完备,甚至一定程度倒逼了数据的公开,让数据新闻的产制进入良性循环。


另一个层面,数据新闻的产制也在被疫情改变着。疫情的瞬息万变让制作流程的每一个环节都大大提速;“数读”的思维渗透到更广泛的新闻题材之中;更开放的数据为记者提供了丰富的素材,为全球协同提供了更多机会;高校、个人、垂类媒体、数据服务提供商等多元媒体的入场,为数据新闻带来了新鲜视角和方法;无情的疾病将人的脆弱性展露无遗,更多作品流露人性与温情……


如今,病毒蔓延依旧,次生问题、次生灾害亦相继浮现。旧的惯习和边界尚未消失,新的议题和话语已奔涌而至。数据新闻在这个丰富也复杂的世代,如何桥接技术与审美、学界与业界、专业知识与大众认知,如何在新闻传统、公共治理、危机应对中找寻新坐标,需要创作者们探索与开拓,更值得我们观察和思考。


本研究以新冠疫情期间(2020年1月1日至8月31日)澎湃新闻湃客·有数”栏目中入湃客号所刊发的425篇数据新闻,与澎湃“美数课”、财新网“数字说”、新华网“数据新闻”和网易“数读”发布的140条数据新闻为样本,对其进行编码分析。将之与同期“湃客·镜相”“湃客·眼光”发布的疫情报道进行栏目间对比,选取同期较为优秀的海外数据新闻作品进行中外对比分析


根据统计与分析结果可知,历经新冠疫情的“大考”,我国的数据新闻生产趋于专业化,也更富有人情味。同时,疫情期间数据新闻的传播在公共卫生等领域发挥了不可替代的作用,其亮眼表现也让更多人关注与接受了数据新闻这种新闻体裁,给出较为正向的反馈,并与生产者积极互动,为数据新闻的进一步发展创造了良好的读者基础。





时代凝眸:聚焦疫情与议题流变


在2020年至今国内外媒体机构生产的数据新闻中,以新冠疫情为中心散射出的诸多话题分支成为媒体议程设置的重点。
我们对565条新闻样本的标题高频词做了共现分析,发现国内外疫情发展情况在数据新闻领域受到最多的关注。在高度全球化的当下,疫情的波及范围早已跨越国界,影响到全人类的生存健康。疫情报道的视野也因此超越了区域和国别概念,向全球防疫发出预警和指南。
此外,我们也发现,与一般新闻报道有所区别,数据新闻在报道疫情话题时往往突出呈现自己的“数据”优势和解释功能(“如何”一词的高频共现)。


点击图片,即可放大观看
不同类型媒体在疫情相关的数据新闻创作上各有议题偏好。
传统机构媒体由于担负着向公众提供及时可靠的全媒体新闻服务的社会使命,在疫情报道中将数据新闻的生产重心大多放在数据通报、疫情现状和防控措施等常规、基础议题上。
而新媒体机构则不拘于常规条框,在选题发掘上更加丰富多元,聚焦的议题也更贴近受众日常生活。各路媒体根据自己独特的内容定位生产独家优质信息,其中有像“回形针PaperClip”等专业科普类新媒体用可视化形式向大众宣讲病毒起源和防疫知识,也有“新一线城市研究所”等城市生活类媒体用数据剖析疫情对万千国民及社会经济生活的冲击。

点击图片,即可放大观看

得益于近几年大数据行业的蓬勃发展和疫情数据的公开可得,数据新闻生产主体的下沉迹象愈来愈明显,不少高校媒体、个人自媒体也陆续着手组建专业的数据新闻团队。除此之外还涌现出了大批数据服务提供商,在有偿提供数据分析服务的本职工作外,借助自身数据采集优势无偿向公众传递信息。
纵向回顾2020年新冠疫情发生以来的相关数据新闻,我们发现,在每一个重要的事件和时间节点上,都有媒体尝试通过数据报道的形式帮助我们解读现实世界。总体上看,疫情主题的数据新闻报道数量与国内疫情发展变化的状态基本同步。

点击图片,即可放大观看
1月20日,钟南山院士在电视采访中首次公开证实新型冠状病毒存在人传人现象,在之后的短短几周内,国内新冠确诊病例数骤增,作为公众获取信息的重要窗口,各路媒体迅速跟进疫情报道,国内有关新冠疫情的数据新闻数量随着疫情形势的加剧攀上峰值。
在此之后长达一个多月的国内疫情大规模爆发期,数据新闻生产在数量上呈现出井喷之势,覆盖的议题范围从最基础的每日数据通报、防疫知识科普到解读官方防疫举措、总结疫情发展动态,再到具体而微的展现疫情对公众日常生活和社会经济发展造成的冲击。
病例追踪、口罩紧缺、武汉封城、方舱医院、工厂停摆,我们所经历过的每一个与疫情息息相关的故事在数据的帮衬下剥茧抽丝,呈现出不同侧面。数据新闻的话题边界得以不断向更丰富、多元的领域拓展,让我们看到了信息呈现和故事讲述的更多可能性。

点击图片,即可放大观看
进入3月,在“硬核”防疫措施的帮助下,国内新冠疫情扩散形式得到有效遏制,复工复产稳步推进。但病毒在海外的蔓延态势越演愈烈。数据新闻从业者将目光对准国内复工复产进展,并持续性地关注海外疫情蔓延状况和各国政府的防疫举措。
在这一阶段,有关新冠疫情的数据新闻报道在数量上相比前期有明显的减少,集中关注的议题也发生转移。虽然病毒扩散得到控制,疫情造成的后续经济冲击和社会影响逐渐显露出来并被提上媒体讨论议程。在官方公布的死亡数据的支撑下,追忆、纪念新冠肺炎逝者的数据新闻报道接连出现,将冰冷的统计数据还原至有血有肉的个体故事,抚慰着在这场疫情中身心受创的国人。
6月10日,在连续55天无本地报告新增确诊病例之后,北京市重现本土确诊病例,随后,大连、新疆等地也相继出现本土聚集性确诊病例。疫情的反弹使数据报道呈现了小幅回升。由于海外疫情的反复,输入性病例不时出现,人们对疫苗研发投注了更多的关注,多家媒体通过可视化的形式对全球各国疫苗研发进展和公众接种态度做了全方位的报道。
但总体上看,进入7、8月份,国内疫情趋稳使疫情相关话题的关注度下降,与疫情相关的数据新闻发布量逐渐走低。常规议题和社会热点事件取代疫情话题成为数据新闻生产的发力方向,一切开始重归常轨。
此外,从受众的视角看,受众对疫情主题数据新闻的关注的均值曲线的整体走势基本符合从业者们发布数据新闻数量的曲线变化态势。说明疫情中的数据新闻在一定程度上满足不同阶段受众的阅读期待。

点击图片,即可放大观看

虽然2020年1-8月“有数”栏目所有题材的数据新闻平均访问量(14.8万)不及2019年(17.7万),但该时段疫情相关的数据新闻平均访问量(19.8万)却高于2019年,并且疫情相关数据新闻:《新型冠状病毒肺炎病例群像:何时发病,多大年龄,在哪分布?》获得2020年1-8月单篇报道的最大阅读量(283万),远超2019年最受欢迎单篇(164万),该篇报道从病例追踪出发,可视化呈现新冠肺炎患者的地区、性别、年龄、抵鄂离鄂时间、人传人情况与死亡病例,是疫情早期通过数据进行流行病学分析的代表作。
疫情使数据新闻的关注度明显提升,在这场突如其来的全球公共卫生危机中,数据新闻通过直观地传递事件信息,多角度探索疫情传播规律,可视化呈现引发读者情感共鸣等方式,令公众对此类报道产生了一定的阅读期待,公众相较于平时表现出对数据新闻较强的阅读需求。
通过对每月关注度Top10的报道案例进行分析,关注度较高的议题多为对疫情本身的探讨和与疫情相关的政治议题。最受读者关注的1月,读者聚焦“武汉”与新冠肺炎患者群像,其中,前文提及的1月23日由照路明发布的《新型冠状病毒肺炎病例群像:何时发病,多大年龄,在哪分布?》获得最大关注度。2月,读者留意新冠肺炎临床诊治情况;随后的三个月,随着国内疫情稳定、国外疫情爆发,读者更关注海外疫情与疫苗研制,其中,Alfred数据室发表的一篇题为《为何部分外国网友对我们的援助并不待见?》的报道获得很高的关注。该文探讨公共卫生事件中媒体国际话语权的作用,梳理了全球媒体对我国新冠肺炎疫情的报道情感倾向,并列举外国网友媒体选择偏好。6月、7月,虽然疫情在部分地区小幅回弹,但读者更多关注违反疫情防控纪律官员的处罚情况,同时段,疫情中的殉职者也进入大众视野。8月,读者再次关注疫苗研制情况,后新冠时代的线上教学模式也成为新的聚焦点。


行业透视:不可替代性,“人”的温度与操作规范


这个部分,我们想从行业内部对数据新闻行业在疫情期间的表现做另一个层面的透视,以解答以下三个问题:疫情中的数据新闻具有哪些不可替代性?疫情中的数据新闻是否更有“人情味”?疫情中的数据新闻操作更专业了吗?

疫情中的数据新闻具有哪些不可替代性?


我们首先把数据新闻放在不同体裁的新闻报道坐标系中观察其是否具有不可替代性。“镜相”“眼光”“有数”是澎湃新闻湃客频道上线第一天就推出的三大重点栏目。其中,“镜相”关注非虚构写作,“眼光”刊登纪录片、新闻摄影等视觉创作,“有数”聚焦数据新闻。虽然疫情期间,“眼光”栏目出品原创纪录片,但这三个栏目的报道主要仍然来自各媒体澎湃号,报道形式也多为图文。
在我们统计的时间区间内,“眼光”栏目关于疫情话题的发稿量最多,总计841篇;“镜相”“有数”各发布580篇与425篇疫情相关报道。虽然发布量相对较低,但在读者访问量和点赞量上,“有数”栏目仍体现出一定的竞争优势。

点击图片,即可放大观看

进一步观察三个栏目中的热门报道,“镜相”栏目单篇访问量最高的报道为《亚马逊封杀中国口罩卖家,躺枪还是咎由自取?》,关注“口罩”议题;而获赞最多的报道则为防疫亲历报道,《这个特殊假期,我报名成为社区防疫志愿者》。“眼光”栏目的视频《疫情之下的爱情:等疫情过去,我要给你补办一场婚礼》聚焦疫情之下的众生相,访问量最高;通过新闻摄影、展现武汉“解封”后城市图景的《76天之后,武汉城开|眼光》获得最多点赞。点赞量与访问量均值最高的“有数”栏目中,聚焦发病群体的《新型冠状病毒肺炎病例群像:何时发病,多大年龄,在哪分布?》一文访问量最高,而关注疫情期间留学生去留议题的《打满疫情全场,66万中国留学生去留两难》最受喜欢。
由此可见,虽然人们对故事性的报道仍然颇有青睐(“镜相”栏目的单篇最高访问数据远高于其他两个栏目),而视觉报道更易唤起情感共鸣(“眼光”栏目单篇最高点赞远高于其他两个栏目),但是,数据新闻相比这两类深受读者欢迎的报道形式,仍具有一定的不可替代性。
为了进一步了解受众对疫情中数据新闻的评价,我们爬取了每月关注度Top10的报道中的评论,并对其进行词频分析与情感分析。从评论的词频来看,“中国”“自己”“人类”“美国”“武汉”等词语出现频率最高,评论区中对国内外疫情现状的讨论是主要议题。“数据”“文章”“统计”“分析”“数字”等词语在评论区中也多次出现,反映出读者对数据新闻这一报道形式亦有关注思考。其中,读者多评论以“好文”“客观”“乐观”“点赞”等词,可见其对数据新闻持较认可态度。

点击图片,即可放大观看

在每月关注度Top10的稿件中,相较中立情感,呈现出积极和消极情感的评论数量较多,并在值上两极分化明显,表明疫情期间的数据新闻使得读者情感分明且强烈。同时,积极情感的评论在数量上多于消极色彩的评论,疫情期间数据新闻报道在传播效果整体上较为积极。
其次,我们认为数据新闻的不可替代性主要体现在新闻的知识图谱层面。芝加哥学派学者罗伯特·帕克在1940年提出新闻是一种处于“熟悉性知识”和“理解性知识”构成的“知识连续区(knowledge continuum)”中的社会知识。[1]而具有更科学的知识生产理念[2]、能创造关于事实的知识模型[3]的数据新闻理应偏向“理解性知识”一端。
回到有关新冠疫情的数据新闻报知识图谱观察上,如果以“呈现型”“解释型”和“预测型”划分数据新闻的知识特性,三者知识深度依次递增,那么偏向“理解性知识”的“解释型”和“预测型”的数据报道占比达到38.6%。尽管这个数据未能超过偏向“熟悉性知识”的“呈现型”报道,也但考虑到新闻报道以信息告知为主要功能,这一比例表现亮眼。

点击图片,即可放大观看
从数据经过系统和结构化的“呈现型”报道,能呈现广阔的时空图景和清晰的事件脉络,而“解释型”和“预测型”报道则能通过把握科学规律揭示疫情的肌理和走向。

2月,澎湃美数课发表“解释型”报道《763例确诊患者的故事,还原新冠病毒向全国扩散的路径》[4],在收集、处理各地卫健委病例通报后,对患者活动轨迹以及病毒传播路径进行规律性总结,从而生动阐释熟人空间传播、公共空间传播和医疗空间传播等传播场景。
而在更早的1月,大数据文摘发表“预测型”报道《防控力度多大才能遏制疫情发展?网络动力学推演给你答案》通过网络动力学方法,采用定量化计算机模拟与数据拟合并进手段研究大量的人口流动而导致的病毒二级甚至三级爆发的问题,预测各地疫情爆发时间、自然衰退时间和干预衰退时间[5]。
单个创作主体观察,创作者的专业背景和定位会影响所生产的数据新闻的知识特性。在此次疫情报道中,几乎每种类型的创作主体中都有主要生产“解释型”和“预测型”数据新闻的主体,而机构媒体的“解释型”和“预测型”数据新闻占比最高,此外,一些高校自媒体也发布了较多此类新闻。

疫情中的数据新闻是否更有“人情味”?


此次新冠疫情中,不少数据报道一反读者们心目中对数据新闻冷静、客观、理性等刻板印象,将常规的操作思路用于更具备人文关怀的选题和维度,或在对数据进行描述和可视化的同时结合了个体的叙事,让作品能够点面结合:既能让读者全面了解整体大局,又能认知其中的具体个体,对比之下,更具冲击力。
例如,DT财经在《外卖数据下的武汉:普通人的“封城”十日生活》一文中采集了饿了么平台上的订单数据,从人们生活中最熟悉的“外卖”的切角观察“封城”给千万普通市民生活带来的改变,对被封城的普通人投去有温度的关注[6]。

图片来源:DT财经《外卖数据下的武汉:普通人的“封城”十日生活》


再如浙江大学传媒与国际文化学院《数据挖掘与可视化》课程出品的《有数|疫情殉职者,他们是谁?》。作者团队通过官方信息平台、媒体报道、民间统计等渠道爬取了在新冠疫情中殉职的387位民间英雄数据,将殉职者分成了医护人员、村组干部、警务人员、公务员、志愿者和其他职业(包括保安、工人、记者、教职工等),辅之以殉职原因、殉职地点、年龄层等维度数据,描摹出殉职者的群体肖像。同时,在微观层面,他们也将目光聚焦到了更具体的人和事:“他们中,有本应一个月后完婚的准新娘,有来自’英雄家庭‘的普通民警,有年近七十的退伍老兵,也有身残志坚的社区工作者。”这些分析的加入,让读者穿透数据的统计学意义,看到“一个个曾经鲜活的生命,一个个曾经完整的家庭”。[7]

图片来源:《有数|疫情殉职者,他们是谁?》报道截图



可视化的巧妙配合使用让作品更具温度。

澎湃“美数课”的《新冠肺炎逝者大多是本身有基础疾病的老人》用花的方式来呈现逝者。设计师表示:“关于逝者, 我们整理的是冷冰冰的数据,但是我们呈现的应该是人文。所以关于这个逝者的数据,我们想用特别的方式呈现,于是想到了在非常规可视化中相对常见的花的方案。”[8]

图片来源:澎湃《新冠肺炎逝者大多是本身有基础疾病的老人》



无独有偶,财新网的作品《新冠逝者:献给疫情中离去的生命》用上千条死亡数据搭建成一座纪念馆,用花瓣的形式缅怀在新冠肺炎疫情中离世的每一个人[9]。读者可以通过检索和点击花瓣了解每一位逝者的生平经历,每片花瓣承载的真实故事和由其组成的花雨令人动容和感慨。

图片来源:财新网《新冠逝者:献给疫情中离去的生命》



《纽约时报》作品《无法估量的损失》(AnIncalculableLoss)则与财新的悼亡纪念馆异曲同工,将截至5月底全美死亡的逾10万人制作成灰黑色剪影,并搜集了部分逝者的简要生平介绍,通过鼠标的滚动和点击,可以看到到从3月9日行进至5月27日,数字从0递增至10万的过程,同时直观地感受到这场疫情对同胞带来的巨大冲击和损伤[10]。

图片来源:纽约时报《无法估量的损失》


疫情中的数据新闻操作更专业了吗?


数据新闻作为一门独立的新闻品类,自有一套专业规范。以“数据”为核心,这套规范也主要围绕数据收集、数据分析和数据呈现构建。


国内外不少学者在数据新闻专业规范上达成过一定共识:(1)应向公众开放数据来源和数据获取的渠道与方法;(2)尽管有一些报道是专门呈现原始数据集,但大多数报道中应该做统计分析。[11]基于此,我们从数据来源、数据开放性和数据分析深度三个方面来讨论疫情数据新闻报在专业规范层面交出了怎样的答卷。


数据来源意味着一个故事的讲述视点,我们往往能从中窥视媒体的立场和意图。在有关新冠疫情的数据新闻中,“政府及政府间组织”和“媒体及其他公开资料”是最常见的两类数据来源。


吸取2003年SARS的教训,新冠疫情期间政府有关部门的信息公开水平有了较为明显的跃升,在确定病毒可以人传人后,基本能够做到每日及时地通报病例数据,而政府部门的权威数据正是公众感知疫情走势的风向标。


与之相比,“媒体及其他公开资料”则是有力补充,媒体搭建的疫情实时数据平台和发表的疫情相关报道提供了更集中和更细节的数据。


点击图片,即可放大观看

不同议题的报道也有不同的数据来源使用偏好。“数据通报”高度依赖来自“政府及政府间组织”的信源,“疫情现状”在前者基础上还依赖“媒体及其他公开资料”,因为两者都需要扎实展现疫情状况;“疫情对经济和社会发展格局的影响”及“疫情对日常生活的影响”则需要多维度挖掘疫情带来的影响,较多引入“商业机构”来源来辅助观察;有关“科普知识”及“科研进展”的议题中,为求报道的科学性,“学术发表”来源占比突出。

根据新闻业逐步确立的“透明性”原则以及数据新闻业内默认的规范,数据新闻创作者还需要将数据来源清晰地公之于众。唯有如此,公众才能溯源归根,核查报道的真实性和准确性,以及按需获取数据新闻内容之外的知识。

据统计,88%的有关新冠疫情的数据新闻标注了数据来源,但以模糊标注为主,创作者笼统地标注来源机构和网站的名称,原始数据对于公众而言几乎仍是“不可得”,数据透明程度还未达到理想状态。

对13%的“标注且可得”数据来源进行更具体的归类统计,我们发现占比最高的为学术论文,数据新闻创作者会公开论文的名称和DOI码,确保公众可以准确地搜索阅读。不过,学术论文实际上和其他完全公开的新闻报道、政府统计资料与文件、行业研究报告类似,它们往往只提供被解读过的颗粒度较粗的数据结论,而未提供可被解读的颗粒度更细的原始数据。尽管可以让公众进行一定核查,但这样的数据难以二次挖掘与运用。


点击图片,即可放大观看


令人欣喜的是,某些数据创作者完全开放了他们结构化处理后的数据集或代码的工程文件。

疫情爆发初期,澎湃美数课便制作了新冠肺炎时事数据平台,将编辑部自行收集、整理的疫情信息通过石墨文档和Github公开,数据覆盖1月11日至今(9月14日)[12],承担了媒体的社会责任,更彰显了数据新闻领域所推崇的开源、共享精神,鼓励更多内容的生产者加入到疫情报道的序列中来。网易使用这个数据来源生产出《新冠肺炎席卷全国的33天》《武汉疫情,129名患者的患病史透露了什么》等报道。媒体间形成了开放式协同合作的生产模式,这初步实现了从知识共享走向知识再生产的数据开放目的。

2月,帝都绘发表《疫情爆发后的一个月里,你的城市做了什么?》一文,[13]对8座主要城市的政府官网微博每天发布的疫情应对措施进行结构化分析,他们在文末附上了汇总梳理931条政策的石墨文档链接,鼓励读者核查和补充。同月,大数据文摘发表《两个月微博热搜分析:疫情之下,哪些时、地、人、物处在舆论的风口浪尖》[14]一文,对1月1日至2月21日期间2600条热搜进行分析,文中附上了GitHub项目地址,鼓励读者学习和检验数据分析和可视化代码。


图片来源:帝都绘《疫情爆发后的一个月里,你的城市做了什么?》石墨文档


除了数据来源,我们还对数据处理和分析的方式做了统计。在所有的样本中,78.5%的疫情数据新闻进行了“多样化描述统计”,8%进行了“复杂的推断或预测”。“多样化描述统计”即是对数据进行集中趋势、离散趋势和相关性等分析,“复杂的推断或预测”即是建立模型进行推演,这意味着绝大部分的报道都做了一定的数据处理,呈现更广阔的图景和更深入的追问。

我们观察到,复杂的数据处理更多地出现在“解释型”和“预测型”报道中,两者呈现一定的正相关关系。“解释型”报道的“呈现单个或多个统计量”“多样化描述统计”和“进行复杂的推断或预测”数据分析方式比例分别为11%、78.6%和10.4%;而“预测型”报道的三种数据分析方式比例分别为5.6%、33.3%和61.1%。


点击图片,即可放大观看


“进行复杂的推断或预测”这种难度系数高的数据分析方式,较多地应用在“预测型”报道。有科学的数据模型做支撑,“预测型”报道的“先见”才更有说服力。比如,澎湃号严肃的人口学八卦2月发表的“预测型”报道《全国返城复工进度如何?》,该文使用百度迁徙数据构建各地春节人口迁入迁出模式,然后使用人口流出、人口流入和市内出行强度作为指标,构建复工指数,由此对全国主要省份的复工情况与未来趋势作出研判,并提出合理化建议[15]。





结语:数据新闻实践是有关未来的准备




美国西北大学人文与社科学院教授BrianKeegan曾在2015年呼吁:“在当代,对于信息过载,以及恐惧、不确定性和怀疑等情绪的焦虑氛围下,数据驱动的新闻可以起到关键性的作用。它们可以为关于政策、经济趋势、社会变革的讨论提供更为坚实的经验基础。”[16]

疫情的流行使这种“关键性作用”更加凸显:它警示人、启迪人,也联结人、抚慰人。在这场由公共卫生领域扩散的危机中,数据新闻不仅直接地服务于社会公益,其实证的叙事方式和直观的呈现形态,也在不断重塑着新闻的专业性,甚至潜移默化地影响了人类思考世界的方式。
流行病并非偶然,而是一种时常发生的社会现象。人类“过去在流行病方面的经验、传染病病理学方面的医学知识、全球和国家减轻风险以及灾难的应对战略,应使我们做好准备应对全球范围内的感染”。[17]
当下一次危机来临之时,数据新闻生产者们所积累的操作经验,与公众所习得的读数、读图能力,也许就是“准备”的一种,能够成为防灾减灾的有效武器,也能成为善治良治的有力推手,以最快的速度找到那个关键性的“宽街水泵”。

数据说明


研究样本范围

本研究样本范围涵盖机构媒体、门户网站、新媒体机构、高校、数据服务提供商和个人六类数据新闻创作主体。出于数据集中性和可得性考虑,本研究样本以澎湃“澎湃号· 有数”栏目进驻创作者为主,补充澎湃“美数课”、财新网“数字说”、新华网“数据新闻”、和网易“数读”这四个疫情期间活跃的创作者。最后确定样本涵盖69个样本主体。



本研究选取上述创作主体2020年1月1日至8月31日期间的疫情相关数据新闻,共计565条报道样本。


另外,为了进行栏目间对比,还选取澎湃“澎湃号·镜相”“澎湃号·眼光”2020年1月1日至8月31日期间的疫情相关非虚构和视觉报道作为对照样本。对照组样本容量分别为580和841。


内容分析的编码维度与类目构建

本研究通过人工编码对样本报道进行内容分析,着重观察文章内容差异性和规范性。


(1)报道属性



报道议题指标参考RUC新闻坊《2286篇肺炎报道观察:谁在新闻里发声?》划分;报道类型指标参考曾庆香、陆佳怡和吴晓虹的论文《数据新闻:一种社会科学研究的新闻论证》划分。


(2)报道规范



以上指标参考刘建坤和方洁的论文《数据新闻领域专业规范的确立与变化——基于全球数据新闻奖历届作品的内容分析》划分。


本研究数据涵盖清博大数据提供的1月1日至2月21日期间以“肺炎”为检索词的微博数据和728家报刊数据,其中,微博17112409条,报刊报道452521篇。数据中包含微博和报刊报道原文、链接及其情感倾向等信息。其中,2月11日与2月15日的报刊数据缺失。


对编码员进行培训和指导后,所有编码员自行对照标准编码进行试编码,解决问题和分歧后开始正式编码。


标题高频词共现

使用jieba分词包对样本报道的新闻标题进行分词,选取词频在5以上的词语进行共现统计,出现在同一标题内的词语计为一次共现,生成87*87的共现矩阵。


疫情报道的时间阶段划分

由于数据覆盖时间段较长,我们根据代表性事件将其划分为五个时间段。分别是:

1月17日-1月29日——钟南山肯定人传人现象,全国31省市自治区全部启动突发公共卫生事件一级响应;

1月30日-2月12日——WHO宣布新冠疫情全球性爆发为国际关注的突发公共卫生事件,武汉市疫情防控指挥部要求完成“四类人员”的集中收治隔离;

2月13日-2月29日——武汉部署开展为期3天的集中拉网式排查,现存确诊人数开始下降;3月1日-6月9日——国内疫情趋于平缓,海外疫情开始集中爆发,国内复工复产;

6月10日-8月30日——北京新发地出现疫情,影院重启。

因3月以前国内第一波疫情处于爆发和蔓延期,因此将这一时期做了更细致的阶段划分。3月以后国内疫情趋稳,疫情相关数据新闻的发布量和受众关注度下滑,因而做了相对较长期的阶段划分。


受众关注度算法

由于数据获取的局限性,此部分仅采用澎湃提供的“有数”栏目进驻主体相关报道后台数据进行分析。根据符合条件的报道的阅读量、点赞量和评论量构建出“受众关注度”指标。“受众关注度”通过对阅读量、点赞量、评论量分别进行离差标准化处理(即(当篇阅读量/点赞量/评论量-所有报道中阅读量/点赞量/评论量最小值)/(所有报道中阅读量/点赞量/评论量最大值-所有报道中阅读量/点赞量/评论量最小值))后加和得出。


精选案例

除了数据,我们还选取了国内外21家媒体在2020年1月1日至8月31日期间发布的跟疫情相关的50篇数据新闻作品,精选其中部分案例用于报告中的具体案例分析。



参考文献

[1] Park,R.E. (1940). News as a Form of Knowledge: A Chapter in the Sociology of Knowledge. American journal of Sociology, 45(5), 669-686.[2]郑忠明,江作苏.作为知识的新闻:知识特性和建构空间——重思新闻业的边界问题[J]. 国际新闻界, 2016, 38(04):142-156.[3]王辰瑶.未来新闻的知识形态[J]. 南京社会科学, 2013(10):105-110.[4]澎湃美数课:763例确诊患者的故事,还原新冠病毒向全国扩散的路径https://www.thepaper.cn/newsDetail_forward_5719018[5]集智俱乐部:防控力度多大才能遏制疫情发展?网络动力学推演给你答案https://www.thepaper.cn/newsDetail_forward_5677940[6]DT财经:《外卖数据下的武汉:普通人的“封城”十日生活》,https://mp.weixin.qq.com/s/yU4bYn7Y8ZATHpI18E6Crg[7]尬闻:《有数 | 疫情殉职者,他们是谁?》,https://www.thepaper.cn/newsDetail_forward_8025969[8]RUC新闻坊:《点击进入数据新闻聊天室 | 澎湃美数课的疫情报道分享实录》,https://mp.weixin.qq.com/s/Efzvltuhtrxr_ZWVv8qBoQ[9]财新:《新冠逝者:献给疫情中离去的生命》http://datanews.caixin.com/interactive/2020/THREEJS/blossom/[10]纽约时报:《无法估量的损失》(An Incalculable Loss)https://www.nytimes.com/interactive/2020/05/24/us/us-coronavirus-deaths-100000.html[11]方洁,高璐. 数据新闻:一个亟待确立专业规范的领域——基于国内五个数据新闻栏目的定量研究[J].  国际新闻界,  2015(12):105-124.[12]澎湃美数课:《澎湃美数课新冠肺炎疫情数据共享》,https://shimo.im/sheets/tyWrrrqppYVwQtCW/bi6e0[13]帝都绘:《疫情爆发后的一个月里,你的城市做了什么?》,https://www.thepaper.cn/newsDetail_forward_6054565(石墨链接:https://shimo.im/sheets/HdDdQrXvPV8XhWGY/MODOC/)[14]大数据文摘:《两个月微博热搜分析:疫情之下,哪些时、地、人、物处在舆论的风口浪尖》,https://www.thepaper.cn/newsDetail_forward_6150047(GitHub项目地址:https://wqw547243068.github.io/2020/02/06/virus/)[15]严肃的人口学八卦:《全国返城复工进度如何?》,https://www.thepaper.cn/newsDetail_forward_6040490[16]郭恩强,亚历山大·本杰明·霍华德. 数据新闻何以重要?——数据新闻的发展、挑战及其前景[J]. 新闻记者,2015(02):67-71. 
[17]澎湃思想市场:《疫论·流动|新冠是“史无前例”的危机吗?》https://mp.weixin.qq.com/s/Nwe5MQlexcieTBBR3j4g-g




数据收集与分析:

邓海滢 杨凯文 蔡静远 李晨 文露敏 王怡溪

案例收集与整理:

李江梅 惠一蘅 何京蔚

可视化:

惠一蘅 林子璐 何京蔚 杨凯文 张司钰 马冰莹 葛书润

报告撰写:葛书润 李江梅 张司钰 邓海滢统筹:方洁美编:宛瑾

特别感谢澎湃新闻对本报告提供的数据支持!




往期回顾

1998-2020|在七十万字的影评中寻找诺兰

为什么论文发表那么难丨数说

降价吧!卫生巾 | 数说

江南百景图:赛博农夫会梦见电子桃花吗?| 长卷

280万条吃播弹幕背后:虚拟的陪伴与味蕾的代偿



特别策划
求助者画像 | 肺炎报道 | 武汉来稿
武汉驰援| 毕业设计新年献词 | 澳大利亚山火
伤医 李子柒 | 抖肩舞 |  主持人大赛
高以翔 | 双十二 大学排行 | 申报广告
小欢喜 | 利奇马 | 埃航事件 | 甘柴劣火
原生家庭 | 圣母院火灾 | 基因编辑婴儿
记者节快乐 | 信息之美奖 | 周杰伦新歌 
第19届美国网络新闻奖作品解析(上)
第19届美国网络新闻奖作品解析(下)

技术前沿
AI世界 | 相关性驱动报道 | 新闻业算法变革
记者行业 | 自动事实核查 | 媒体未来技术
最佳杂志封面 | 品质新闻 | 记者新技能
传媒市场的18个趋势 | 在线评论与可信度

报道规范
流行病 女性记者 | 社交媒体信息引用
家庭暴力 | 强奸和性暴力事件 | 环境报道
报道地震 | 采访儿童 | 枪击案 | 核辐射 

趣闻杂谈
“转发锦鲤” | 新闻史手迹 | 双十一的心理血型 
家长进游戏群 |年度热词“有毒” | 亲友群辟谣

数据新闻习作
角膜捐献 | 卡车司机 | 北京月嫂 
男性医美 | JK制服 | 相声新江湖
古风音乐之辨 | 赴美抗癌 | 临终关怀在中国

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存