澎湃新闻赵佐燕:数据新闻怎么做 | 媒笔记
赵佐燕
澎湃新闻数据新闻部记者
一个典型的数据新闻生产是怎样的?需要什么人?选题是如何操作的?对于非专门的数据新闻从业者而言,又可以从这个领域获取到什么,来用于自己的报道中?
在本次课程中,赵老师结合澎湃新闻过往稿件,分享了数据新闻的操作流程,以及自己的经验与思路。
我们在2020年的年底做的一个交互项目,它的基础就是当年1万多名的确诊病例,包括他们的流调信息。这是一个非常典型的交互项目,我们能看到一些很炫酷的可视化,拖到最后面,这里每一个数的一个点,代表的就是一个确诊病例,然后你可以进行点击,它会显示这个人的流调信息。大概是这样子的一个交互项目。
另一个交互项目同样也是来自我们对于新冠疫情的报道,讲的是全球死亡病例。我们基于当年全球的新冠死亡人数做了一个可视化,你所看到的其实是各个国家的死亡病例增长情况。
生产一个典型的数据新闻,需要什么样的人呢?我记得我当年还在读书的时候,应该是2017年,财新的韦梦老师来给我们介绍数据新闻团队的构成,当年她说需要有一个记者,也就是内容的生产者,一个可视化的设计师,一个前端工程师。这三种人组成了一个数据新闻的团队。
等到我毕业,开始从事这方面的工作的时候,会发现其实工种多了很多,比如说我们有视频编导、3D建模、调色师、插画师,这些工种也会在我们自己的稿子里发挥作用,比如说像这个稿子是我们讲泳池里面有多少尿,开篇的这张图表其实就是我们的建模师建了一个游泳池的模型、一个装了尿的瓶子的模型,然后做出来的。所以会发现随着技术的更新迭代,然后我们的人员的构成也变得越来越多样化,就不只是像最开始只有三种人,越来越多不一样的工种加入到我们的行列当中。
所以这时候就回到了一个非常典型的问题,是不是做数据新闻一定要会写代码?其实我觉得不一定,我对代码基本上就只能看得懂大概的框架。
其实你会发现我们团队人很多,所以总能找到一个支援你的人。比如说我需要做一些分析,我们有一个非常专业做Python分析的同事帮我,我做的可能更多是给出我的想法,类似于作为一个产品经理,由她帮我去实现。所以我觉得你不能什么都不了解,但是你不一定要非常的精通,有大概的了解就可以了。
非常想给大家分享的就是,一个典型的数据新闻的操作和流程,我们前面有非常多精美的可视化,你可能比较好奇究竟是怎么生产出来的呢?一个非常典型的日常图文稿,我们的流程是这个样子的:由记者去报选题,主编觉得OK之后,我们就会开始收集数据,然后做数据分析,基于分析得出数据的结论,也就是组成一个数据框架。
这个数据框架会有很多不同的图、不同的表格,每个表格就会转换成不同的逻辑。比如说在高温城市的稿子里面,我们就需要先拎出重点,把有标题、年份、城市、持续天数的一个表格给到我们设计师,然后设计师就会基于这个表格来进行一个创作。
主编觉得这个数据框架OK之后,我们就会分成两个部分,设计师会基于你的数据框架做图表的设计,同时你会写文章,最后我们做出一个校对的初稿。
而我们刚刚看到的H5交互,就稍微复杂一点。同样是我们需要报选题,收集数据分析,有一个基本的数据结论,做一个数据框架。除此之外我们还需要画一个交互UE,就是一个交互的草图,比如说我们希望在开头出现什么、接下来出现什么、每一个转场是怎么样的,我们需要把它给大概画出来。
数据新闻其实只是新闻的一种载体形式,或者是一种选题的驱动方式。没有必要非要把它割裂出来,因为它其实本质上也是新闻,具体而言就是利用可视化让你读者更好的理解你的内容,而不是打乱他的阅读节奏。其实现在有很多媒体在用很多不同的图表,这个时候就出现了一个很重要的问题——如何利用好你的图表?
有三个问题,第一就是,真的需要这么多图表吗?我们来看看现在的读者是怎么读文章的。一般而言,读者会首先看标题,然后他会跳着看你的图表,最后只有一些比较细心的读者才会去看你的文章,所以这个时候你的图表起到非常重要的作用。如果你的图表过多,其实是在打乱阅读节奏。
比如说有这么一句话,“在此类事件的受害者中有90%没有获得赔偿”,然后你也可以基于这个数据做一张饼状图,表示10%获得赔偿了,90%没有获得赔偿。但其实耐心去看这两个东西,你会发现你的收获其实是一样的。你看他那句话“90%没有获得赔偿”,你收获的就是,真的有好多人没有获得赔偿,感觉这个事情是非常不公平的;你看这个图的时候也会获得有很多人没有获得赔偿这个信息。所以其实你获得的信息都是差不多的,也就是说这个图表它的信息增量其实是非常不够的。它没有为你的文章添色,反而打断了阅读节奏,因为你的读者在看的时候,突然看到这里多了一张图表,他就得耐心去看这是个什么图表、在讲什么东西,其实可能就会打断了他的阅读思路。
之所以用到图表来做,是因为它承载了很多信息增量。你在看这个图表的时候,第一个你能看到的就是天气在变热,之前都是蓝色的,现在变成红色的,代表近50年来天气在不断的变热;我们在说的全球的最热纪录在不断被打破,因为你可以看到这里图上有一些小白点,小白点就代表这个月它打破同期的历史最高温;你会发现小白点在过去的50年出现越来越频繁了,代表最近这段时间全球最热的记录在不断被刷新。这个图表起到了信息增量的作用,所以它的存在是有意义的。
第一我想强调的是,和劳动者有关的原因是什么;第二,是什么原因使雇主不愿意承担,什么情况是法院认定属于劳动者责任的。这个时候需要强调更多的是第一个,所以我们将和劳动者有关的原因进行了一个橙色的高亮标注。
当普通的读者看到这张图表的时候,第一反应看到的其实就是高亮的东西,下一步才会去阅读文章。他会发现原来这个部分是雇主不愿意承担责任的理由,另一个部分讲的是法院认定的劳动者责任要素。
所以这个时候做好信息分层——首先,你要去思考你的读者最想知道什么东西,然后把他最想知道的东西做到高亮,让它非常的醒目;其次可能需要进行信息设计。
第三个问题是,数字其实是一个很冰冷的东西,如何才能离读者更近一点?很多时候,如果你只是单纯地堆砌数字,可能比不上非虚构写作。这个时候我们需要做一些额外的工作,让这个数字离读者更近一点。
有两个办法。一个是补充一些故事和细节,这就是我们的图表当中会加很多举例的原因。比如说当我们讲在婚前协定或在婚前协议里面情侣们都会约定些什么,会提到忠实协议,如果这个时候加一些协议的举例,读者就能知道具体是什么情况。
Q:为数据新闻做可视化的工具有哪些呢?
A:数据可视化的工具其实我们公众号应该有整理过。一般来说我们是通过一些线上的可视化的图表的生成网站,进行非常简单的可视化,再最后AI或者PS里面进行细节的处理。
有的时候比较复杂的,比如我们发过一篇鄱阳湖的干旱情况。我们首先通过欧空局卫星图的公开平台下载卫星图,然后我们的设计师把它拖到QGIS里面进行处理。
Q:数据量特别大的时候一般会怎么处理?
A:数据量特别大的时候一般就会走代码了,但好像我们暂时没有遇到数据量特别大的问题,因为我是用Excel。之前有一个恐怖袭击的数据库,我记得当时好像有三十几万行,Excel还是能够处理的。如果真的是处理不了的话,我们就会用Python进行处理。
Q:数据新闻中的数据一般是通过什么样的方式获取的?
A:我自己会分成三类。第一种是公开的数据,类似年报或统计数据,是别人已经整理好了的,然后你拿过来用一下,或者是学者的一些数据;第二种是需要你自己分析出来的数据,比如说我们进行爬虫,然后进行数据分析,比如我们之前整理新冠类型流量做一个数据分析;第三种是直接找公司要的数据,比如之前我们有一个报道讲上海恢复常态的事情,找的好像是高德,通过这些公司要到的车流量数据。
Q:可以具体讲讲制作流程里面的数据框架吗?这个框架如何搭比较好?要搭到什么程度比较合适?
A:制作流程的数据框架每个人都不太一样。比如说关于副业的数据框架,首先我们对豆瓣的关于副业失败的帖子做了编码,进行分类。我们会统计涉及具体什么副业,它属于什么样的副业类型,做这份副业持续了多久,什么原因失败的,有没有赔钱,赔了多少,有没有赚钱,赚了多少……做这么一个编码整理。
然后基于编码做统计总结,比如因为性价比太低做副业失败的一共多少人,因为一直没有收益没有起色失败了有多少人,标注数据的来源。这个时候我会附上一个草图,给到设计师去参考。
同样的这里整理出来最经常提到的失败副业是什么,把想做成那个图表的具体的数据表格给整出来,这就是我们的一个数据框架。
Q:在搜索数据的过程中是否会出现信息安全、用户隐私等问题?怎么进行处理呢?
A:目前没有遇到过这个问题,因为涉及到用户隐私的问题的主要都是平台,我们拿到的数据都是公开的数据、公开信息,好像暂时没有遇到过这个问题。
Q:会出现数据不准确的问题吗?怎么样确认获取数据的准确性呢?
A:首先看这个数据是谁发布的,是什么机构。然后再看它的方法论,这个数据是怎么来的,研究了多少个样本,是怎么得出数据的。拿到数据之后我们也会核实,如果它是专业性比较强的东西,我们也会给记者去做一个确认,让他确定这个趋势是没有问题的。
与此同时,如果我们有多方的数据的话,会做交叉的验证。
Q:一般会如何选取主题呢?如何判断一个主题是不是适合数据新闻呢?
A:总体来说我们会分成两个部分,一个是它从选题角度来说是不是有意义的,另一个就是有没有足够的可靠的数据来支撑选题。你报的选题,读者是不是真的关心?如果它是一个可以做的选题,那么有没有足够的数据来支撑?有很多选题没有足够的数据源来支撑,比如说限电的事情,我们是可以参考公司公报限产之类,但是它的数据还太薄了,没有一个比较汇总的数据库来做这个东西,可能我们权衡之下就会考虑不采取数据新闻这个形式,因为有条线记者也会在跟这个事情。
Q:如果遇到一些反爬虫的网站(比如裁判文书网),但所需数据都在此类网站上,应该怎么搜集数据呢?
A:反爬虫的网站先看能不能用技术代码来解决,如果不能,一般就是人工笨办法。我们之前有遇到过一个数据表格下载是有IP限制的,比如说一天只能下50,我们真的就是用很多个同事的不同的电脑不同的IP来下,很多时候没有办法。
Q:数据新闻中是数据辅助新闻还是新闻故事串联数据?
A:看你想怎么操作选题。如果你是从数据中发现了新闻点,可能你的数据就是主体;如果是做一个新闻的跟进,比如之前东航的事情,我们就有做一图读懂,以一个具体的新闻故事作为驱动,配套找很多对应的数据做解析。
Q:样本量的选取一般怎么控制呢?比如说副业那一篇稿子是怎样确定访谈的个数的呢?
A:当然是越多越好。我们一般会选定一个特定的区间,然后把它全部爬下来。我记得我们好像在副业失败小组里面,检索了失败这个关键词,然后对所有的帖子进行了编码,因为有的帖子他们讲的不是自己失败的经验,只是单纯的提问,我们就把这部分给筛掉了。
如果是样本特别多的情况,一般就会选取一年或两年的数据做分析,比方说对于某个事情的一个微博的情况,可能就会爬关键词近一年的情况。
Q:感觉目前大多数的数据新闻例子的体量都较小,如果要做较全面的内容,怎么实现各部分内容的融合,以故事连接吗还是其他方法?还是说数据新闻更多做垂直方向?
A:全面的内容是说更多数据的方向。对于数据新闻未来的融合方向其实大家都在摸索阶段,因为数字是非常冰冷的东西,你不可以只把数据单独抛出来,你肯定要挖掘一些数据背后的东西,它又涉及很多方面。
你的稿子也可以做很多方面,比如说你看到一个数据,这个数据是怎么来的?过程中就有很多有意思的的事情,比如说之前有一个特稿讲城镇化率,其实背后就是通过买房来完成这个指标,所以你看到某个数据的时候,它是怎么来的,就是一个很有意思的特稿内容。
Q:比较好奇对于一个数据新闻记者来说,数据挖掘、可视化制作、写稿子之类的好像都会接触到,那其中比较重要或者说必备的技能应该是什么呢?
A:我觉得不单单是记者,每个从业者的专长都是不太一样的。比如说我有一个同事很擅长做Python分析,他可以通过这种技术驱动做到很多选题,我可能更多做的是选题意识方面的东西,就是我比较喜欢追求能够通过数据挖掘到一些别人不知道的事情,可能我另外的同事他非常擅长做热点稿。
所以我觉得其实每个人他擅长的东西都是不太一样的,主要就是把你最专长的东西发挥到位。
Q:日常的可视化设计是由另外的设计部负责吗?对记者这方面的要求高吗?
A:我们的可视化设计是由设计师来负责的。对记者的要求是,首先要了解基本的技术,比如AI和PS的一些基本操作,然后要大概了解一些可视化的基本守则,比如说坐标轴要统一。
Q:一张图表中信息呈现的方式更多是由记者来决策还是负责设计的人员呢,二者如何沟通?
A:图表中信息呈现的方式,其实更多都是沟通来决定的。因为设计师他可能更懂设计的专业性,记者可能更懂稿子,比如说我会跟设计师说,我需要强调什么东西,但是具体用什么图表、什么展现形式,设计师可以做一些决定。
Q:一个数据新闻制作从头到尾的周期大概要多久?做一个报道的团队人数有多少?
A:制作周期和报道团队人数都需要看项目,短线的一些快稿可能一两天我们就发出来了,长的可能需要耗时一两个月。比如说我们团队当时做了很多冬奥的项目,然后有一些冬奥的游戏的交互的H5,可能真的要做两三个月。关于报道团队人数,如果你对某一个稿子感兴趣,你可以看作者的署名,大概就知道这个项目需要多少的人力。
Q:数据新闻比起其他的报道,更多的是和数据打交道,而不会接触很多采访对象,您觉得这样的工作体验是怎么样的呢?会有觉得枯燥的时候吗?
A:我觉得说到采访对象这个事情其实有两个部分。首先,你也可以去做采访,没有人限制你不能去做采访。像我们刚刚说基于数据发现的东西,比如你找的那个人是最强举报人,你通过裁判文书网,找到这个人然后做一篇稿子,或者是你有数据跑出来了,你去采访专家,问他为什么是这个情况,专家会给你很多解读。其实我们也会做采访,只是我们做了很多数据驱动的选题,要在前期做过很多调研工作而已。
另一部分就是我们也会有跨部门的合作。比如说我们会跟国际新闻、环境报道、时事新闻等等的同事做合作,做一个很完整的选题。我们提供思路,提供很多数据可视化的方向,他们提供他们条件和非常专业的经验,以及一些对应的技巧,然后我们进行跟配合。
这样的工作体验我自己是非常感兴趣的,因为通过数据发现一个别人没有发现的东西是非常有意思的。以往我们可能是发生了一个事件,然后你做了一篇报道,但数据新闻可以让你跳出这种时间的限制,跳出这种事件的限制,你是基于自己的发现做了一篇稿子。你完全不用因为没有事情发生而担心自己没有稿子可以做。
*文中图片来自受访者与网络
-END-
推荐阅读