查看原文
其他

分享实录:澎湃新闻解码数据新闻方法论 | 德外荐读

德外5号 2023-04-12

The following article is from 深度训练营 Author 深度营


一个典型的数据新闻生产是怎样的?需要什么人?选题是如何操作的?对于非专门的数据新闻从业者而言,又可以从这个领域获取到什么,来用于自己的报道中?


在本篇文章中,澎湃新闻数据新闻部记者赵佐燕,结合澎湃新闻过往稿件,分享了数据新闻的操作流程,以及自己的经验与思路。以下是她的自述:



Newsroom:数据新闻的产生


数据新闻我们可以做到这三类:一是图文,二是视频,三是H5的交互。

我们在2020年的年底做的一个交互项目,它的基础就是当年1万多名的确诊病例,包括他们的流调信息。这是一个非常典型的交互项目,我们能看到一些很炫酷的可视化,拖到最后面,这里每一个数的一个点,代表的就是一个确诊病例,然后你可以进行点击,它会显示这个人的流调信息。


图源:11699位患者和我们的这一年


另一个交互项目同样也是来自我们对于新冠疫情的报道,讲的是全球死亡病例。我们基于当年全球的新冠死亡人数做了一个可视化,你所看到的其实是各个国家的死亡病例增长情况。


图源:百万逝者:新冠何以成为全球悲剧?


生产一个典型的数据新闻,需要什么样的人呢?我记得我当年还在读书的时候,应该是2017年,财新的韦梦老师来给我们介绍数据新闻团队的构成,当年她说需要有一个记者,也就是内容的生产者,一个可视化的设计师,一个前端工程师。这三种人组成了一个数据新闻的团队。


等到我毕业,开始从事这方面的工作的时候,会发现其实工种多了很多,比如说我们有视频编导、3D建模、调色师、插画师,这些工种也会在我们自己的稿子里发挥作用,比如说像这个稿子是我们讲泳池里面有多少尿,开篇的这张图表其实就是我们的建模师建了一个游泳池的模型、一个装了尿的瓶子的模型,然后做出来的。


所以会发现随着技术的更新迭代,然后我们的人员构成也变得越来越多样化,就不只是像最开始只有三种人,越来越多不一样的工种加入到我们的行列当中。


图源:一个泳池里,到底有多少尿?

所以这时候就回到了一个非常典型的问题,是不是做数据新闻一定要会写代码?其实我觉得不一定,我对代码基本上就只能看得懂大概的框架。


其实你会发现我们团队人很多,所以总能找到一个支援你的人。比如说我需要做一些分析,我们有一个非常专业做Python分析的同事帮我,我做的可能更多是给出我的想法,类似于作为一个产品经理,由她帮我去实现。所以我觉得你不能什么都不了解,但是你不一定要非常的精通,有大概的了解就可以了。


非常想给大家分享的就是,一个典型的数据新闻的操作和流程,我们前面有非常多精美的可视化,你可能比较好奇究竟是怎么生产出来的呢?一个非常典型的日常图文稿,我们的流程是这个样子的:由记者去报选题,主编觉得OK之后,我们就会开始收集数据,然后做数据分析,基于分析得出数据的结论,也就是组成一个数据框架。


这个数据框架会有很多不同的图、不同的表格,每个表格就会转换成不同的逻辑。比如说在高温城市的稿子里面,我们就需要先拎出重点,把有标题、年份、城市、持续天数的一个表格给到我们设计师,然后设计师就会基于这个表格来进行一个创作。


图源:7000条温度数据:中国的火炉城市,也越来越热了

主编觉得这个数据框架OK之后,我们就会分成两个部分,设计师会基于你的数据框架做图表的设计,同时你会写文章,最后我们做出一个校对的初稿。


而我们刚刚看到的H5交互,就稍微复杂一点。同样是我们需要报选题,收集数据分析,有一个基本的数据结论,做一个数据框架。除此之外我们还需要画一个交互UE,就是一个交互的草图,比如说我们希望在开头出现什么、接下来出现什么、每一个转场是怎么样的,我们需要把它给大概画出来。


像我们刚刚看到的有关全球新冠死者的数据新闻,在操作时会先把死亡的折线图勾勒出来,然后交由设计师进行更加精美的设计,这个时候前端会写一些对应的交互的代码,比如说怎么样可以实现这种3D的感觉,最后进行一个结合,典型的操作流程大概是这个样子的。


数据新闻也是新闻


第二部分主要想说的就是跳出数据新闻,可以从这个领域收获到一些什么东西。


像我们带的实习生,有很多同学毕业之后也不是在做数据新闻,大家也在做各行各业。其实重点在于你可以从这个领域收获到什么,用到你自己未来的选题上面。


数据新闻其实只是新闻的一种载体形式,或者是一种选题的驱动方式。没有必要非要把它割裂出来,因为它其实本质上也是新闻,具体而言就是利用可视化让你读者更好的理解你的内容,而不是打乱他的阅读节奏。其实现在有很多媒体在用很多不同的图表,这个时候就出现了一个很重要的问题——如何利用好你的图表?


有三个问题,第一就是,真的需要这么多图表吗?我们来看看现在的读者是怎么读文章的。一般而言,读者会首先看标题,然后他会跳着看你的图表,最后只有一些比较细心的读者才会去看你的文章,所以这个时候你的图表起到非常重要的作用。如果你的图表过多,其实是在打乱阅读节奏。


比如说有这么一句话,“在此类事件的受害者中有90%没有获得赔偿”,然后你也可以基于这个数据做一张饼状图,表示10%获得赔偿了,90%没有获得赔偿。但其实耐心去看这两个东西,你会发现你的收获其实是一样的。你看他那句话“90%没有获得赔偿”,你收获的就是,真的有好多人没有获得赔偿,感觉这个事情是非常不公平的;你看这个图的时候也会获得有很多人没有获得赔偿这个信息。所以其实你获得的信息都是差不多的,也就是说这个图表它的信息增量其实是非常不够的。它没有为你的文章添色,反而打断了阅读节奏,因为你的读者在看的时候,突然看到这里多了一张图表,他就得耐心去看这是个什么图表、在讲什么东西,其实可能就会打断了他的阅读思路。


之所以用到图表来做,是因为它承载了很多信息增量。你在看这个图表的时候,第一个你能看到的就是天气在变热,之前都是蓝色的,现在变成红色的,代表近50年来天气在不断的变热;我们在说的全球的最热纪录在不断被打破,因为你可以看到这里图上有一些小白点,小白点就代表这个月它打破同期的历史最高温;你会发现小白点在过去的50年出现越来越频繁了,代表最近这段时间全球最热的记录在不断被刷新。这个图表起到了信息增量的作用,所以它的存在是有意义的。


图源:7000条温度数据:中国的火炉城市,也越来越热了

总体而言,可视化是否真的可以为你的稿子带来信息增量,是你需要非常去思考的一个问题。


第二个问题就是如何让图表被读者看懂?很多时候我们在看一些很复杂的图表的时候,如果觉得阅读有障碍,很可能就是可视化出了一些问题。


所以在我们日常操作过程中,需要有两个保证。一个保证就是保证图表单独出现的时候也是有逻辑的,也能被看懂。这个就是像我们刚刚说的,很多读者在阅读我们稿子的时候,他的阅读流程是首先看标题,看标题大家知道了这个稿子在讲什么东西,然后他可能就跳着看,主要就是看图表,所以这个时候你要保证的就是你的图表单独出现的时候,也是能被看懂的,哪怕读者不看你的文字,他也可以有自己的收获。


第二个保证就是保证阅读完整的文章和图表,也没有逻辑错误。这部分针对的是真的很认真很仔细的读者,他们真的是会逐字逐句去看你的稿子,这个时候,你要保证文字起到一个辅助的作用,会给这部分很认真的读者提供更多的信息。


所以一般来说我们会保证这两个保证。很多时候我们看一些稿子,可能把图表单独拎出来,会需要看回文本才能理解在讲什么东西,这个就是需要再去提高的地方。


具体如何操作、如何让每个图表能被你的读者看懂,很重要的一点就是做到信息分层。


比如说这张是我们一位实习生的稿子,你会发现我们做了一些颜色的标注和颜色的分类。可能你在作图之前会思考“我的读者最想知道什么”,这张图讲的就是“热射病的权益纠纷为什么总是劳动者买单”,当我们发现很多热射病的权益纠纷中,雇主承担的责任并不是非常多,就准备研究为什么出现这个现象。这张图主要讲的就是雇主愿意承担责任的理由、法院认定劳动者的承担的责任的要素,这个时候你要开始想,你的读者最想知道什么呢?


图源:206例热射病案件:劳动者在高温中倒下,如何维权?


第一我想强调的是,和劳动者有关的原因是什么;第二,是什么原因使雇主不愿意承担,什么情况是法院认定属于劳动者责任的。这个时候需要强调更多的是第一个,所以我们将和劳动者有关的原因进行了一个橙色的高亮标注。


当普通的读者看到这张图表的时候,第一反应看到的其实就是高亮的东西,下一步才会去阅读文章。他会发现原来这个部分是雇主不愿意承担责任的理由,另一个部分讲的是法院认定的劳动者责任要素。


所以这个时候做好信息分层——首先,你要去思考你的读者最想知道什么东西,然后把他最想知道的东西做到高亮,让它非常的醒目;其次可能需要进行信息设计。


第三个问题是,数字其实是一个很冰冷的东西,如何才能离读者更近一点?很多时候,如果你只是单纯地堆砌数字,可能比不上非虚构写作。这个时候我们需要做一些额外的工作,让这个数字离读者更近一点。


有两个办法。一个是补充一些故事和细节,这就是我们的图表当中会加很多举例的原因。比如说当我们讲在婚前协定或在婚前协议里面情侣们都会约定些什么,会提到忠实协议,如果这个时候加一些协议的举例,读者就能知道具体是什么情况。


图源:数说|越来越受欢迎的婚前协议,保卫婚姻还是保卫财产?


另外一个是我们也最近在尝试的新东西——将人物的叙事放到统计数据中来看。就说之前上过热搜的凉山学子致谢,我们将它提到的一些句子放到了当年的一个宏观统计数据当中来看(凉山小伙致谢刷屏背后,寒门学子有多难?)。比如他当时就写到他从小生下来就营养不良,老人们特别担心可能会养不活,为什么会这么想?我们就放到了宏观统计数据来看,因为当年西部地区幼儿死亡率可能高达1/10,所以才会担心营养不良的小孩是养不活的。通过这样的结合,你会发现有数据、有故事,就可能讲述得更好一点。


数字确实是冰冷的,怎么才可以更好地可视化?用财新当时做的一个数据可视化的项目举例,是把每一个因为新冠而去世的人变成了一个樱花的花瓣,你就不会把每一个逝去的生命当做一个很冷冰冰的数字。有的项目它会把死亡人数用一个折线图或者一个点表示,其实是一件有点冷漠的事情。所以这个时候财新将每一个逝世的人化作花瓣,这样可以进行一些交互的补充,通过可视化的一些感性去消弭距离。


数据新闻其实也只是一种表达的形式,更重要的是新闻的内容更适合用什么形式来呈现。


第二个想给到大家的是一种思路。数据新闻是可以驱动选题的,有时候可能只有当你把数据铺开了才会找到选题,也就是基于数据去找到一个选题。


比方说这是我之前的一个稿子,当时是看到了这样之前封控管理的上海有273条公交线开始恢复的新闻,有很多的表格告诉大家有多少公交线路要开始恢复了。


当时我就在想,这些公交线路都在哪里呢?我们就做了一个可视化。我首先把表格上的公交线路全部下载,找到它对应的公交交通的站点,在路上铺开,会发现它主要集中的还是在中心城区,以及去医院的交通恢复了。我们将那些交通线路和医院的打点结合在一起,发现它其实还是覆盖了大部分的医院,也就是去医院其实已经在变得便利,一些去机场、火车站的交通也恢复了,但还有大片的地方是没有办法直接去到几个机场和火车站的。


图源:图解|三张地图,看上海首先恢复的跨区公共交通都在哪?


另外一个例子来自我同事,讲的是郑州暴雨的事情。当时我同事把所有微博的那种求助信息全部爬了下来,去看求助信息究竟是谁来转发,谁在推动这些转发。我们会发现其实普通人也可以比大v更有力量。(突发灾难面前,你的转发有用吗?)


你会发现有很多这种选题,只有通过数据,才会获得发现选题的可能性,这就是数据驱动型选题。比如说接下来有三个问句,你也可以思考一下究竟通过什么数据来解答会比较好。


第一个问题是说被各大高校撤销最多的专业是哪一个;第二个问题是说谁是最强举报人;第三个问题是如何找到全上海最优秀的基层医生。


这三个问题它其实是层层递进的关系。第一个问题可能比较直接,说到撤销最多的专业是哪个,很多人能想到的就是找专业目录去看,就知道被各大高校撤销最多的专业,即我们所谓的“最惨专业”是哪一个。这个其实就可以驱动一篇稿子出来,为什么会被撤销?是不是因为它的背景?


第二个谁是最强的举报人,其实可以通过裁判文书网把他找出来。你去看相关案件中经常出现在裁判文书网的人是谁,找到这个人,其实就可以成为一个非常好的特稿。


第三个如何找到全上海最优秀的基层医生,其实是取决于你想通过什么数据来找到这个人。你既可以通过问诊量,也可以通过回访量,比如医生他之前接诊过的病人,80%都进行了回访,另外一个医生只有76%,那是不是80%要比76%优秀一点?


你会发现数据驱动的思维可以帮助你想特稿选题,不仅可以看到一件事情发生的时间线,还可以通过这个数据发现一个读者非常感兴趣的新选题。


总而言之,如何找到一个数据驱动的选题?


一点点数据意识,再加上一点点好奇心,你就可以找到一个非常好的、同行都没有发现的选题。



Q&A:数据新闻方法论


Q:为数据新闻做可视化的工具有哪些呢?


A:一般来说我们是通过一些线上的可视化的图表的生成网站,进行非常简单的可视化,再最后AI或者PS里面进行细节的处理。


有的时候比较复杂的,比如我们发过一篇鄱阳湖的干旱情况。我们首先通过欧空局卫星图的公开平台下载卫星图,然后我们的设计师把它拖到QGIS里面进行处理。


图源:5张图,看长江流域61年来最严重的气象干旱


Q:数据量特别大的时候一般会怎么处理?


A:数据量特别大的时候一般就会走代码了,但好像我们暂时没有遇到数据量特别大的问题,因为我是用Excel。之前有一个恐怖袭击的数据库,我记得当时好像有三十几万行,Excel还是能够处理的。如果真的是处理不了的话,我们就会用Python进行处理


Q:数据新闻中的数据一般是通过什么样的方式获取的?


A:我自己会分成三类。第一种是公开的数据,类似年报或统计数据,是别人已经整理好了的,然后你拿过来用一下,或者是学者的一些数据;第二种是需要你自己分析出来的数据,比如说我们进行爬虫,然后进行数据分析,比如我们之前整理新冠类型流量做一个数据分析;第三种是直接找公司要的数据,比如之前我们有一个报道讲上海恢复常态的事情,找的好像是高德,通过这些公司要到的车流量数据。


Q:可以具体讲讲制作流程里面的数据框架吗?这个框架如何搭比较好?要搭到什么程度比较合适?


A:制作流程的数据框架每个人都不太一样。比如说关于副业的数据框架,首先我们对豆瓣的关于副业失败的帖子做了编码,进行分类。我们会统计涉及具体什么副业,它属于什么样的副业类型,做这份副业持续了多久,什么原因失败的,有没有赔钱,赔了多少,有没有赚钱,赚了多少……做这么一个编码整理。


然后基于编码做统计总结,比如因为性价比太低做副业失败的一共多少人,因为一直没有收益没有起色失败了有多少人,标注数据的来源。这个时候我会附上一个草图,给到设计师去参考。


同样的这里整理出来最经常提到的失败副业是什么,把想做成那个图表的具体的数据表格给整出来,这就是我们的一个数据框架。


Q:在搜索数据的过程中是否会出现信息安全、用户隐私等问题?怎么进行处理呢?


A:目前没有遇到过这个问题,因为涉及到用户隐私的问题的主要都是平台,我们拿到的数据都是公开的数据、公开信息,好像暂时没有遇到过这个问题。


Q:会出现数据不准确的问题吗?怎么样确认获取数据的准确性呢?


A:首先看这个数据是谁发布的,是什么机构。然后再看它的方法论,这个数据是怎么来的,研究了多少个样本,是怎么得出数据的。拿到数据之后我们也会核实,如果它是专业性比较强的东西,我们也会给记者去做一个确认,让他确定这个趋势是没有问题的。


与此同时,如果我们有多方的数据的话,会做交叉的验证。


Q:一般会如何选取主题呢?如何判断一个主题是不是适合数据新闻呢?


A:总体来说我们会分成两个部分,一个是它从选题角度来说是不是有意义的,另一个就是有没有足够的可靠的数据来支撑选题。你报的选题,读者是不是真的关心?如果它是一个可以做的选题,那么有没有足够的数据来支撑?有很多选题没有足够的数据源来支撑,比如说限电的事情,我们是可以参考公司公报限产之类,但是它的数据还太薄了,没有一个比较汇总的数据库来做这个东西,可能我们权衡之下就会考虑不采取数据新闻这个形式,因为有记者也会在跟这个事情。


Q:如果遇到一些反爬虫的网站(比如裁判文书网),但所需数据都在此类网站上,应该怎么搜集数据呢?


A:反爬虫的网站先看能不能用技术代码来解决,如果不能,一般就是人工笨办法。我们之前有遇到过一个数据表格下载是有IP限制的,比如说一天只能下50,我们真的就是用很多个同事的不同的电脑不同的IP来下,很多时候没有办法。


Q:数据新闻中是数据辅助新闻还是新闻故事串联数据?


A:看你想怎么操作选题。如果你是从数据中发现了新闻点,可能你的数据就是主体;如果是做一个新闻的跟进,比如之前东航的事情,我们就有做一图读懂,以一个具体的新闻故事作为驱动,配套找很多对应的数据做解析。


Q:样本量的选取一般怎么控制呢?比如说副业那一篇稿子是怎样确定访谈的个数的呢?


A:当然是越多越好。我们一般会选定一个特定的区间,然后把它全部爬下来。我记得我们好像在副业失败小组里面,检索了失败这个关键词,然后对所有的帖子进行了编码,因为有的帖子他们讲的不是自己失败的经验,只是单纯的提问,我们就把这部分给筛掉了。


如果是样本特别多的情况,一般就会选取一年或两年的数据做分析,比方说对于某个事情的一个微博的情况,可能就会爬关键词近一年的情况。


主要是取决于最终你得出的样本量有没有足够多,以及你的操作时间要多久。



Q&A:数据新闻大环境


Q:感觉目前大多数的数据新闻例子的体量都较小,如果要做较全面的内容,怎么实现各部分内容的融合,以故事连接吗还是其他方法?还是说数据新闻更多做垂直方向?


A:全面的内容是说更多数据的方向。对于数据新闻未来的融合方向其实大家都在摸索阶段,因为数字是非常冰冷的东西,你不可以只把数据单独抛出来,你肯定要挖掘一些数据背后的东西,它又涉及很多方面。


你的稿子也可以做很多方面,比如说你看到一个数据,这个数据是怎么来的?过程中就有很多有意思的的事情,比如说之前有一个特稿讲城镇化率,其实背后就是通过买房来完成这个指标,所以你看到某个数据的时候,它是怎么来的,就是一个很有意思的特稿内容。


每一个数据它意味着什么东西,它也是一个很好的内容。它可能是一个逻辑链上的问题:一个数据它是怎么来的?这个数据意味着什么?它会影响到怎么样的人?都是可以做的问题。



Q&A:数据新闻体验感

Q:比较好奇对于一个数据新闻记者来说,数据挖掘、可视化制作、写稿子之类的好像都会接触到,那其中比较重要或者说必备的技能应该是什么呢?


A:我觉得不单单是记者,每个从业者的专长都是不太一样的。比如说我有一个同事很擅长做Python分析,他可以通过这种技术驱动做到很多选题,我可能更多做的是选题意识方面的东西,就是我比较喜欢追求能够通过数据挖掘到一些别人不知道的事情,可能我另外的同事他非常擅长做热点稿。


所以我觉得其实每个人他擅长的东西都是不太一样的,主要就是把你最专长的东西发挥到位。


Q:日常的可视化设计是由另外的设计部负责吗?对记者这方面的要求高吗?


A:我们的可视化设计是由设计师来负责的。对记者的要求是,首先要了解基本的技术,比如AI和PS的一些基本操作,然后要大概了解一些可视化的基本守则,比如说坐标轴要统一。


Q:一张图表中信息呈现的方式更多是由记者来决策还是负责设计的人员呢,二者如何沟通?


A:图表中信息呈现的方式,其实更多都是沟通来决定的。因为设计师他可能更懂设计的专业性,记者可能更懂稿子,比如说我会跟设计师说,我需要强调什么东西,但是具体用什么图表、什么展现形式,设计师可以做一些决定。


Q:一个数据新闻制作从头到尾的周期大概要多久?做一个报道的团队人数有多少?


A:制作周期和报道团队人数都需要看项目,短线的一些快稿可能一两天我们就发出来了,长的可能需要耗时一两个月。比如说我们团队当时做了很多冬奥的项目,然后有一些冬奥游戏交互H5,可能真的要做两三个月。关于报道团队人数,如果你对某一个稿子感兴趣,你可以看作者的署名,大概就知道这个项目需要多少的人力。


Q:数据新闻比起其他的报道,更多的是和数据打交道,而不会接触很多采访对象,您觉得这样的工作体验是怎么样的呢?会有觉得枯燥的时候吗?


A:我觉得说到采访对象这个事情其实有两个部分。首先,你也可以去做采访,没有人限制你不能去做采访。像我们刚刚说基于数据发现的东西,比如你找的那个人是最强举报人,你通过裁判文书网,找到这个人然后做一篇稿子,或者是你有数据跑出来了,你去采访专家,问他为什么是这个情况,专家会给你很多解读。其实我们也会做采访,只是我们做了很多数据驱动的选题,要在前期做过很多调研工作而已。


另一部分就是我们也会有跨部门的合作。比如说我们会跟国际新闻、环境报道、时事新闻等等的同事做合作,做一个很完整的选题。我们提供思路,提供很多数据可视化的方向,他们提供他们条件和非常专业的经验,以及一些对应的技巧,然后我们进行跟配合。


这样的工作体验我自己是非常感兴趣的,因为通过数据发现一个别人没有发现的东西是非常有意思的。以往我们可能是发生了一个事件,然后你做了一篇报道,但数据新闻可以让你跳出这种时间的限制,跳出这种事件的限制,你是基于自己的发现做了一篇稿子。你完全不用因为没有事情发生而担心自己没有稿子可以做。


编者按:来源:深度训练营;作者:赵佐燕,澎湃新闻数据新闻部记者;有删节。

延伸阅读


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存