点击进入数据新闻聊天室 | 踩踩不跑堂
3月5日晚6:30-8:30
“2020特殊时期学点数据新闻”微信课程群
主题
RUC新闻坊数据与新闻研究中心指导教师方洁和六位编辑分享操作数据新闻的体会
我们为什么创办
数据与新闻研究中心
方洁
指导教师
截至3月,RUC新闻坊数据与新闻研究中心只有半岁,它创办的时间比我们的公号历史短很多,所以目前中心的作品总量并不多。从去年9月开始,我们一共做了8个作品。
20
09-2019
分析周杰伦75775 字歌词后,我们用他最爱的词重写了说好不哭
26
10-2019
15
11-2019
谁是中国大学No.3?10年数据解读大学排行榜背后那些事丨不吐不快
28
11-2019
12
12-2019
31
12-2019
新年献词玩出「花样」,哪朵是你「心里的发」?| 嗨皮2020
11
02-2020
21
02-2019
(点击链接查看作品)
数据新闻在国内外都属于比较新兴的品类,既然大家都在摸索,这就为学生创作出好作品提供了一个很好的环境,而且学生作品打磨时间较长,更适合关注那些媒体无暇关注的话题,适合做出深度,所以在一定程度上能够很好地补充社会媒体的不足。
当我们公号发布了一些优秀的学生课程作品后,先后有很多商业媒体和事业单位前来找我们合作,但是当时我们这些作品的生产周期很长,而且都是伴随课程做的,学生们随时在更新,我没法按照媒体的节奏去做,没有一支倚马可待的数据新闻团队。这是促使我想创办中心的第一个因素。
另一个因素是,长期以来,我们公号的编辑人员构成比较复杂,各位小编专长不同,大家做日常稿操作没有大问题,但是一旦要做策划稿,我们一般就只能通过临时召集令紧急招募,这就会导致一个问题,就是大多数热点新闻出来以后,不轮值的编辑可能敏感性就缺乏一些,因为他不太会有这种不轮值还报选题的想法,而轮值的编辑人数不多,他一般也不倾向于去做大稿,他的能力也未必匹配做大稿。在这种情况下,公号急需一支能够做有时效性的大项目的团队。
这个团队的成员应该能力为我熟知,新闻敏感和学习能力超强,数据素养和文字驾驭能力好,且具备较好的新闻审美,最重要的还是了解公号的调性,综合这些因素,我酝酿创建一个特殊团队。
至于中心的成立,除了上述我个人酝酿的想法,还有一个偶然因素,就是《分析周杰伦75775 字歌词后,我们用他最爱的词重写了说好不哭》这篇稿子。此前我们公号基本不关注明星,但是周杰伦是个例外,后来还有一个例外是李佳琦,那个故事更精彩。
周杰伦这篇稿当时我们拉了个群,大家做得很high,我连续两天半都处于一种高度兴奋的神经病状态,发出来那天我就疯狂刷手机。这一点可能商学院的学生不太能理解(该课程中有部分商学院MBA选修)。我记得当时我对一个外专业大学生描述我做的这件事,他问我有没有回报,我说没有,他感到很惊奇,我们一波人就是因为大家看这篇稿都能像打了鸡血一样兴奋,真是神奇!其实,就是我们没见过世面,哈哈,也是新闻人的特质,因为我们看到自己的作品被更多人传看,影响了更多人而兴奋。
那是公号第一篇有时效性的数据新闻稿,而且沾了明星的光,当天在我们自己的朋友圈里刷了屏,过后我就请这群同学一起吃饭,我就把想建中心的想法和他们分享了,获得了他们的支持,于是我们的中心就“挂牌”了。
中心挂牌后,我们大概有十几位小编(有好的苗子仍然会引入),这些编辑大多数是上过我的数据新闻课的。我们基本保持大概每月一篇大稿的节奏。虽然这群同学非常棒,可我也不好意思总是压榨他们。大稿也不是那么容易出的,每篇最少两三天,最多要半个月甚至更长的时间,包括收集数据、清理分析、撰写文案和可视化等等,是一个系统工程。
在我们的中心,我属于产品经理的角色,被他们戏称“方老板”。其实我是一个严苛的“甲方”,经常换位思考如果我是读者,我想看到怎样的作品,然后我把这些苛刻的想法和要求与小编们沟通,大家一起摸索尝试。
每次有项目的时候,一般项目选题的大方向是我先提出(英国冷柜拖车案和李佳琦那两个作品是编辑提出和讨论而确定的选题方向),有的选题方向和框架我已经想得比较清楚,就直接布置任务,有的则需要在群里做一个头脑风暴的讨论,然后明确我们要怎么操作。
具体的操作思路细化以后,就会出作品框架,大家会根据自己的专长和兴趣选择承担任务分工表中的具体分工(一般是分数据采集、数据分析、文案、可视化、微信美编和发布)。然后各小组会组建小群讨论和进一步细化分工,完成各自负责的板块,我主要负责在项目整个流程的关键环节确保一切都可控,确保稳步推进。文案和可视化设计初稿后我都要审稿,因为不管如何,我作为老师,有责任做好作品发布前的把关,把风险降到最低,也是为了保护同学们。
谈谈疫情中我们做了什么
方洁
指导教师
接下来,我再简单说一下发声和求助者这两篇在疫情期间我们做得较有影响力的报道。截至目前,发声这篇稿件的阅读量是26万+,而求助者则是16万+。除了稿件本身的质量受到了业内外人士的认可外,这个阅读量有很大的原因来自疫情期间公众对疫情相关报道的高度关注,可以说很长时间里,大家基本把所有的注意力放到了疫情相关报道中,这是常态时不可能存在的情况。
《谁在新闻里发声?》这篇稿件最初的选题创意来自我的一种思考,大家应该对管轶这个专家的名字比较熟悉,当时财新刊发他的观点引发了较大的争议,我也是质疑者之一,因为我感觉他的语言太不像一位科学家了,当然这可能本身就是一种成见。
那么当时我发表完朋友圈之后有一位媒体记者就留言给我说财新可能想采访专家组成员但后者未必接受采访,所以我就思考,不同的媒体上都呈现谁的声音?在这样一场大的灾难中,媒体的性质不同、地域不同,以及报道时段的不同,是否会影响其消息来源的构成?而这背后又会带来怎样的思考?我们希望通过一种对媒体报道的全面观察,能够帮助我们去解答这些疑问。
这篇稿件我们最初是按照学术研究的方式去设计假设和用数据论证的,我们希望能够严谨地做这样的一篇整体性的观察稿,也希望通过这篇稿件表达我们对于疫情发声的一些观点,发出我们新闻人自己的声音,同时向参与报道的新闻人致敬。
与发声稿不同的是,《1183位求助者的数据画像》这篇稿件最初的想法并不是我们中心出的,这篇稿件的初稿来自我们新闻学院和信息学院两位老师的合作,我看到初稿后感到信息增量最大的在于前面数据分析部分,得益于信息学院老师的大数据分析功力,我当时就惊叹于稿件中所做的大数据交叉分析,因为得出了一些当时我们媒体没有用数据方式那么细节和具体地揭示的重要发现,当时的报道可能意识到很多求助者,但是还没有做过比较具体的数据画像,所以这波求助者到底是哪些人,他们的年龄和地域分布,这些具体的信息非常可贵。同时,这篇稿件提出的观点在很大程度上和我们的发声稿件有一种承继的关联,符合我们公号的调性。
但是这篇报告的初稿在文案和可视化方面距离发表还有一定的提升空间。在征得两位老师的同意后,我统筹中心编辑对稿件进行了重新的润色,原来的想法是做好文案的修改和可视化的再设计,结果在设计可视化的过程中我们的编辑又做了不少的数据清理和核实工作,同时,我们对文案、数据、可视化的修改完善也获得了两位老师的认可和称赞,最后才得以呈现出现在的样貌。
聊一聊我们做数据新闻的体会
方洁
指导教师
以上是我今天主讲的部分,接下来我把时间交给我们中心的各位成员。先请他们谈谈自己做数据新闻的感受,想分享给大家的心得。
蒋政旭
人工智障+13线词云主攻
大家好,我是17国新的一名研究生。从曾经轮值的文案、编译和美编到现在数据新研究中心的的人工智障(跑代码)和13线可视化(专攻词云),我在公号3年,曾尝试过不同类型的报道。
首先,我觉得还是边学习边做项目很重要,实践起来你会发现很多理论学习和案例学习时意想不到的问题。我也是抱着学习的态度加入新闻中心的。
其次呢,以我简短和浅薄的参与数据新闻实践的经验来看,虽然专业的数据新闻团队需要各个专业的人分担设计师、记者、程序员等工作,但是突破职业的边界还是很重要且有用的。比如,专业程序员和设计师可能因为缺乏新闻方面的专业知识而和记者交流困难,而记者也有可能因为缺乏对代码能力和设计的了解而提出过于天马行空的想法。
数据新闻工作者在突破方面做得好就可以出好作品(请康康我们中心)。我们可以说是都是专业学习新闻的记者,但是也渐渐在负责设计、程序员的工作。当然作图的小伙伴都很厉害,你们也能看到那些精美的图,但是我们负责扒数据的工作起来其实有时候还是有蛮多困难的,我们也称自己为真·人工智能。遇到不熟悉的代码我们除了求助,也只能自己查阅资料,一遍一遍试错。所以说这个界限还是蛮大的。
我觉得如果你有其他领域的专业知识和技能对于完成一个数据新闻作品还是很重要的。如果没有,也可以去尝试学习和突破。
杨凯文
非典型四处搬砖者
大家好,我是16级新法的杨凯文。之前参与了“发声”这篇的制作。在新闻坊的数据研究中心主要负责数据采集和分析之类的工作,偶尔也客串其他分工。大家有啥想问的问题可以问我,知无不尽。(去掉复制粘贴)
对于感受的话,老实说我在数据新闻方面实践的时间并不长,也是不久前才逐渐摸索上路的,过于专业的问题可能我对大家的帮助也不是很大,我就简单谈谈我自己总结的一些小经验吧。
我觉得就数据采集和分析这部分而言,数据新闻最重要的一个事儿就是要严谨。我真正开始上手数据新闻是新闻坊《大学排行榜》那一篇,我当时负责的是整理国内各种大学排行榜的数据采集和分析工作。当时一气呵成的弄完,一开始觉得感觉挺好,结果数据清洗和整理的底表基本没有留下,结果因为这个翻了好几次工,而且每次翻工的工作量都不小。数据和文案不太一样,数据是有就是有,没有就是没有的工作。
另外还有一个小感受,因为老实说数据新闻在数据采集还有可视化设计上更多是偏向技术的一个领域,但是新闻学院大家大多是文科生出身,所以一谈到技术我们多少都有点懵b。我自己觉得吧,除了对技术有特别兴趣的同学,我们确实也没必要指望自己在技术上做到完全精通,专业毕竟不一样,这个是现实,但是我们至少得做到多少懂点,比如爬虫中的一些代码,我们没必要自己设计,但需要懂其中的原理,能用数据采集工具或者别人的代码采集到数据。况且其实挺多技术不需要很长上手时间。比如之前新闻坊《李佳琦》那一篇,我自己搜来搜去半天然后研究出了爬知乎的内容的方法(吹个牛)。
邓海滢
想当文案的无情作图机器
兼职数据清道夫
大家好!我的岗位为我的群昵称。我是前年上方老师的课入坑数据新闻的,去年坊崽改革成立数据新闻和研究中心的时候就立马响应加入。
从第一次接触到现在日常劳作,大概经历了一年多时间,中心成立之后,我自己参与的稿件包括周杰伦、英国冷柜拖车案、大学排名、李佳琦、新年献词、疫情发声和求助者画像。
分享的话,我尽可能谈谈初学者心态和团队协作的问题:
第一个是,我上数据新闻课时小组作品是《国内马拉松的冰与火之歌》,当时我杠上了echarts(echarts用的应该是js代码),第一个图就是复杂的旭日图,那个图我从半夜做到了凌晨四五点……做完后因为太兴奋睡不着,直接熬通宵了。
第二个是,周杰伦的稿子,我第一次用AI,那个柱形图是我一个一个矩形画出来的……用四则运算算高度和间隔……也从晚上十点多画到凌晨两三点。但后来我知道了,AI是可以直接画图表的:)
第三个是,求助者那篇,真正尝试了做地图,而最近的新稿子(保密)开始尝试用python。
这些小例子是想说,其实学技术就是试错的过程,虽然现在回头看走了很多弯路,但也正是这样才有收获,而且要相信自己,技术没那么难……哪怕笨点,也能做出来的。
可以注意这些小细节:
①文档版本命名最好用日期,写第几版很容易不记得最新一版到底到多少了。但注意保留不同版本的数据,AI的底图,程序的代码等等,这样要修改的话不用重头再来。
②习惯用excel而不是用word。如果现在同伴给我一个word的数据……我会有点抓狂,因为不易读更不易处理。所以,任何和数据相关的内容,都不要用word传递了。
③excel里放数据,最好写好标题、数据主体、数据说明、数据来源,让你的同伴只看excel也知道你做了什么工作,不要放得很混乱。尤其是给设计师的时候,一定要注意给最终版,那样设计师就不用帮忙再核查数据了,团队协作中,各司其职,认真负责是最高效的。
④合理使用石墨等在线共同编辑文档,这样文案、数据和可视化可以随时沟通进度。
葛书润
方老师的头像是我画的嘿嘿
大家好,我是16级本科生葛书润,主要负责文案,别的技能正在(试图)学习中。
谈谈作为一个“文案手”的感想。文案在一篇数据新闻作品中是技术门槛最低的环节,但我一直觉得,数据新闻中的写作其实是挺不一样的:
首先必须简练,在任何类型的新闻写作中,修饰性的词语都必须慎之又慎,在数字新闻中更是如此。必须克制自己用文字下判断和抒情的冲动,让数字自己说话;
其次是易读,对大多数读者来说,读图和读数据分析不是那么简单的事情,文案必须明白、生动,最好结合实例,才能让那些数据和可视化的价值更好地发挥;
数据新闻中文字往往需要连缀几个平行的单元,即“过渡”。以前我觉得是最困难的部分,但后来我慢慢发现,如果从整个选题的策划之初就去把握逻辑,了解它是如何推进的,那么后面起承转合的时候就会顺滑的多;
最后是人文关怀,数字是冰冷的,但文字可以(一定一定在不矫情的前提下,我是反矫达人)有温度,用数据阐明结论,用文字传递态度。
我会在文章的标题和开头结尾下很多功夫,总试图用几个“金句”来提升稿件的传播效果——总得让大家转发的时候有文案可配嘛。有时候也不全是为了传播效果,感觉在和自己较劲,觉得只有好的开头和结尾,才能让这些数据“物尽其用”,让它更像是一个完整的数据新闻作品而不是研报或统计作业,也让读者看到我们的思考、态度。我也在不断摸索怎么去把握这个尺度,努力让自己克制,不洒狗血、不乱上升高度。
此外,和读者(尤其是学界、业界的老师、同学)不断互动让我受益良多。我们也是第一次运营一个小小的自媒体,有时也免不了被高涨的阅读量冲昏头脑,这些质疑声给了我们不断完善自己的机会,尤其是在这两篇稿件之后,我在和读者交流、不断修正的过程中得到的最多,是他们让我知道在数据分析时我存在哪些不当的表达,让我能够重新审视数据、审视结论。感谢每一个看穿我“胡说八道”的人。
王怡溪
立志成为人工智能的文案jj
大家好,我是19级博士班的王怡溪,17年读研的时候加入公号,到现在三年了。在数据与新闻中心负责和帮我画头像的狗哥mm一起写文案(因为其他的不会,目前努力学着成为人工 智能)
做数据新闻最早是一次硕士的数据新闻课上(但是那篇报道没发出来我哭了),那是我在研究生阶段最辛苦的一节课,前前后后做了一个学期。之前我心里的数据新闻是很厉害的技术和很酷炫的交互,但那次之后实践之我就感觉到一个好的数据新闻,最重要的还是它背后的新闻价值。
我跟着新闻坊做过大大小小很多报道,从文案的角度上说,一定要努力从数据上发现问题,不要有那种习焉不察的感觉,要随时质疑,随时好奇。另外,也要注意数据中可能出现的陷阱。
像画像者那个报道的初稿,第二个结论是武汉医疗资源的不足与不均,这在当时是一个很多人都会下的判断,觉得病人住不进去是因为医疗资源缺乏。但是在我们的报道里,我觉得每一个论点一定要有证据,我和另一个文案mm商量后发现,我们现有的数据是无法推断出武汉医疗资源不足的,我们就不能那么写。想和大家说,就算目前什么也不会也不用担心,都可以学,只要你内心里知道是什么是好的新闻。
惠一蘅
作图的乙方
大家好,我叫惠一蘅,在坊里主要负责可视化设计。参与过的稿件有新年玫瑰花、疫情发声、求助者画像,去年底加入,也是个新人,还在继续学习中!
数据新闻带给我最大的礼物就是设计!我们可视化设计的灵魂就是让硬核数据变得赏心悦目,带来信息增量的同时传达审美观念。我是上学期在方老师的数据新闻课上才正式接触到可视化设计,进了这个坑就出不来啦。入门我主要是看信息之美、《南华早报》官网里的作品,看设计方面的书(不一定就是信息可视化设计),除此之外,走出去看展也是找灵感的重要方式。对于可视化设计如果想要一直有灵感就要不停看,要一直把自己浸在那个环境里,一个多星期不看东西再让我作图我就会脑袋空空,所以日积月累非常重要。
跟数据新闻打交道这段时间也遇到过不太好的事情,比如做70万行数据的清理,一卡一卡地快做完了,结果电脑卡关机了(。因为之前没做过这种作业所以我一点点摸索做得很慢,两三天才做到那种程度,结果丢失了。当晚就是ddl,我就一边流泪一边重新开始做,因为做过一遍记住了做法,所以好像两三个小时就又做完了。这次经历虽然很小,但从此之后我面对啥情况内心都可以毫无波澜了:大不了重来嘛!
关于数据新闻选题我也有些感触:我上学期的数据新闻课程选题是“退耕还林20年”,别人的或是娱乐有趣,或是社会热点,而我的就是一个没啥好深挖的政策成果盘点。同时选题又和最终呈现形式紧紧相连,因此我总觉得自己从选题到最终呈现都是反常的。我自然不害怕反常本身,只是担心在已有的评判体系下,我的反常会被判为错误或不好。最终我在与老师们的讨论中慢慢消解了这种无谓的怀疑,着力突出我项目的特色,尽力把它的长处发挥出来。
之前觉得做数据新闻很烧脑,我可能不会继续,但是这个坑太深了。它让我对待任务更加严谨,也偶然间帮我实现了一些想要学习技术的Flag,以及让我深刻意识到,不要去想“这个我不会”,什么都要尝试。
Q&A环节
Q1
张茜茜:我读了一些咱们公众号的文章,在好的数据呈现和美观的图片背后,其实新闻的属性还是非常重要的,在选题和数据分析逻辑的背后,往往体现了创作者对某一现象或话题的深入思考。所以想问下,大家在数据新闻的选题方面,怎么去寻找既具有新闻性和话题性,又适合通过数据来呈现的选题呢?
方洁
指导教师
选题一般就是两种大方向,一个是有新闻事件,然后新闻事件能够用数据来解析,另一个就是有一些有趣的话题,你觉得用数据来分析比较有意思,当然最关键的是两者都能找到数据,而且从数据的角度可以带来新的信息增量。具体如何选题,咱们下节课可以继续深入地探讨。每次我们数据新闻课找选题,都是难产,很多组开玩笑会说自己“不孕不育”了,因为好几周想不出合适的选题。
杨凯文
非典型四处搬砖者
找选题这个话题确实挺难的,我们现在其实每天也为选题秃头。所以可能我们也没办法提供一个找选题的好办法。不过我自己有一个感悟,就是在找选题的时候尽量还是先去想要表达或者展示一个什么东西,数据的事情可以放一放。
我自己之前经常在想选题这个方面往往被数据限制住了,要么题还没想到已经想好了数据的处理方法,要么是觉得没有可实现的方法来做这个选题就把题PASS了,但这两种都是思维定式。数据是死的,人是活的,数据新闻虽然经过处理以后高大上了,但是读者其实还是想看你想体现的精神。我个人觉得比如之前疫情的两篇报道能够达到10w+,大数据确实有功,但是真正打动读者的是通过数据能够展现了背后活的人。
蒋政旭
人工智障+13线词云主攻
我觉得首先我们自己需要有一定的新闻敏感性和数据敏感性。看到某一个话题时还可以做初步的判断。比如之前“作图的乙方”分享的退耕还林,就是之前植树节的时候我看到我们国家这个政策已经20年了 而且取得了一些成果,当下就觉得是个不错的选题,既有新闻性也有数据性,我甚至想到可以植树节发。
其次是广泛的阅读和接触。要有自己有质量话题源的平台和渠道供自己把握时下热点和好的选题。比如这篇发声,是因为我们一直关注着各个新闻媒体对于疫情的报道,做起来才如数家珍。
再来就是团队合作和讨论。大家头脑风暴会有很多有价值的思考 也会让你自己重新调整对话题的认识。比如我们每天都有激烈的讨论 但不是每一次的讨论都可以最终发展成一个作品,但这样的讨论却是增加了我们的默契且开拓思路。
邓海滢
想当文案的无情作图机器
兼职数据清道夫
我赞同上面两位同伴的说法,其实动用你的新闻选题素养,就足够选出好选题了,当然这个选题不一定最适合做数据新闻。但是一个好切口,一般都能找到对应数据,所以拓宽对数据的想象力很重要。除了数字,文字、图像等等都可以成为数据。
Q2
王云林:请问之前提到的数据陷阱,大概有什么类型的数据陷阱?
邓海滢
想当文案的无情作图机器
兼职数据清道夫
这个问题本身可能是数据科学的内容,但我觉得从我们新闻人的角度想,或者从作为具有推理能力的常人大角度讲,就是要注意了解你手上数据是怎么生产出来的,包括但不限于这个数据的时间空间范围、怎么搜索的、经过什么处理。任何数据都有条件的,当你要作出超出条件的推论就要小心。
王怡溪
立志成为人工智能的文案jj
我刚才说的那个例子就是一个呀。当时的数据显示,汉阳区的求助者很多,汉阳区的医院也很多。当时的文案是武汉医院资源不足且不均,我当时就对这个结论有怀疑,最后我们去查,汉阳区本来人就多…
李晨
补充一下数据陷阱,在疫情前期,有一篇新闻报道的数据说,湖北人不如广东人关注疫情,证据是百度指数显示,广东人搜索相关关键词最多,而湖北人检索量在第二。但其实广东的网友数量排名全国第一(CNNIC数据),看总量得出这一结论并不严谨。
Q3
刘梓桐:有一个在数据分析方面的疑问,数据量很大的时候会不会容易被埋没在里面,如何能从这些数据中理出一条清晰的思路去进行分析?以及从数据中选择哪些点提取来做分析,这是在数据产生前已经有了一个预期和设想,还是说在数据整理出来后再根据数据分析(那就又回到第一个问题,如何做)
方洁
指导教师
做数据新闻前对数据都有预判,好像我之前说我们做发声稿时有假设,我们用数据编码论证那些假设是否存在,不可能毫无方向地操作。
邓海滢
想当文案的无情作图机器
兼职数据清道夫
我觉得很重要的一点是,就是你想用这篇稿子解答一个什么问题。
有了这个想要解答的问题之后,你才会知道自己需要什么数据,怎么把数据处理成自己需要的样子。
处理的过程中,你会有感觉到哪里有异常的地方,这些异常就可能成为超乎你设想的亮点。
Q4
熊隽晗:想问一个比较类似的问题,大家在平常协作和沟通的时候还有哪些小tips呢?看到有同学说在excel里放数据时要写好标题数据来源等等,感觉很有启发~
邓海滢
想当文案的无情作图机器
兼职数据清道夫
我再补充一下:
1.尽量线下工作……省时省力有干劲,学校里便利蜂是好地方(不是
2.设计之前可以画草图
其他的可能是具体软件的一些个人习惯了……一下子也想不到更多了。
葛书润
方老师的头像是我画的嘿嘿
一个有力的统筹也非常重要(像方老师就经常担任了统筹的角色),在几方之间沟通,什么需求,能提供什么。
蒋政旭
人工智障+13线词云主攻
我觉得我这样的合作方式除了培养起来的默契就是本身对新闻专业素养的认识吧。比如我在整理数据时就分好类写清楚,可以为后面画图和文案的同学省去不少时间,因为整理数据的人也知道一定是要说明数据来源的。比如我们做完数据以后就会顺便把数据说明写清楚,不用文案同学来特别问。
这样的tips有很多 我觉得你可以从他人的角度出发,想想比如当你是一个文案的时候,你希望设计师和数据都做到什么,那么你做数据的时候就可以做到这些。
Q5
葛异:我看这篇稿子(编辑注:指求助者一稿)的时候对这个地方有疑问,️一是以某个距离为标准去模拟真实医院收治情况是否合理,这种推算方式和真正医院的收治能力有什么关联,按文中意思是3公里以内就认为病人可以被收治,这种推算方式反而会放宽估计程度(逻辑上真实情况肯定是小于这个值的),但问题是这个前提是医院只收治3公里内的病人且从3公里内的病人中挑选他们觉得需要收治的的病人才能保证真实情况是真包涵于以3公里以内的人为标准得到的情况的(但是3公里外的情况没有做考虑是不是有失偏颇,)️二是这种方式合理了,以3为标准的原因是什么没有得到解释,为什么不是2或者4,感觉这个地方有点疑惑。(不知道有没有表达清楚)
方洁
指导教师
我是这样理解的,根据当时武汉封城和内部公共交通停运的情况分析,3公里(一般计程车起步价)是一个比较适合拿来做对比的距离节点。从这个角度分析,稿件中做了假设,认为在这样的情况下病人一般是就近就医的可能性较大,当然医院肯定不会做出必须3公里以内的病人才能收治,但是这本身就是类似于一个把大家铺开来看收治能力的分析,所以如果我们把所有求助者按照地理环境摊开来去用一种标准进行分析,那基本上就可以预估大致的收支能力了,因为我们现在可以控制的数据就是距离,而其他医院收治与否还会受到各种因素的影响,所以可以说这是一个最高收治数据的预估。
惠一蘅
作图的乙方
我们先在百度地图上通过位置信息看患者们离医院的距离,武昌、青山、江汉区的求助者大部分与距离自己最近的医院2公里以内,硚口区和洪山区有大量求助者在3公里以内没有发热门诊和定点医院。这样一来,我们就把3公里作为了一个节点来分析。
追问:我比较认可老师的那种解释,就是我觉得这个地方是有一定放宽数据统计误差的逻辑在的。
方洁
指导教师
刚才我还就你的疑问私信了负责这篇报告初稿数据分析的范老师,他做了如下解答,请你参考:
方老师,我们的回复,您看看是否可以:
一方面,早期诊断和检测需要患者自己去医院,考虑武汉“封城”以及患者的年龄等原因,患者很难去很远的地方就医;另一方面,确诊后的收治是基于就近原则的。综合这两方面,距离就是影响诊断和就医的重要指标。当然,我们在文中也提到了,这种估计方法存在一定的高估,因为医院空床率非常低。
至于为什么是3公里,文中有解释。在百度地图上,正常人一小时步行的距离是4公里,考虑到患者年龄较大,因此选了3公里。
Q6
黎樟浩:我也有个相似问题:在「发声」篇中,数据分析和结论之间感觉是两个画风,关键有一些弱。我想问一下,最后是由一个总负责统筹整篇吗?我说的是讨论部分,比如讨论第1点。感觉数据没有很好地支撑结论。
葛书润
方老师的头像是我画的嘿嘿
结论是指最后的结论?还是每个部分的结论?其实是每个单元有一个结论,最后并没有总体的结论。几个单元是并列的。
我们把结论都前置了,这样可以防止读者「太长不看」。
王怡溪
立志成为人工智能的文案jj
我们写作是先分工写,但最后肯定是一个人来梳理全文,这样能保证全文是顺的。
方洁
指导教师
我的想法和你不同。我们在数据发现的第一个特征上就谈到了这一点结论部分。那篇第一部分从媒体的关注度的变化和消息来源的单一到多元这一点上就可以反推最初时段被限制发声的事实。
黎樟浩:我觉得,问题是,“恐慌”如何被测量?
葛书润
方老师的头像是我画的嘿嘿
并非是每一句话都要是被测量出来的?数据新闻,有数据也有新闻,是一个综合的作品。并不是说我们原来的新闻操作手段都不能用了。
蒋政旭
人工智障+13线词云主攻
我觉得首先我们的落点不在测量恐慌。我们没有根据心理学的标准和收集“临床表现”来给恐慌定级,因为我们的落点是媒体一路的信息公开历程和变化。不可否认的是,从网络谣言甚嚣尘上到大家频频相信出去囤积货物到身边每一个人的反应,这一切大家在初期无法根据官方和权威的公开信息得到回答和了解,所以确实存在恐慌。
方洁
指导教师
你可能想说文本表达的严谨性问题。这篇稿件我们最初是希望用特别严谨的学术论文的写作方式来写,包括假设的提出和验证,最终谈学术讨论。但是那样写阅读门槛太高,甚至对于大多数读者而言是枯燥的,所以我们换了一种写法,把更多发现直接拿出来,然后在后面讨论的部分,我们其实一方面在总结发现,另一方面也在发声。这是和学术论文的讨论不太一样的地方。
另外,即使如此,我们也不认为不能谈恐慌,因为我们这篇文章的主旨不是测量恐慌,就好比我刚才提及的管轶,为什么当时舆论反应那么大,其实就是有恐慌的心态在里面,你现在回忆可能觉得不恐慌,但是我们这篇稿的发稿时间实际是一个比较微妙的节点,此前我的确感觉大家在朋友圈里刷信息的状态是一种恐慌。
尤其是我认识一些湖北武汉本地的人,我们约稿的一位女孩,她甚至谈及自己最初的心理状态是很恐慌的。所以我觉得在这种情况下,我们谈及恐慌并没有越界,也没用必要对这个词作测量。
黎樟浩:所以作为一篇新闻报道,要回到当时候的语境下去理解。我这两天回头看的时候,会有点不理解,会从比较冷静的视角去看……
方洁
指导教师
我们用严谨的思路去做,表达时我们也敢于用这个词表达,并没有觉得它超出了我们论证的范围。即使我现在回过头看,依然觉得我们所总结和讨论的东西并不仅仅限于当时,也可以用来参考未来的突发事件和灾难报道。什么人身处灾难之中,对于信息的不对称都会产生恐慌和不安全感,我们将之视为一个理论已经论证的常识。
Q7
王雨曼:老师之前给我们的分享,大家一开始的原题和最终作品呈现的标题,好像有很多小组的选题最终都换了,请问什么原因呢?觉得可以给我们选题有一些指导。数据上的困难吗?
方洁
指导教师
换题的原因一般是原题太无聊,没啥新闻价值,原题不适合作数据新闻,实在找不到核心数据或者没啥数据角度的信息增量。
有的老师会觉得选题无原罪,但实际上我还要结合大家的操作能力和选题具备的可操作性做判断,有的选题媒体已经开掘得比较充分了,咱们去做如果没有新颖的角度还不如不做,有的选题完全没必要用数据去做,适合做成其他报道形式,还有的选题可能是数据实在找不到或者找不全,或者想象的数据发现根本不存在,所以这也是一个试错的过程。
Q8
周佩讯 :我想问一个技术问题,完全外行。不是关于这两篇。关于周杰伦那篇,勾起无限回忆。还分析了周董参与度对专辑评分的影响。其中这个观察我觉得特别客观,体现了我们中老年粉丝团理性的一面,和现在的“饭圈”大不一样。
我想问一是像这种很多非数字的数据,主要的工具就是词云吗?是网站上提供的那种还是有专业工具。第二是关于歌词的部分,需要很多主观的评价,结尾该写的那首是借助了人工智能还是人肉改写的。
方洁
指导教师
这一篇我们当时做的时候有几个周杰伦铁粉,一直在把控表达的尺度。
词云用python画的。
关于歌词那个部分的主观评价是我们的铁粉在把握尺度,不谄媚也不构陷。
结尾是人工+智能,我们已经分析出的词表给作者去填词,但实际上也可以训练机器去做,只不过从时效考虑我们这么做更快。
周杰伦这篇我自己比较喜欢的是文本部分,当时我们写作的编辑中就有对周杰伦的歌非常熟悉如数家珍的,所以才能用那样的笔法写出大家心中所想的周杰伦。如果换成我就不行了,我不是周董的粉丝。
邓海滢
想当文案的无情作图机器
兼职数据清道夫
非数字的数据也不一定是词云啦,可能词云是最简单和常规的呈现。对于文本还可以做情感分析,我们李佳琦那篇就有用到。
不会python的话,wordart这个网站很好用。
歌词那个应该是参考高频词,人工创作的。
惠一蘅
作图的乙方
玫瑰花也是做了文本的情感分析。
蒋政旭
人工智障+13线词云主攻
词云还有inforgraphic、word2art可以做。但是还是需要词频和分词的基础 不然网站还是有局限。
Q9
许紫莹:请问一下,你们的数据通过哪些平台或渠道来找的呢?有没有推荐呀?谢谢~
方洁
指导教师
自己在网上扒啊。
这是一种,还有就是做爬虫写代码,另外会有一些专门的数据网站可以提供一些数据,还有就是一些选题报道的官网有相应的数据。
https://mp.weixin.qq.com/s/9KWldpXa4H0JwtwQnypARw
这是@想当文案的无情作图机器,兼职数据 做的,你们可以看看这篇稿件基本把几个主要的航空数据源放进去了。如果自己经常关注数据新闻,可以多看看国内外媒体报道时的数据来源,这样才能总结出一些规律。
邓海滢
想当文案的无情作图机器
兼职数据清道夫
这个得看你需要什么数据。平时可以多看看媒体的作品,关注他们的数据来源。有时候会发现很多神奇的网站hhhh
这个也挺难举例子的……因为不知道你们选题是什么方面的,最快的办法也许是到澎湃财新网易的数据新闻栏目搜一下你们选题相关的作品,看看他们用过什么数据来源,或许可以参考。
方老师给的链接里,Flightradar24这个网站应该是很常用的,这次疫情很前期,澎湃有一篇关于武汉迁出的数据新闻,就有用到这个网站的航班数据。
还有我最近印象挺深的是澎湃双十一的稿子,“慢慢买”这个网站,全年比价……(主要是很实用hhhh
李晨
联合国数据:http://data.un.org/(人口、教育、经济和社会发展等大型数据)
Kaggle:https://www.kaggle.com/datasets
https://ourworldindata.org
我自己记了几个综合的数据网站,但是用上的时候其实并不多。
蒋政旭
人工智障+13线词云主攻
看你做什么话题,就可以去相应的网站,比如我在找驻外记者数据的时候,我就可以去中国记协、各个媒体网站、联合国、大使馆等网站寻找数据;比如之前那个“退耕还林”就可以去退耕还林的专门网站、NASA网站找。
Q10
王楠:请问,可以分享些如何平衡作品的可读性和可视化方面的经验吗?怎样让设计更好地服务于内容?
葛书润
方老师的头像是我画的嘿嘿
可读性和可视化本质都是为了软化数字呀,这两者我觉得都是为数据分析服务的。
方洁
指导教师
设计不仅仅是为了美观,根本上还有启发和增加信息量等多种作用。大家不要认为设计就是美编,不就是把内容美化一下?这种观点不可取。可视化设计的功能这个话题比较大,咱们以后有机会继续探讨。
惠一蘅
作图的乙方
推荐一本书《The Functional Art》 也是老师推荐的。对于如何在美观的情况下保证图的可读性有很大帮助 干货满满~
RUC新闻坊数据与新闻研究中心出品
美编:马冰莹
往期回顾
特别策划
技术前沿
报道规范
趣闻杂谈
数据新闻习作