查看原文
其他

媒技能 | 全民收藏:3天入门数据新闻指南(附资源库+工具列表)

2015-04-07 腾讯新闻 全媒派



数据新闻成为媒体业的热潮,也成为新闻课堂上的高频词,但是并非所有媒体人都明悉数据新闻是什么、如何操作。霍夫斯特拉大学副教授Kelly Fincham倾情奉献一份教学入门指南,分享如何教育未来的数据新闻人才。学生应该如何与数据打交道,需必备哪些技能?本期全媒派悉数传授于你。


本文由腾讯新闻旗下产品“全媒派”独家编译,谢绝转载。授权合作请联系quanmeipai0321@qq.com。


前,在新闻学院教学中,数据新闻处于十分尴尬的地位。媒体人深知,应该拥抱数据新闻,应该朝数据新闻方向努力,但是,数据新闻这块大蛋糕有时并不如想象那般美好,缺乏吸引力,中看不中用,让人对数据新闻无从下手。


这篇文章是一份数据新闻入门教学指南,指南的目标人群不是精通Python或Tableau的技术型教员,而是那些第一次教授基础数据课程,但不知从何入手的学者型教员。最应该认真研读这份入门指南的,是那些自认为在做科技新闻、实际上并不知道科技新闻为何物的人。




对数据新闻“准教员”来说,NICAR成员身份和数据新闻手册,绝对是必备技能。而同时,熟悉以下内容,也会有助于更好地开展数据新闻教学工作:


1、Excel(可以尝试参与NICAR提供的课程套餐)


2、Google Spreadsheets(Google新推出的在线电子表格工具,用户不需要安装任何软件就可以在网上进行电子表格的编辑处理)


3、Google Forms(Google推出的表格表单工具)


4、Google Fusion(Google推出的在线数据可视化处理工具)


5、Google/Open Refine (开源数据工具,可对原始数据进行获取、清理、标准化和转化,从而获得标准形式数据)


6、基于网络的抓取工具


7、联邦及州立的《信息自由法》条款


除了具备这些基本技能,“准教员”还得引导学生,做好以下6点:


1
正视数据
克服对数据的不适感


如果你对普通学生提到“数据”,很多人会对相关的数学计算忧心忡忡,其中一些甚至还会落荒而逃。没错,这就是数学,但是Excel能帮助处理复杂数据。而你们要做的是看看数据能告诉你一些什么。




学生们可以从NICAR上购买价值20美元的Excel课程,包括2~3周的课程,对比率、比例及百分比计算、分组、求和、筛选等相关操作详解,以及Excel公式计算表。这对刚入门的教员、学生来说是个非常好的辅助工具。你只需要在正式的数据新闻课程之前,复习巩固一下,就能解决任何问题。


2
激发灵感
思考优质新闻话题


在教学过程中最好循序渐进。南卫理公会大学(Southern Methodist University)新闻助理教授Jake Batsell在他的教学中,成功让学生们参与到调查、众包和位置映射的工作中。


以研究汽油价格为例:学生们创建了Google表单,并通过社交媒体分发,向通勤上班族调查特定加油站的汽油价格。以电子表格的方式搜集信息,并且使用Google Maps转换成地图。这意味着学生们将会从中明白正确组织问题的价值,得到的数据也会更有意义。一旦学生们熟悉这一过程,我们将会继续进行复杂故事的撰写。




数据新闻的灵感来源无处不在。我们已经进行了有关犯罪率、就业市场、学生债务、路面交通事故、桥梁工程、气候模式、收入不平等、吸毒等议题的数据新闻尝试。


3
寻找数据
协助新闻调查的开展


在开始专业新闻学习后,学生们可能和我们过去采取的策略相同——去图书馆(或网络)找灵感。我建议大家可以去看一下其他大型组织是怎么做的。数据新闻故事,通常是跨越州界的。也就是说,一条在底特律可能是新闻的消息,它在亨普斯特德很可能也是新闻。学生们需要去主动寻找数据。


我发现,在搜索可用数据集之前,学生们最好能事先有一些大概的想法。但他们可能会遇到这样的情况——事先花费很长时间完善创意,力求万无一失,但到头来却发现最理想的数据库根本不存在。


学生和教员们经常会发现网络上可获得的有用信息很少。数据总是以网络表格或PDF形式存储,进行实际的数据分析不具有可行性。因而经常需要定期向政府机构申请PDF版本的调查结果。


对入门者而言,获得数据有三种基本途径:类似Google表单的DIY调查,开放数据库,合理利用《信息自由法》赋予的信息知情权。


DIY调查


对初次任务来说,DIY调查是个可行的办法。学生们可以向同学发放问卷,调查话题可以无所不包,从咖啡售价到汽油价格,再到校外租房费用。然而,DIY调查获得的数据集通常很有限,更适用于课内小练习。




开放数据


注意宗教、区域、民族类媒体的数据新闻报道。一旦你发现了一些很有趣的点,一定要及时抓住,并存储原始数据链接。如果找不到充足数据,就使用数据库来搜索公开记录。我在上课时提供了一个数据库的列表,虽然很短,但是对初学者来说十分有用:


美国政府开放数据:http://www.data.gov/open-gov/

美国人口调查数据:http://www.census.gov/

移民统计数据:http://www.dhs.gov/immigration-statistics

联邦调查局(FBI)犯罪报告:http://www.fbi.gov/about-us/cjis/ucr/ucr

大学信息导航:http://nces.ed.gov/collegenavigator/

竞选经费:http://www.opensecrets.org/

劳工部统计数据:http://www.bls.gov/

美国国家环境保护局数据库:http://www.epa.gov/enviro/


信息自由


信息处理的自由听起来很吓人,这也是为什么在课堂上如果要向学生介绍这点来丰富经验时,必须要向联邦或州提出申请。正如我之前提到的那样,学校正和纽约《每日新闻报》进行项目合作,但是指导老师和学生都可以对这个项目提出各种各样的想法。Tom Meahger列出的文档是一个很棒的入门指南,来促进课堂上的讨论。而且,收获应对极其怪异的《信息自由法案》相关经验,将帮助学生克服怕犯错的恐惧。




4
转换数据
将PDF数据转换为可用数据


不幸的是,在你开始进行分析之前,有时你不得不清理网页表格或是PDF文档里的数据。好消息是PDF转换已经得到极大的改善,在这篇文档中列出了不少第三方解决方案。通过将HTML导入语句命令输入至Google Spreadsheets,网页表格的管理变得十分方便。


(注:Google Spreadsheets是Google新推出的在线电子表格工具,用户不需要安装任何软件就可以在网上进行电子表格的编辑处理。)


网页表格和网页抓取:http://advanced.cindyroyal.net/handouts/scraping_basic.pdf这是Cindy Royal提供的高级网页抓取教程。我也提供一份逐步教学的教程http://www.kellyfincham.com/data-cleaning-for-beginners/247,用ScraperWiki来转换PDF文档,用HTML语句来导出网页表格数据。


(注:Cindy Royal是德克萨斯大学新闻与大众传播学院的一名副教授,教学内容为数字和数据驱动的媒体技巧。)


PDF文件:Import.io、ScraperWiki都可以提供PDF转换服务。我试用了这几种工具,发现ScraperWiki最实用。Tabula在上传完成后,要求用户在PDF文档中标注想要转换的部分,而ScraperWiki在上传过程中就完成了转换。



图为PDF转换网站Import.io网站首页


(注:Import.io为一个将网页转换为数据的工具型网站,总部在伦敦,致力于提供用户一种从互联网挖掘数据的新方法。


Tabular:是一款帮助用户解决PDF文件里的数据表进行提取使用的免费开源的工具,下载安装后就可以通过浏览器来提取PDF文件里的数据。


ScraperWiKi:是一个致力于数据科学领域维基百科网站,总部位于英国利物浦,帮助个人和企业获得最专业的可视化数据,并支持对数据进行分析和管理,社会化数据处理。)


5
处理数据
清理冗余,分析有效数据


在你将数据导入到电子制表软件之前,确保每位学生拷贝一份,存储好原始数据,最好命名一个文件夹为“原始数据”。每个人都应该养成使用复制数据进行工作的习惯,因为一旦在原始数据集上进行操作,后果会很严重。建议学生在使用spreadsheet的时候,使用具有逻辑性的名称,要不将文件存储为.xlsx格式,要不存为.xls,不要同时存储两种格式的文件。


现在,学生们可以充分利用他们在NICAR教程中学到的东西,开始在Excel中进行比例、比率、百分比的整理、过滤工作,或者,他们可以将数据上传到Open Refine中进行更多复杂的操作。Open Refine可以删除数据,融合、编辑变量,甚至可以合并数据集,帮助学生明确并清除数据中的差异。它还可通过Freebase这类网站的外部链接吸收额外的信息来丰富现有的数据。


(注:Open Refine是开源数据工具,可对原始数据进行获取、清洗、标准化和转化,从而获得标准形式数据。Freebase是个类似wikipedia的创作共享类网站,所有内容都由用户添加,采用创意共用许可证,可以自由引用,但Freebase中的条目都采用结构化数据的形式。)




提示1:在上传文档之前要确定它是.xlsx还是.xls格式,因为Open Refine不能同时接收不同类型的Excel文档。


提示2:和Google Fusion Tables、Spreadsheets不一样,你在Google Refine中创建的项目会存储在本地电脑中。一旦你换了电脑,你就不能读取这些内容。对于维护敏感信息安全来说,这一点是很有利的,但是当学生意识到数据存储在家里时,就无法访问这些数据。当你结束工作之后,确保已经下载了每个数据库。


6
升华数据
二次加工,用数据讲故事


一旦数据整理完毕,就可以开始“面谈”了。教你的学生将数据视为线人。在过去,我们也许会叫上线人出去喝一杯,在酒吧里询问一番。事实上,多项调查的起源就是酒吧里的一场谈话。但是有了数据,当我们知道这是个新闻点时,就可以花几个小时来研究、理解这些数据。


比如说,在霍夫斯特拉大学的数据新闻课堂上,我们想获取拿骚郡的犯罪统计数据,然而,我们能找到的唯一一个公开的数据库就是记录海洛因罪犯逮捕情况的PDF文档。我们使用ScraperWiki将PDF文档转换为Excel文档,然后将这些表格上传到Open Refine中,这是学生们就可以开始对数据进行二次加工了。



图为海洛因罪犯分布情况的PDF文档


在课堂上还有其他的新闻项目正在进行:纽约大学内开放型校园和封闭型校园的生活费差异;长岛社区之间的收入不平等;长岛社区的卖酒执照;纽约州的桥梁;长岛药物疗法项目等。


每位学生会用整个学期来进行一个项目,经过多次的修正,每周都会讨论出多个关于项目的想法。最终,项目会逐渐成形,每位学生在学期末都要发布一篇详细的报告,包括采访、交互式图表和分析。目前为止,课堂上的指定阅读和每周测试已经走上正轨,整个项目给人印象深刻。我相当有信心,以后如果有谁提及数学的话,大多数同学都不会想以前那样找个地方躲起来。



回复GG看 你根本不知道!故宫博物院的同学这一年有多努力!

回复PR看 创业公司不花钱搞定品牌PR的7个必杀技


回复关键词查看对应内容:

新闻众筹 | H5 | 媒体人生存 | 可穿戴设备 | 航拍 | 报业转型 | VICE | 传媒并购 | 传媒资本 | 外媒转型 | 突发事件 | 移动采编 | BI | BuzzFeed | 新闻编辑室 | SMG | CNN | 社交媒体 | 界面 | 澎湃 | 新闻伦理 | 新闻实习生 | 传媒新政 | 网站设计 | 新兴媒体 | 交互新闻 | 纽约时报 | 游戏设备 | 普利策奖 | Vox | 媒介广告 | 摄影报道 | BBC | 腾讯新闻 | 媒体App | 数据新闻 | 全能记者 | 机器人新闻 | Quartz | 在线视频 | 赫芬顿邮报 | 招聘 | 报告 | 广电

点击阅读原文或点击头像查看历史消息





图片(●—●)形象来自@故宫淘宝,钦此。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存