纯干货：记者在做报道时应如何解读数据

此帐号已被封,内容无法查看此帐号的内容被自由微信解封。

文章于 2018年11月21日被检测为删除。

查看原文

被微信屏蔽

其他

纯干货：记者在做报道时应如何解读数据

2014-01-19 新闻实验室

「这里是方可成的新闻实验室，微信公众账号newslab」

§本文首发于2014年1月19日，这是新闻实验室的第37篇文章

§本文归属栏目：#培养皿#（跟踪新闻界最新趋势和前沿动态）

　　在上一次的推送中，我询问了是否有人愿意与我合作翻译一些有价值的文章。我收到了好几封回复，今后将陆续刊出我们合作翻译的文章，也继续欢迎你加入新闻实验室（邮箱联系disincurable@gmail.com）。
　　以下这篇文章的作者是在哥伦比亚大学开设了“计算新闻学”课程的Jonathan Stray。他曾在一次工作坊中就此主题做了一个半小时的演讲。文中有许多链接，微信后台无法添加链接。因此推荐你点击文末的“阅读原文”，到我的博客上阅读添加了链接的完整版本。
　　——实验室主人方可成

由数据得出结论

撰文：Jonathan Stray

翻译：杨颖芝方可成

数据记者的职责是将数据变成故事。若从一张癌症患病率的数据表开始，你的故事可能是“在炼油厂附近居住的人患肺癌率是其他人的三倍”。但真实的情况或许不是这样，因为你可能误读了数据。

解读数据

一则数据新闻报道通常会揭示出数据的一些模式。让我们回想一下那些新闻标题：《下降的犯罪率》、《人类活动导致气候变化》，或者《在持枪率更高的国家，有更多的人死于枪下》。这些标题到底在说什么，它们都是真的吗？

数据不会自己说话，否则数据记者也不必存在了。数据需要被解读。解读数据的过程包括：选择和获取相关数据，寻找有趣的事实或模式，然后把它们放在大背景中来解释其意义。在这个过程中，每一个步骤都可能会出错，很抱歉这样说，但即使是专业的记者有时也会写出错误的故事。

很多原因都会造成你对数据的错误解读。你可能选择了错误的原始数据，或者你不了解原始数据是怎么收集的，它们有什么局限性。你可能以为自己发现了规律，但其实不过是巧合：有些现象可能只是偶然出现的，因而你不能把它当做事实来呈现。很多数据主导的新闻报道会声称或者暗示两个变量的因果关系，但因果关系其实是很复杂的，很容易被误解。或者，你可能只分析了很少量样本的数据，却错误地认为自己得出的结论能够推广至所有案例。

想知道自己是否正确地解读了数据，你可以问自己以下几个基本的问题。

1、数据是如何收集的？

数据当然不是从天而降的。它们是由专门的人员或者机器出于特定的目的收集而来的。数据可能跟一些人的经济或政治利益有关。比如，警察局想要看到犯罪率下降，这种期待可能就会影响犯罪案件的记录方式。你必须理解数据产生的过程和其过程中可能发生的错误。许多数据记者把这个过程称为“采访数据”。这些是你可以问的问题：

这些数字是哪里来的？

谁记录了这些数字？

怎么记录的？

出于什么目的收集这些数据？

我们怎么才能够知道数据是完整的？

这些数据的人口统计信息是什么？

用定量的方法解决这个问题是正确的吗？

这些数据中不包括什么？

这些数据的结果会对谁不利？

数据是始终如一的，还是由不同人统计的？

为了生成这些数据，需要做出哪些随意的决定？

这些数据与其他来源的数据相符吗？有谁已经分析过这些数据了？

数据有已知的缺陷吗？有多个版本吗？

Derek Willis在处理人种和种族的数据时的冒险经历很好地说明了，要想正确理解一组数据，会遇到哪些困难。

2、样本符合统计显著性的要求吗？

这个问题跟可能性有关，确切地说，很可能你看到的现象仅是偶然发生的。它可能是由完全无关的因素所导致的，这种可能性越大，你发现真相的几率就越小。

你知道纯粹的随机性长什么样吗？其实，真正的随机数据，比如掷骰子得出的数字，很可能并不是一团混乱，而是会带有十分有趣的模式，这种可能性比大多数人设想的要高得多。在演讲中，我提到了这方面的一些例子，它们有助于你更好地理解随机性。了解了这一点，我们就会知道，一定要问问自己观察到的现象是否只是巧合。对于一个统计学家或数据记者而言，“有多大的可能性？”并不是一个口头上的问题，而是需要通过定量研究来回答。

统计检验正是要弄清楚：你从数据中观察到的现象，有多大可能是偶然发生的。一些人觉得这个过程很可怕，因为需要数学计算。我的演讲大部分都在讲统计检验，但我用了很不一样的方式，你在大部分教科书中都找不到这种方式。有了这种新的方式，你可以通过使用少量代码来完成检验，无需涉及数学方程式。我在演讲中提到了一些例子，以下是具体介绍这个方法的相关文章和书籍：

《Statistical Modeling: A Fresh Approach》。这本书是我所知道的最棒的统计学教材，因为它采用了现代计算机和数据驱动的方法，并且清晰地解释了内在逻辑。前五章可供读者免费阅读，并且可以让你学会用R软件计算置信区间，这足够解决各种各样的统计问题。

《Permutation methods: a basis for exact inference》。它简短地介绍了一些简单的方法来做复杂的统计检验，比如检验两所学校学生的考试成绩是否有显著差异。内容的密度有些大，但依靠少许几行编码你就可以掌握其核心技术。

《Graphical inference for infovis》。它是对上一篇文章中逻辑的延伸，将之扩展到数据可视化领域。本文介绍了很实用的技术，适用于你能想象出的任何类型的数据可视化。每一个数据记者都该熟悉它。

《The introductory statistics course: a Ptolemaic curriculum》。这门课程讲述了置换法（permutation）和随机检验的历史，并介绍了为什么这些方法最近才被写入教科书。统计学通常不是这么教的，但这些方法完全可靠，在概念上也比z-scores, t-tests等等概念更易于理解。

3、你对因果关系的理解正确吗？

当我们说“在炼油厂附近居住的人患肺癌率较高”时，我们通常的意思是“炼油厂造成了较高的患癌率”。然而正如一句老话所说，相关性并不等于因果关系。“相关性”仅仅是指数据中的一种关系，当你在做视觉可视化时，需要这种关系。但即使你发现A与B是相关的，你仍然需要证明A是B的原因。

两个变量之间有相关性，通常只有少数几种原因。假设我们发现：持枪率更高的国家有更多的枪支杀人案件，那么原因可能有这几种：

拥有枪支滋生了杀人案（人们有了枪就会用它们杀人）

杀人案的存在导致更多人拥有枪（在不安全的地方住，会买枪自卫）

其他某种可以同时导致杀人案与拥有枪支的原因（可能是贫困）

这只是巧合（用统计检验来排除这个可能性）

要证明你所设想的因果关系存在，最简单的方法就是排除其他的可能性。首先，你要排除偶然性，这正是统计检验要做的。如果通过了统计检验，那么很有可能的确存在因果关系，不过你仍需要弄清楚是怎样的因果关系。

当有时间元素出现的时候，这件事会变得很简单。例如，当“可爱”这个词出现在网络约会信息上时，会导致某些人回复，但一条回复并不会导致你写出“可爱”，因为回复发生在你发出信息之后。

在其它情况下，像枪支的例子，就很难确定其中的因果关系。请特别小心同时影响两个变量的潜在因子，我们叫它混淆变量。

4、你的结论能推而广之吗？

报道一则新闻时，你经常用很少的样本代表很大的总体。比如，你采访了五个学生的债务经历，却想由此得出所有学生都欠债的结论；你分析了一所学校的数据，却想对整个州所有学校的情况下定论。

有时候，你没有很明确地说自己是在推而广之，但假如你没有说清楚自己的分析有什么局限，读者就会自己做出概括。例如，可能由于媒体只报道最严重的暴力犯罪，美国人认为暴力犯罪一直在增长，但事实上暴力犯罪已经在20年前就呈减少趋势了。暗示性的报道也会加强刻板印象或者种族、收入和性别歧视。你也许会用Twitter上的数据做可视化，但这样的数据可视化只告诉了我们Twitter用户的情况，而Twitter用户多是年轻人、中产阶级和男性。这意味着你的可视化并不能说明每个人的情况，但当读者在欣赏漂亮的图片时，他们可能不会意识到这个问题。

任何的推而广之都是危险的，但在某些特定的情况下是可行的。比如，一千人的民意调查就可以推广至全国。这种调查可以推广是因为它采用了非常小心的抽样策略，而其代价就是误差幅度，它告诉你这种推论的错误可能性和错误程度有多大。我的演讲没有涉及民意调查和其它推论的具体方法，而是希望你确定问了自己这样的问题：

我说明或暗示自己的结果可以推而广之了吗？

如果是，我怎么知道它们可以推广？

读者有可能认为我的结果可以推而广之吗？

如果是，我怎么能够确定读者准确地理解了呢？

一个强大的工具包

回答这四个方面的问题，并不是解读数据的终点，但它们是很强大的工具，所有的基本概念都在这里了。其实，置换测试和图形推理可以用于更复杂的数据分析，你也可以根据自己的需求去学习其它分析方法。比技术性的知识更重要的，是知道自己需要问什么问题的直觉，以及确保他人在发表前问过这些问题的原则。

你要把这些问题运用到自己的作品以及同事的作品中，并且用它们去评价专家学者的发现。我每天都会读到错误解读的数据新闻，希望你的故事不是这样的。

◆

这里是方可成的新闻实验室，欢迎关注，期待与你产生化学反应

方法1：点击右上角的按钮，选择“查看公众账号”，点击关注

方法2：在添加朋友中搜索newslab

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天

纯干货：记者在做报道时应如何解读数据

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天

生成图片，分享到微信朋友圈

纯干货：记者在做报道时应如何解读数据

您可能也对以下帖子感兴趣