城读│怎样识别统计图表的谎言?
235
怎样识别统计图表的谎言?
七个帮你识别统计图表谎言的技巧。
Jones, G.E. 2018. How To Lie With Charts, 4th edition. LaPuerta Books and Media.
Sources:http://nautil.us/issue/19/illusions/five-ways-to-lie-with-charts
https://flowingdata.com/2017/02/09/how-to-spot-visualization-lies/
统计图表的目的通常是帮助你正确解释数据。但有时情况恰恰相反。在正确(或错误)的人手里,统计图表可以成为强大的欺骗工具,诱使你推论出其实并不存在的趋势,或者错误地把少当作多,或者遗漏惊人的事实。麻省理工学院知觉科学家露丝·罗森霍尔茨说:“衡量统计图表诚实度最好的指标是解释它所花的时间。一幅糟糕的统计图表需要更多的认知过程以及对你所见的做出更多推理。”
以下基于《谁说图表不会撒谎》(How To Lie With Charts)、网站Nautilus.us和flowingdata.com数篇文章介绍七种有助于识别统计图表谎言的技巧,分述如下:
迷惑性的透视
Source: http://www.mrexcel.com/tip142.shtml
上面这两张饼图都显示“劳动力”占总数的30%。但是你可能注意到了,右边的饼图通过将劳工分块前置使它看起来比实际大得多——具有很厚的3D边缘,深蓝色像素的数量比后置时增加了一倍多。
罗森霍尔茨说,人类视觉不太擅长解释第三维度。当面对3D统计图表时,我们通常假设颜色越多表示数量越大,所以当更多的像素被用来表示饼图的某个分块时,这个分块显得更显著。这就是为什么我们会给3D饼图中的前景分块赋予更大值的原因。
当你看到饼图无缘无故采用3D时,质疑数据、图表、制图者和基于图表的一切。
欺骗性的形状
source: http://www.mrexcel.com/tip142.shtml的数据
用统计图表说谎的一个经典方法是引入不相关的信息。上图右边的统计图表中,唯一相关的属性是圆锥高度。但是,尽管锥体体积无关紧要,但却很难忽略,诱导我们给锥体较大体积部分赋予更大值。
在这两个图表中,行政管理成本几乎占每美元的三分之一。虽然这与左图相当吻合,但右图似乎将行政管理成本缩减到远低于三分之一。罗森霍尔茨说:“不管任何时候你要求任何人只需判断高度而忽略其他测量值,但是忽略其他暗示仍会增加额外的认知负荷。”
误导性的趋势线
Source: http://tylervigen.com/
当统计图表中两条或更多的线同时出现并且彼此很相似时,我们往往会假设它们是相关的。上图中的红线代表自杀率,绿线代表科技支出,是两组完全独立的数据。但是乍看之下,我们往往会问这两者之间是否存在因果关系。
罗森霍尔茨说,我们喜欢趋势,因为它讲述了一个让数据更有意义的故事——这是为什么我们总在寻找联系,即使它们不存在的原因。
藏而不露
Source: Data from Jones, G.E. How To Lie With Charts BookSurge Publishing, Charleston, SC (2006).
我们很擅长注意趋势,但是如果有人不想让我们看到呢?上面左图清楚地显示,营销成本在三年内增至三倍。同样的事实也出现在右图中,但它隐藏在其他数据中,弱化了营销成本急剧上升的趋势,并使这种上升趋势几乎无法量化。
“对人眼来说,比较数据库上下移动时的高度变化不是一项自然的视觉任务,” 罗森霍尔茨说,“我们不清楚应该看整体高度还是宽度,或是别的什么。任何类似的比较都属于认知性的任务,而非更轻松的视觉化。”
操纵坐标轴
截断的坐标轴:左图从10开始,右图从0开始。
柱状图使用长度作为视觉提示,因此当有人通过截断坐标轴来呈现相同数据时,柱子长度会变断,图表会夸大差异。通过操纵坐标轴起始值,达到夸大差异的目的。
Source: Data from Jones, G.E. How To Lie With Charts BookSurge Publishing, Charleston,SC (2006).
乍一看,上面两张图似乎描绘了两个不同的数据库。但仔细观察之后,你会发现唯一的差别是坐标轴比例。
罗森霍尔茨说,这种方法奏效是因为我们很难同时检查统计图表的比例和数据。相反,我们通常先注意曲线,然后(如果我们认为需要的话)再看看比例。不过,到那时,我们已经有了先入为主的第一印象。
通过使用双坐标轴,度量的幅度可以缩小或扩大。这往往是为了暗示相关性或因果关系而如此操作。
上图缅因州的离婚率和美国人均人造奶油消费量之间相关性图表即为通过双坐标轴展示虚假相关性的例子。
用一维尺度来缩放二维面积
如果统计图表用面积进行视觉编码,那么就必须按面积来确定大小。当有人线性地调整基于面积的编码,如正方形或圆形时,他们可能是有意加大戏剧效果,不过也有可能是无意为之的错误。
例如,下图显示美国政府对不同能源补贴的气泡图,该图显示政府对化石燃料的资金支持存在偏好。请注意,最右边的气泡与其他气泡相比要大得多;然而,它应该是右边的第二个气泡的四倍多一点,是最左边那个气泡的30倍左右。该气泡图显然是错误的。
如下是修改过的气泡图,气泡的面积大小正确(与半径的平方根成比例)。
有限的时间范围
有的统计图表会刻意挑选日期或时间范围使之满足某种特殊的叙事。所以,需要考虑历史曾经发生过什么,建立比较的基准线。只有当你拓宽时间范围,看到大局时,才能观察到真正的趋势。
例如,讨论气候变化,不应只看短时孤立事件,而应建立基准线,观察长期变化趋势。
总之,解读统计图表的首要原则,仔细检查那些让你震惊或看起来比你想象的更戏剧化的图表。
统计图表不代表事情为真。数据不代表事情为真。它可能会歪曲事实。它展示了许多东西。所以睁大双眼,保持怀疑。
城读相关阅读:
(点击文章标题,或进入公众号回复标题前的数字获取文章 )
城读 ∣城市阅读的记录
微信公共订阅账号“城读”,每周推送城市阅读笔记
关注我们,请搜索账号 CityReads
或长按上方图片,识别二维码关注