好享学 | 《经济学人》编辑的经验:如何反复认识和打破数据可视化规则?
数据可视化是一件很容易也很难的事情,图表类型选择错误,省略标签或者过多图形的堆积,很容易就可以得到数据可视化的结果,但是这个结果又是具有误导性的,而且并不能说明任何问题。
随着数据可视化领域的日趋成熟,一些实践结果告诉我们应该如何避免这些无效的数据可视化。
有时候,我们可以通过经验来重新审视我们早期所学到的东西,本文作者在做数据可视化的六年的过程中发现,如果一味地坚持 "规则 "有时反而会阻碍数据的有效呈现,这会导致人们很容易被一些技术性的问题困扰,而忽略什么是真正有效的数据呈现。
虽然最佳做法与习惯性做法没有什么细微的差别,甚至可能是不相关的,但是有值得打破的意义。自作者加入《经济学人》,他尝试打破了许多规则。如果你也想尝试去打破哪些绘制图表的规则,那么了解他们为什么会成为规则是必须要做的一件事。「“你必须先了解规则,然后才能打破他们。”」
考虑到这一点,借助《经济学人》档案中的数据,作者总结了以下5点,以下是作者总结的主要内容:
1: 不要破坏坐标轴的刻度
「《经济学人》偶尔会收到读者对数字轴不以零为起点的图表的投诉。」 众所周知,截断的坐标轴会使微小的差异看起来更大,或者使数据的上升或下降等变化失去了它本来的严谨性。这也就是为什么读者会对断轴持有怀疑的态度。误导性的使用断轴标尺(尤其是在政治运动中)已经让断轴的可信度降低了许多。但是不可否认的是,有时候数据之间的微小变化是很重要的,限制图表的范围,才能使图表所要传达的信息更加清晰。
在作者做的这个关于Uber乘客小费习惯的图表中,「从零开始的刻度反而降低了数据的可读性」,虽然数据差异很小(不接近于0)但是对于数据最终的呈现具有很明显的影响。此时将坐标轴折叠,就可以让读者更明显的看到这些数据之间的差异,提高了数据的可读性。在《经济学人》中,除指数图之外,他们总是用一个符号来标示折叠的刻度。
但是在制作条形图或柱形图时,就不应该使用破损的刻度图表,破损的刻度图表会破坏矩形的尺寸和数据之间的关系。
图(或者交温度计)而不是柱状图(左图,来自2006年)。
2:不要制作3D图形
自从微软的Excel在商务会议上推出了一千张3D饼图以来,3D图表一直是数据可视化中最不为大众所接受的一种。三维可视化有两种类型:一种是用第三维来描述第三个变量,另一种是纯粹的装饰性。装饰性的3D图表尤其不为大众所欢迎,因为这种图表不仅不会加强数据的可读性还会使数据扭曲,3D的透视性导致用立体图形来表示一个单一的变量会使较大的数据点的外观被放大。
使用3D图形来描述三个变量,虽然理论上具有可行性,但往往会导致图表难以理解。对于静态图表来说,也不可能选择一个角度来提供一个客观的数据视图,如果这样做的话,无论从哪个角度看,都会有一些元素比其他元素更被强调。大多数情况下,最好是找到另一种方式来表示第三个变量。接下来,原文作者将会为我们讲解利用气泡大小来表示第三个变量的方法。
但在某些情况下,3D制图也可以很好地发挥作用。在《经济学人》杂志图形细节部分的可视化中,采用一系列立方体来显示北极海冰的相对体积变化。
从这种情况来说,作者认为人们打破了反对使用3D的规则,因为
所表现的东西实际上有三个维度,采用3D视图可以增强数据的可读性 使用了等距投影(用以解决了3D视图透视的缺陷)所以前景和背景的元素之间没有失真 没有使用比例尺(因为比例尺在三维视图中缺乏可读性)而是直接给数据贴上标签 较小的元素放在前面—减少元素被遮挡的可能性
3D在动画或互动的可视化中能发挥更好的作用,因为3D视图观察数据不会被局限在一个视图中
3: 摆脱 "图表垃圾",最大限度地提高数据-油墨比例
"图表垃圾 "是由统计学家爱德华-图夫特(Edward Tufte)所定义的,是指不能够解释图表或者对于图表不重要的东西,图夫特认为插图和花哨的字体对于解释图表具有一定的干扰性。
"图表上的装饰品,经常会扭曲数据,也无法挽救图表潜在的内容缺乏。如果数字是枯燥的,那么你得到的是错误的数字。"
"图形上的每一点墨水都需要一个理由。而所有的理由都应该是,这些墨水为图表补充了新的信息"
「爱德华-图夫特(Edward Tufte),定量信息的视觉显示,1983年」
*图夫特可能不会同意这个来自1997年版《经济学人》的图表中的漫画,不管是阴影还是破损的标尺...
图夫特的观点帮助数据可视化向极简状态转变,至今仍旧有很大的影响力。这是作者最早了解到的规则之一。但也有一些人反对将图表剥离到最基础的状态,这其中包括数据可视化顾问Alberto Cairo。
“……时间序列图表中的网格线,或者标识图表讨论主题的图标——可能根本不是增加图表理解难度理解的障碍,它们可能会增强理解。”
「Alberto Cairo,艺术的功能」
2010年的一项研究也对完全简约的图表设计方法提出了质疑,这项研究发现很多美化的图表能够更好的被人们记住而且图表仍旧具有可读性。2015年的另一项研究发现,带有额外“冗余”标签的图表可以更好的增强图表的可读性,而且带有标签的图表能够增加大众的记忆点,这一项研究重申了数据可视化的主要趋势。这也就是为什么大多数的信息设计师都没有完全的遵循Tufte的建议。
原文作者虽然赞成简化图表,但是也想告诉读者,多余的装饰和为主题提供提示或加强关键词的视觉元素之间是有区别的,对于一个具有挑战性的主题牵桥搭线是没有错的。在接下来所展示的密度图中,"说话更快 "和 "传达信息更快 "的标签重复了图表中已经给出的信息。根据Tufte的定义,它们会被认为是 "图表垃圾",因为它们并没有提供新的新的信息给观众,但它们实际上可以帮助观众更快地获取图表中的信息。
从简化图表的角度来说,原文作者做的另一个关于香港鬼屋的图表可能不需要香港塔楼的插图,但有了这些插图,会使得信息在视觉上变得更有趣,而且它们可以让读者快速的了解主题。
4: 使用少于七种颜色
虽然确切的数字有些不同,但人们普遍认为,在分类色标中使用过多的颜色会影响图表的可读性。与其他数据可视化的方法相比,我们的眼睛并不擅长分辨图表色调中的细微差别。如果使用了大量不同的颜色,就很难一眼看出图表中所要传达的信息,而且会增加误读图表的可能性,特别是当彩色区域很小的时候(例如,只有一条直线)
使用的颜色过多也会导致图表的齐整度下降。使用数量较少的颜色(尤其是使用在整个信息图或者数据仪表盘中的情况下)会使整个图表看起来更干净、更醒目。
但是,如果图表中的数据有很多类别,要如何解决呢?此时可以使用另一种视觉方法来显示分组,如标签或者将相关元素相邻,还有一种解决办法是通过创建一个“其他”分组来显示类别的数量。
图表数据中相关的类别,使用同一色系的不同色调也可以使数据图表看起来更加干净整洁。
如果在数据可视化的过程中仍然需要使用大量的颜色,就可以考虑使用《经济学人》的图形细节页面中所讲述的各种设计技巧来使数据图表更加具有可读性。
上述图表使用了九种颜色。但是它仍旧有很强的可读性,是因为:
类别被标在组的旁边,所以省去了在图例中匹配颜色来解释图表的步骤,也使图表能更加方便的被阅读 不同的分组用不同的形状来确定 彩色区域覆盖了一个相对较大的区域,并使用了足够明显的色调
对于某些类型的图表来说,就算使用颜色较多,但是图表仍旧是具有可读性的,比如上述图表,因为:
上述图表是线性图,每种颜色只用于一个形状且颜色应用区域小。如果是文章前面所提到的气泡散点图那样的形式,就没有办法依靠颜色来识别许多不同的形状组。 选择的颜色在交叉时也易于跟踪,且每一条线外面都有白色的轮廓,使每条线互相之间更容易被区分开来。 类别同样被直接标示在组的旁边
综上所述,正确匹配颜色对于理解图表并不是一个必要指标。
5:避免使用红色和绿色的色标
研究表明,每12个男人中就有一个有色盲,其中最常见的形式是红绿色盲(Duteranopia)。所以,人们从开始了解数据可视化的时候就被教导在数据可视化的过程中要避免使用红色和绿色。当然出发点是为了让数据可视化图表更具有可读性。
但有时很难避免选择特定的颜色。例如,在做政党相关的数据可视化图表时,除了使用与该政党的主要颜色以外的其他任何颜色都可能使读者感到困惑。在英国,这意味着使用红色代表工党,绿色代表绿党。幸运的是,红色和绿色是可以0进行组合的。
“红色 "和 "绿色 "是模糊的、有些主观的分类。上述图表中使用了茶色的色调,处于所描述的绿色的色调较蓝一端。色盲模拟器的结果显示,这种色调与红色色调搭配使用对于红绿色盲患者来说是可以分辨的。
当作者把色调调整为草绿色时,它们看起来更加相似,但仍然可以区分,为什么?因为绿色的色调更浅,饱和度更低。一个有红绿色盲的人仍然可以分辨出浅绿色和深红色的区别。巧妙的使用色调、饱和度和明暗度可以帮助你快速找到色盲患者也可以区分的色调。
另一个避免使用红色和绿色的方法是,通过使用其他元素,如图标或标签,或者为元素添加轮廓(见上文),确保颜色不是理解可视化图表的关键。我个人认为,无论如何,避免过多地依赖颜色是一个很好的做法,因为除了红色和绿色,红绿色盲患者对于其他特定颜色组合也不一定能够分辨出来。
人们需要实践结果来指导我们完成数据可视化过程中的众多决定。但每个数据可视化都有其独特的设计规则,这些规则(通常是对一个主题的广泛简化)可能并不适用于所有情况。如果打破规则可以使可视化图表更清晰或更有亮点,我们就应该勇于打破规则。巧妙地改变规则(在其他设计领域也一样)可以产生新的具有创造性的作品。但是,仍有一些规则还没有强有力的实践结果证明他们的不合理性
饼状图:对我来说,单一的堆积条或其他图表类型是更为合适的数据可视化图表,虽然有些人认为在只显示仅有的几个数据时,饼图是有优势的 彩虹顺序色阶:除了难以接受图表中的信息之外,亮度的突然变化会造成“错误边界”,增加了接受图表信息的难度 分离效果:使判断区域和比较元素变得更加困难
扫描二维码阅读原文
文 | 张静红
编辑 | 张静红
往期推荐
点个在看你最好看