查看原文
其他

数据可视化 | 好图表坏图表,手把手教你正确选择图表

数据Seminar 2022-12-31

The following article is from 大数据DT Author Scott Berinato

关于作者:斯科特·贝里纳托(Scott Berinato),《哈佛商业评论》杂志高级编辑、数据分析师和可视化专家,同时也是一位获奖作家和内容架构师。他自称为“可视化极客”,喜欢利用可视化的方法解决各类沟通问题。他倡导《哈佛商业评论》杂志使用视觉传达和讲故事的方法,并亲自创作了一些颇受欢迎的图表形式。

本文摘编自《好图表,坏图表:可视化语言打造看得见的说服力》,经出版方授权发布。

本文转载自公众号大数据DT(ID:hzdashuju)

导读:了解可视化任务落在哪个象限有助于我们对要使用的可视化形式、需要的时间以及需要的技能做出准确的判断。

将性质和目的这两个问题的答案整合在一个经典的2×2矩阵中,就得到了四种可视化类型。

让我们从这个2×2矩阵的左上角开始,按逆时针方向进行说明。

Part1观点说明类

也可以称之为“咨询顾问象限”,因为咨询顾问们对此类图表的迷恋常常造成流程图和周期图的过度使用,有时于表达无益,反而有害。(《哈佛商业评论》(Harvard Business Review)的一位编辑嘉丁娜·莫尔斯(Gardiner Morse)为这类过于烦琐的图表创造了一个术语:“废话圈”(crap circles)。)

概念型、陈述性图表利用人们对隐喻(树状图,桥形图)和简单惯例(圈子,层级)的理解,可以极大地简化复杂的概念。组织图、决策树和周期图都是观点说明类图表的经典示例。作为本文内容框架的2×2矩阵图也属于此类。

观点说明类图表的设计应清晰而简单,但大部分此类图表往往缺乏这样的特点。它们不受限于数轴也无须考虑如何将数据绘制精确,但对隐喻的依赖常常导致为了强化象征义而加入许多不必要的装饰。例如,你要介绍的概念是“漏斗式客户”,你可能会不假思索地在图表中放一个真正的漏斗图片,但这种平实的手法可能导致失败的图表设计。

因为数据本身不具备观点说明的功能,图表说明观点的能力必须由我们赋予:关注图表的结构和观点的逻辑,关注图表是否足够清晰——这些之于图表的重要性,类似文本编辑之于稿件——将作者的创意以最清晰、最简明的形式表达出来。

比如,一家公司聘请了两位咨询顾问,帮助研发团队从其他行业中寻找灵感,两位顾问打算使用一种叫作金字塔搜索的方法。但是金字塔搜索是如何进行的呢?顾问们要先给研发部门的负责人讲清楚。于是,他们拿出了这样一幅图:

这个观点说明图表的问题在于设计过度:渐变色、带阴影的箭头以及分层的3D金字塔将我们的注意力从图表观点吸引到了图表的装饰元素——这种风格不可取。

此外,他们并没有将隐喻描述清楚。他们要讲的是金字塔搜索,但图中最突出的却是相扣的环;金字塔只是图像,起不到什么作用。这种做法令人困惑。他们也没有利用高度差来表明相对地位,而是将专家和顶级专家置于同一水平线上(放在图的底部——金字塔的象征义又一次没体现出来)。

他们最好呈现这样的图:

▲资料来源:MARION POETZ AND REINHARD PRüGL-JOURNAL OF PRODUCT INNOVATION MANAGEMENT

上图中,金字塔的象征意义与视觉效果吻合。更重要的是,两个坐标轴的使用符合惯例,让读者能够立即理解——行业依相关度由近及远沿x轴排列,专业程度由低到高沿y轴排列。金字塔的形状起到了作用,表明了顶级专家与其他专家相比的稀缺程度。

标题的用词也很有帮助——“攀登”和“金字塔”两个词都能帮助我们快速抓住图表的含义。并且,图也没有被装饰元素裹挟:金字塔既没有做成3D的,也没有使用砂岩色,更没有以沙漠为背景。

Part2观点生成类

对许多人来说,这个类型是最难理解的。我们什么时候会需要对非数据型信息进行可视化来寻找观点?厘清复杂概念与探索性工作似乎是背道而驰的两个目标,因为在探索过程中,观点本身还不甚明确。

这类图表的使用情境和演示媒介有别于其他三种可视化类型,管理者可能没有把它当成可视化,却经常用到它。它被画在白板上,包生肉的油纸上,或者更多地,在餐巾纸的背面

同观点说明类图表一样,观点生成类图表也依赖概念性的隐喻和惯例,但它发生的情境更加非正式,如非工作场合会议、战略会议和创新项目的前期会议等。此类任务多为解决非数据性的挑战:组织重构,新的业务流程,决策系统编排等。

对观点的探索可以由一个人独立完成,但合作好处更多。图表设计的过程对观点探索也会有帮助:收集尽可能多的不同观点和可视化方法,然后再决定采纳哪一个进行后期优化。

乔恩·科尔科(Jon Kolko)是奥斯汀设计中心(Austin Center for Design)的创始人兼负责人,也是《精心设计:如何利用同理心创造人们喜欢的产品》(Well-Designed: How to Use Empathy to Create Products People Love)一书的作者,他的办公室里面挂满了画着概念型、探索性可视化图表的白板。

分析复杂问题时,这是个屡试不爽的方法。”他说,“这些手绘稿帮助我们走出模糊和泥泞,最终到达了清晰的状态。”那些擅长领导团队、建导头脑风暴和捕捉创造性思维的管理者,会在观点生成类象限做得很好。

想象一个营销团队正在进行一个非工作场合会议。团队成员们要找到一个方法,向管理层提出和展示进军高端市场的战略提案。一个小时的白板会议产生了多个阐述过渡策略的观点和方法,并悉数得以保留。但最终,只有一种方法获得了整个团队的认同,他们认为这种方式最好地抓住了战略的关键:争取更少的客户,让他们花更多的钱。

上方展示了这场观点生成会议结束时白板上的草图。当然,从观点探索过程中得到的可视化图表,往往会变成一个更正式且具备展示性的观点说明类图表。

Part3可视化发掘

这是最复杂的可视化类型,因为事实上,它是两个类别的结合。回想我们之前根据图表目的将可视化任务分为三种可能的类型:陈述性的,证实性的,探索性的。但我没有将证实性可视化列入2×2矩阵之内,为的是保持基本框架的简单和清楚。

现在,我们的焦点来到了这个象限,我将把证实性这个类型也加入讲解的过程,见下方调整后的2×2矩阵。

请注意,证实性可视化仅适用于数据型图表。没有数据,一个假设无法被证实或证伪

此外,证实性和探索性的区分是以虚线显示的,因为这是一个软性的区分。证实就是有针对性的探索,而真正的探索更加开放。数据集越大,越复杂,你所知越少,任务的探索性程度就越高。如果将证实比作步行于一条新的路线,探索则无异于开辟一条全新路线。

1可视化证实

这一类可视化任务,一定会回答以下两个问题中的其一:

  • 我认为正确的观点究竟是否正确?

  • 是否有其他方式来理解这个问题?

这类可视化任务的数据量往往不会特别大,形式以常规图表为主。当然,如果你想尝试新的可视化形式,也可以大胆用一些不常见的图表形式。

证实的使用情境大多是非正式场合,它是正式演示之前为找到合适的图表形式而做的准备工作。这就意味着你可以把花在图表外观设计上的时间省下来,花在图表的原型设计上。原型设计让你能够迭代数据,并快速进行可视化与再可视化。

假设某公司负责员工差旅服务的经理想研究公司购买的机票是否物有所值,她本着“舒适性会随着机票费用的增加而提高”的假设开始了可视化证实工作。她搜集了经济舱和商务舱数据,以票价与舒适度为坐标轴,迅速生成了一个散点图。她的预期是:两者间存在相关关系,散点呈现向右上方倾斜的趋势。

请注意,上图就是一个图表原型。这位管理者并未花多少时间打磨设计,调整数轴或标题。对这位管理者而言,验证假设是否正确比让图表看起来漂亮重要得多

她立即发现,票价和舒适度之间的相关性是相对较弱的。对商务舱旅客而言,舒适度有随票价上升的趋势,但并不明显。她很吃惊于假设的不成立:花高价买机票可能并不值得。于是,她开始思考,在做具体决策之前,还需要对哪些假设进行验证。

2可视化探索

尽管新工具的出现让高管也能参与到可视化探索中来,但探索性、数据型的可视化往往仍是属于数据科学家和商业情报分析人员的领域。尝试这个类型的可视化会令人感到兴奋,因为它总能够带来无法以任何其他方式获得的洞见

由于不知道要找的结论是什么,我们往往会将所有数据都放进图表中。在某些极端案例中,此类可视化任务可能会同时纳入多个数据集,甚至可能包含实时更新的动态数据。它甚至冒险超越数据本身。

政治学家和统计分析师大卫·斯帕克斯(David Sparks),现为NBA波士顿凯尔特人队从事可视化探索工作,但他将自己的工作定义为“模型可视化”。斯帕克斯认为,数据可视化的对象是真实既有的统计数据;模型可视化则是利用历史统计数据创建模型后,带入新数据,从而预测在特定条件下可能发生什么。

探索有助于交互性——允许管理者即时调整参数,注入新数据或者随时对可视化图表做出调整。复杂数据有时也更宜使用特殊的或不常见的可视化类型,例如展示集群关系网的力导向网络图(force-directed network diagram),或者地形图

在可视化探索中,功能才是决定采用图表与否的最重要因素:软件操作能力、编程能力、数据管理能力和运用商业智能的能力,都比提高图表展示性的能力更为关键。在这一象限中,管理者最有可能需要依赖专家的配合。

一家社交媒体公司的经理正在为自己的技术寻找新的市场。他想找到别人还不曾发现的市场机会。他联系了一位数据科学家,这位科学家给他讲了如何根据多个行业文字情报的相似性,使用语义分析来构建数千家企业之间联系的映射图。

这位经理非常喜欢这个想法,但他自己无法完成。于是他聘请了这位数据科学家,他们一起创建并调整数据集,最终得到了一个映射了数千家企业的草图。语义分析将相似的公司联系起来,相似性越大,联系就越强,两者在图中的位置也越近。

他们最终做出了这个网状图,该图将产业集群情况十分清晰地呈现了出来。相邻集群之间的空白说明连接两个行业的市场机会仍然存在——尽管数据显示两个集群相似性很高,但仍未有填补这个市场空白的企业出现。

这位经理立即注意到,社交媒体和游戏产业之间没有太多的空白空间,这个发现也并不令人惊讶,他自己就玩过糖果传奇(Candy Crush Saga)。但他确实看到了社交媒体与教育和生物燃料等其他产业之间的空白,对他的技术而言,这些都是潜在的新市场。

Part4日常数据可视化

数据科学家的工作以探索性为主,而管理者主要使用的是日常数据可视化这类图表。这类图表就是我们通常用Excel做好,再粘贴到PPT中的各类基础图表,通常形式比较简单,如折线图、条形图、饼图和散点图等。

这里的关键词就是“简单”。数据集往往小而简单;图表传递一条简单的观点或信息,变量数也较少;图表目的也很简单:提供基于数据的、不会引起争议的事实信息。

简洁是此类图表设计的最大挑战。清晰、完整的特点让这类图表在正式演示情境中非常有效。在正式演示中,设计不当的图表让演讲者不得不将有限的时间浪费在解释图表结构和本该其义自见的信息上。因此,一位管理者应该有能力做出不言自明的日常数据可视化图表。如果图表不能一目了然,它就像一个需要解释的笑话一样失败了。

这并不是说陈述性图表不应该引发讨论。相反,它们应该。但讨论应该针对图表的观点,而不是图表本身。

一名人力资源副总裁将向执行委员会其他成员介绍公司的医疗保健费用使用情况。她想传达的一个关键信息是,这些支出的增速明显放缓了,而公司可以借此机会考虑为员工提供一些额外的服务。

她在网上读到了一份关于医疗保健支出增速放缓的报告,报告中提供了一些政府数据的链接。因此,她下载了数据,点击了Excel的折线图选项,几秒钟之内就做出了一个图表。但由于这幅图是作正式汇报之用,她请一位设计师同事帮忙添加了更多描述GDP和经济衰退的数据细节,为数据提供了一个更全面的背景。

此图设计良好,绘制精确,但不一定合适。执行委员会不需要通过了解20年来的宏观经济数据,来决定公司员工福利的投资策略。她想表达的是,过去几年中,员工医疗保健费用增速有所放缓。那么,这个信息是否明显?

一般来说,如果图表包含的数据量需要花几分钟而不是几秒钟才能消化,那么这样的图表更适合在纸面或个人屏幕上阅读,适用于不需要一边听演讲,一边吸收图表信息的情境。例如,医疗保健政策制定者如果在政策听证会之前看到这幅图,可能会从中受益,他们将因此在听证会上就政策的长期趋势展开讨论。

但我们这位高管需要为自己的演讲内容找到一个更简洁的图表形式。用同一个数据集,她做出了如下页所示的“年增长率下降”图。

无须她费口舌,公司高管们就理解了这个趋势。她用图表清楚而准确地为自己的提案奠定了讨论的基调。






星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


统计计量 | 鸡肋的豪斯曼检验与约定俗成的心传:为什么我们偏爱固定效应模型?

软件应用 | 常用的27个Stata命令

统计计量  | Angrist等:更好研究设计如何规避计量经济学弊端?实证经济学的可信度变革

统计计量 | 有了企业固定效应后,还需要行业固定效应吗?

数据资源 | 为什么要做数据清洗?

数据可视化 | 常用科研统计绘图工具介绍

软件应用 | 带你了解Stata中的矩阵






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 青酱


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存