查看原文
其他

数据呈现丨经济学家的数据可视化指南

启研学社 数据Seminar 2023-01-01

数据seminar每天18:00与您准时见面!


本文来源:Schwabish, Jonathan A. "An economist's guide to visualizing data." Journal of Economic Perspectives 28.1 (2014): 209-34.

英文标题:An Economist’s Guide to Visualizing Data

中文标题:经济学家的数据可视化指南

作者:Jonathan A. Schwabish

翻译:陈煌杰







一、摘要和引言

众所周知,“一图胜千言”。随着网络报纸、博客和社交媒体快速发展,精美的图片已经成为传递信息的重要媒介;同样对于经济学家而言,具有说服力并能够提高读者阅读效率的数据图表亦是研究报告中不可缺少的重要角色。

研究表明,有效的数据图表能够激发大脑的“预处理机制”(或称为,前注意加工)(Few 2004; Healey and Enns 2012),由于人眼对某些特征非常敏感(例如形状、对比度等),因此能促使大脑“无意识地“处理这些敏感的特征信息并在脑海中组成图像。因为“预处理机制”能够让我们同时感知多个基本的视觉元素,所以它比大脑的“专注处理机制”(或称为,注意加工,指一种连续感知事物的认知状态)能够更高效地处理接受到的信息。不妨看一个简单的案例来切身感受一下“预处理机制”:
请分别数出下面两组数字中“3”各有多少个。
第一组数字是:
1269548523612356987458245
0124036985702069568312781
2439862012478136982173256
第二组数字是:
1269548523612356987458245
0124036985702069568312781
2439862012478136982173256
显然,第二组数字中的“3”更容易找到,因为它们的字体颜色被更改了。
为了使图表能够精确、高效地传递信息,图表设计者的不但需要创造力和想象力,还需要对大脑获取信息的方式有一定的了解——图片信息比文字信息更容易被大脑接受,即所谓的“图片优势效应”(Medina,2008;Hockley和Bancroft,2011)。
呈现数据的方式有很多,但有效的数据图表(能激发大脑”预处理机制“的图表)设计需要注意以下三点:
第一,过犹不及。读者需要借助数据图表来理解研究报告、文章或博客的内容,因此图表中的数据显得尤为重要。但设计者不应该展示过多数据,而是需要以最清晰的方式将重点数据呈现出来。就目前的情况看,设计者们更倾向于让图表尽可能多地展示具体数值。
第二,删繁就简。深色或浓重的网格线、不必要的标注和标签、无用的图标或照片、渐变色和阴影以及多余的数据维度等等,这些不必要的或导致注意力分散的图表元素往往带来杂乱的视觉效果。例如,许多设计者都会用纹理对柱形图进行填充,但使用简单的纯色填充也可以实现相同的目的;在多线图的绘制过程中,设计者经常不同的记号(例如:■、♦、●、×) 来区分不同的数据系列,但当线条相交或重叠时,这些记号会使整个图形显得杂乱无章。

第三,图文结合。某些研究报告中,作者会把图表中孤立的文字元素在正文中重新解释一遍,但更好的做法让文字和图形有机结合来避免文字孤立( Corum 2013 )。例如,用来说明线条、柱体或记号含义的图例经常被摆放在图表的一角,如果把这些图例放在标题下方或者直接展示在图片上可能效果更好。
以上三个要点贯彻了快速、便捷获取图表信息的理念。通过去除不必要的元素、强调重要的数据,以及使用能够激发大脑“预处理机制”的颜色和形状,我们能让图表更有效地传递数据信息。通常情况下,作图程序的默认参数会在图形中添加无用信息,并且往往把图例文本和图形分离,因此作图前建议修改这些默认参数。此外,研究员也可以发挥想象力,自行添加有助于理解数据图表的图案和文字注释。
本文旨在提供一些有用的策略和思路,帮助并鼓励经济学者创建更好、更有效的数据图表。下一节讲述了一些基础图形的设计思想及其改进方法;后续章节介绍了几种数据可视化的设计模式,并提供了一些绘图工具和数据可视化参考资料,以便研究员借助这些工具改进他们的图表。最后,研究者应该记住一点:研究报告、文章,甚至是口头报告中展示的图表,都不是给作者看的,而是给读者或研讨者看的。研究者在数据探索阶段所使用的图形,未必是最能将研究者的想法传达给他人的图形,因为,探索阶段的图形往往使用默认的网格线、刻度线以及颜色,这些元素通常不能有效地传递数据信息。关于数据可视化的讨论现在才正式进入经济学期刊和重要会议,但这只是一个开始,我们这门学科对数据可视化重要性的认识将不断加深。


二、基础图形介绍与改进

糟糕的图形不但让读者无法领会作者想要表达的信息,还会造成读者对数据的解读偏差。本节介绍了几种基础的数据可视化图形,并使用上述的三个原则对一些案例进行了改进。当然,有些修改是主观的,例如,线条的粗细、顺序、坐标轴标签的样式等,但还有些修改确实在客观上提高了图表的表现力。所有的改进图都是在Excel中绘制的,作图过程中使用了Garamond字体是为了稍微区别于Journal of Economic Perspectives(本文发表的期刊,以下简称JEP)的Baskerville字体,电子版的JEP支持彩色图形,色彩在数据可视化中是一个重要的工具,不但可以唤起读者情感、强调图形元素,还可以增加图形美感。印刷版的JEP不使用彩色图形,所有在JEP电子版中使用彩色的图表都将转为黑白图表。本文作图时的色调选择也是主观的,但遵循了一些基本的准则。在”工具和资源“那一小节,我会重点介绍一些有助于数据可视化的工具。


(一)折线图

图1A,绘制了美国长期失业率和参与《补充营养援助计划》个体数量关系的回归结果(参与援助计划的群体被分成四个部分)。作者没有将所有线条融入在一张图表中,也没有用四张独立的图来呈现回归结果,而是将图形分成四个区域,分别独立展示某个群体的回归结果。这种做法值得其他研究人员借鉴,然而在某些方面,图1A违反了上文中的三个原则:
第一,图表的首要任务是展示最重要的数据,但图1A中最粗的线居然是0%的水平网格线,读者的视线无疑会首先被这条线吸引,而不是这个图中最重要的部分——回归系数线和标准误差线,因此这是此图最大的问题所在。第二,WE和SS两个区域,数据已经明显超过(+/-)15%水平,但是超出的部分没能展示在图中。第三,图中多余的元素让图表显得杂乱,例如,y轴刻度上“%”是多余的(它居然出现了28次),y轴的标签也重复出现了4次,每个线条开始部分的着重标记也是没有必要的。最后,图中的AO,NC,WE和SS是什么意思?虽然这些信息的注释出现在了原文中,但让读者自己去原文中找这些缩写的具体含义明显是不合理的,作者应该将注释文本和数据图形结合起来一起展示给读者。

图1B 是图1A的改进版本,做了如下改进:第一,用最黑的线条展示图表中最重要的信息——回归系数;第二,所有网格线都进行淡化处理,但让0%水平线的颜色稍微变深,这么做是为了给回归系数线提供对照基准。第三,因为四张图表是垂直和水平排列的,因此图1B只保留了两组横、纵坐标,通过水平和垂直对比,读者容易理解图形含义而不会产生误解;第四,图中所有的“%”都被去除,并在标题下方注明了数据的单位;最后,图1B把原本纵向布局的y轴标签去除了,因为原本的布局需要读者横着翻页或仰着头看文字。经过上述处理,图形不但显得简洁,还突出了论文所要表达的重点信息。
因为读者倾向于从左上角开始阅读,然后沿着左边缘向下移动,最后再向右移动,所以图1B把标题拿到了图表上方,此外,还把"Caseload "一词融入到标题中,省下充分的空间让群体的缩写改为全称。虽然上述改进存在一些争论,例如,保留四组横坐标和纵坐标比两组更好、点状的标准误差线比实线更好,但值得肯定的是,图1B确实比图1A有更好的展示效果。


(二)散点图

图2A摘自Hanson,2012年发表于JEP的文章,Hanson对此图作如下解释:
“图形主要描述了各国在办公器械出口上的比较优势与该部门平均学历的关系..., 中国位于回归线之上,意味着中国办公产品出口部门实际的专业化程度高于平均期望,并且这不是一个异常点, 因为其他中等收入国家,包括哥斯达黎加、菲律宾、马来西亚和泰国,也都存在类似现象。”
如果你事先已经知道上文中提到的五个国家的字母缩写,那么我不得不称赞你见多识广,但即便如此,在这么多标签中找到它们如同大海捞针。
图2B使用了颜色加深的圆点来强调论文重点讨论的5个国家,其他国家使用浅色圆点并且不标注文本信息,这样的处理让图形变得简洁明了。但是,那些想要在图中查询个别国家或挑出离群点的读者可能会反对我这种做法。事实上,“仅展示足以支持观点的数据”和“展示读者想要的额外数据”,在一张数据图形上是难以两全的,因此,现在大多数期刊和研究者都有自己的个人网站,以便将完整的数据发布给感兴趣的读者,这种方法简单方便,但本人更推荐把数据整合到论文的附录中。


(三)柱状图

绘制柱状图的首要原则是让柱体从零开始增长,否则,多个柱形之间的数量关系难以辨别,图3A就是典型案例:请注意图中从左往右数第二条柱体,其数值约为500,最高的柱体数值接近1000,但从柱体的高度上看,前者远远没有达到后者的1/2。此外,图3A使用多种颜色区分不同数据,这虽然是常用的方法,但依然有改进的空间。请看图3B,图中的每条柱体水平放置,并且从零开始增长(此时第二条柱体约是最长柱体的一半);此外,水平放置柱体给y轴标签腾出了足够空间,让文本和图形较好得结合在一起。


(四)3D图形

图4A使用了最近流行的3D效果。相比平面图形,图4A中多了一个维度(视觉上的深度),但作者没有在这个维度上展示任何数据,因此这个维度只会让图形显得杂乱。更重要的问题在于,如果3D效果使用不当,会让读者对数据产生误解,比如,图4A中最右侧的柱体代表6%的水平,但从图形上看似乎没有达到6%,造成这个现象的原因是作图程序使用了“透视画法”来绘制三维图形,但读者可能会忽视这一点。
图4B对原图做如下修改:第一,取消了3D效果,把图例中的文字直接放在图形中并通过黑色实线与对应柱体相连;第二,利用一条颜色较深的水平线来刻画0%水平(原图中使用的是一条悬浮的、几乎不可见的细灰线)。


(五)非平衡图

图5A的原版是可互动的数据图形,最早出现在 "经济合作与发展组织"(以下简称OECD)的数据可视化网站上(http://www.oecd.org/gender/data/),此图的静态版本被《纽约时报》的Economix板块转载,网址为:https://economix.blogs.nytimes.com/2013/04/02/comparing-the-worlds-glass-ceilings/?_r=2。
无论是互动形式还是静态形式,图5A都不能有效传递其承载的数据信息,原因如下:首先,同类型数据使用了柱体和圆点这两种截然不同的图形来绘制,阅读数据时,读者的注意力要在圆点的位置和柱体的长度之间来回切换。此外,同时使用两种不同的图形还会模糊数量关系:当男性数据与女性数据相距较远时,圆点和柱体无法体现直观的数量差距。
其次,代表女性数据的柱体在图中所占的比例比代表男性数据的圆点大得多,因而显得过分强调了女性数据。如果打算更多地强调妇女的数据,那么图形的标题应该是 “2008年妇女作为高级管理人员的平均就业率为6%”。此外,柱体使用了渐变色,柱体底部的颜色较深而顶部较浅,由于顶部位置才代表真正的数据大小,因此该渐变色的设置不是很有效。
最后,图5A还有一些小问题,例如网格线过多、y轴上的百分号单位多余以及x轴上纵向排列的字体增加了阅读难度。
图5A可以用多种方式重新设计,例如,可以用成对的柱状图来表示男性和女性,或者将此图转为一个表格。图5B使用了一种不太常见的数据表现方法,对于某些读者而言这种图形不像柱状图或折线图那样容易掌握和理解,但这种图很有启发意义。就像散点图那样,它在不久之前也是新鲜事物,但现在已经随处可见了。就像我们的文字素养可以随着经验的积累不断提高一样,我们的图文素养也可以通过不断实践得到长足的进步。
图5B中有几个精巧的设计值得我们借鉴:第一,男性和女性数据都使用圆点来标注,以便读者的阅读和比较。第二,将标题、单位和图例都放在图形的左上方,以便读者快速把握图形表达的主旨以及两种颜色圆点各自代表的含义。第三,将国家的文本信息水平布局并融入到图形中,男女数据之间用灰色细线连接,有助于数据比较。最后,整个OECD组织的均值用空心圆点标注说明。
图5B也有明显的缺点——缺少垂直网格线,一般而言,合理的网格线有助于我们查询具体数值,但省略网格线的做法也从侧面提现了数据可视化领域的一个重要议题:数据图表应该花多少篇幅来展示作者的观点,或者说,图表应该给具体数据的展示留多少空间。


(六)多线图

如果一个图形中存在多条曲线,那么任何一个曲线的趋势都会被其他线条掩盖,这种图我们一般称其为“多线图”,也有学者戏称其为“面条图”(Nussbaumer 2013)。一般而言,如果图形涵盖的信息太多,读者就很难抽出一个系列去独立观察,也难以对数据整体做出有效总结。图6A虽不是极端的例子(因为它只有四条曲线),但多线图的问题已经显而易见:各线条都使用各自的标记来标注数据,但同时图例(标记和线条的说明)距离线条太远,且图例的顺序与线条的顺序不一致,这么做难以激发大脑的“预处理机制”对每条图形进行处理。
多线图的一个替代方案是:在图形上划分多个不同的区域,每个区域展示不同系列的数据(如,图1B的做法)。图6B将单一的、密集的数据展示分割为四个独立的小区域,并在所有的数据背景下,重点突出了其中一个系列的数据。明暗对比以及在线条的两端进行数值标注的做法都让图形显得简洁美观(y轴可以存在,可根据主观感受而定)。图6B的图形设计是为了强调数据随时间变化的趋势,如果是为了给读者展示具体数值,设计方案就会有所不同。


(七)饼图

关于饼图有效性的辩论是数据可视化领域最具争议性的问题之一(本节的大部分讨论都是基于Few 2007年的数据)。饼图能清晰呈现部分和整体之间的关系,因此受到很多人的喜爱,但是有些学者认为饼图不是有效的数据图表,因为人的视觉对面积和角度识别能力较差,而饼图又迫使我们去对比不同区域的面积和角度。此外,环形图(去除中心区域的饼图)加剧了上述问题,由于在视觉上难以感受圆环中心,因此更难分辨每个区域在整体中的占比。
在图7A中,饼图被划分为六个部分,其中呈现90度直角的区域C(占整体的1/4)是最容易辨别的,但是如果我们稍微旋转饼图,得到图7B中的样式,我们还能够一眼看出区域C占了整体的1/4吗? 可见,一个小小的变化就掩盖了饼图所要表达的重要数据信息。

图8A为了让每个区域的占比都清晰可见,因此它给每个区域都标注了文本和数值,代替了在饼图旁边添加图例的做法。但是这个做法违背了数据图形的基本目的——提供数据的可视化表现!不难理解,有效的数据图形能激发大脑的“预处理机制”,但旋转后的饼图并不是有效的图形,因此我们需要通过额外的文本和数值来传递信息,但阅读文本和数字的这一过程主要激发大脑的“专注处理机制”,因此这种处理后的饼图也不是有效的数据图形。在图8A所反映的数据结构下,使用表格来说明数据可能会比用饼图更加有效。

图8B用柱状图来代替饼图,柱体的高度和数轴让我们不用去猜测各个区域的占比大小,同时还让我们清楚地了解各区域的数量关系和排序情况。柱形图最适合于比较不同系列的数量关系,但它难以反映部分与整体的关系,为了体现这一点,我们不得不在标题下方和x轴的文本标签下方都添加了额外的信息,以此强调各部分总和为100%的事实。此外,图8B中的百分号可以根据具体需要进行删除。

虽然饼图通常会诱导我们比较整体中的各个区域的大小关系,但它的初衷是把每个区域与整体进行单独比较(Camões,2013),如图8C所示。

另一种常见且不太理想的数据呈现方式是3D饼图,与三维条形图一样,3D效果常常导致读者对数据的错误解读。在3D饼图中,朝向 "正面 "的区域,看起来会比较大,因为可以看到该区域的“厚度”,而3D饼图中朝 "背面 "的区域,相比前者会显得更小,因为它们的厚度只能部分可见或根本不可见(Skau,2012)。下图由译者自行添加,图片来自于百度。

图9A可以让我们深刻体会到从饼图中辨别数据的困难性,因为它不但存在系列内部的各区域的数据对比,还存在两个系列之间的数据比较。

采用其他图形可以让图9A的信息更容易被读者接受,例如,图9B所用的“对偶柱状图”,促进了不同年份下,同类型数据的对比。此外,图9B让过长的文本多行显示,相比于图5A的垂直布局,这种图文结合的方式更值得我们借鉴。最后,图9B将具体数值标注在每个柱体的顶部,从而省略了y轴(作者的主观决定)。

图9C使用了“叠加条形图”,不但显示了各区域占总体的比例、强调了各区域相加为100%的事实,还有效展现了不同年份之间的数据差异。

图9D是一张“坡度图”。通过两个垂直轴上点的连线配对,图9D清晰地展示了每个类别从1962年到2009年的数据变动情况(上升的坡度用蓝色线条表示,下降的坡度用橙色线条表示)。坡度图还能够显示数据之间的相关性,例如,显示某个州的肥胖率与至少拥有学士学位的人口比例的关系(Cairo,2013)。



三、数据可视化的形式与功能

  

图10
图10中对应资源的链接:
  • CBO,Federal  Means-Tested Transfer Programs:

www.cbo.gov/publication/43935

  • Moritz Stefaner,Müsli Ingredient Network:

http://archive.stefaner.eu/projects/musli-ingredient-network

  • World Bank,Economic Policy & External Debt:

https://data.worldbank.org/topic/economy-and-growth

  • OECD,Better Life Index:

http://www.oecdbetterlifeindex.org/

我们已经讲述了基本图形的设计思路,现在进一步讲解数据可视化的设计模式和主要功能。图10的纵轴指出了数据可视化两种常用的设计模式:静态形式与互动形式。静态形式的数据可视化图表会一次性提供所有信息,例如,打印在纸上的图表。交互形式的可视化图表允许用户进行点击操作实现信息的交互。例如,动画形式的图表,虽然不能直接对数据点进行操作,但可以像幻灯片一样,通过预设的按键控制图表的展示。图10中的横轴展示了数据可视化的主要功能:解释和探索。解释性的数据可视化图表主要用于展示研究结论、揭示真相和事实(更深入的探讨请看,Segel and Heer 2010,Kosara and Mackinlay 2013)。相比之下,探索性的可视化图表能够让用户和数据集进行互动,此类图表一般不对图形做出具体的解释,而是让用户找到自己感兴趣的话题。
经济学家主要使用静态图表来支撑论文中的观点。信息图是一种结合文字、照片、图案和数据的综合图形,它也属于静态图表范畴。国会预算办公室的《联邦经济调查方案和税收减免》信息图是一个很好的例子,如下图所示。
(图片链接:www.cbo.gov/publication/43935)

交互式可视化图表往往很受欢迎,因为它们为得出新的、独立的结论提供了可能性。一般来说,有效的交互式可视化程序遵循如下原则:"先概述,再放大和过滤,最后按需展示细节"(Shneiderman 1996)。遵循此原则的可视化程序可以让用户对数据集有一个大致的了解,然后允许用户自己定义其感兴趣的数据样本,最后程序根据用户的需求给出详细的数据集。
最简单的解释性交互图表就是在静态图表上加入交互式的悬停按钮,例如,世界银行制作的《经济指标图》(链接:https://data.worldbank.org/topic/economy-and-growth)。探索性的交互式可视化,往往以图形化的方式呈现一个完整的数据集,并引导用户找到有趣的主题,例如OECD的《美好生活指数》(链接:http://www.oecdbetterlifeindex.org/)。



四、工具和资源

统计软件可以生成基础的静态图表,但我们需要采取一些措施来改善图表的表现效果,例如,修改默认的布局、网格线、颜色和字体等。下面的讨论并不全面,所提及的特定产品也不一定完美,但可以作为数据可视化的起点。更具体的工具清单可以在我的个人网站中查找(https://policyviz.com/books/better-presentations/)。用好一些免费的工具,不但可以帮助我们在数据分析时更好地利用数据,还可以帮助我们准备演讲和设计出版物。


(一)颜色

数据可视化设计中最容易出错的可能是色彩的配置。改善图形的最简单策略就是避免使用程序默认的颜色——Excel中默认的红、绿、蓝三色非常普遍,只要换一套颜色,就能让图形更加吸引人。Adobe Kuler(kuler.adobe.com/create/color-wheel )、 ColorBrewer2.0(colorbrewer2.org)、ColorSchemeDesigner(colorschemedesigner.com)以及Colrd(colrd.com),这些免费的在线工具工具允许用户创建、修改和导出调色板;Instant Eyedropper(instanteyedropper.com)允许用户从电脑屏幕上的任何图像中选择颜色;需要注意的是,大约有10%的读者存在色盲或色弱问题(例如难以区分绿色和红色),因此设计图形时要考虑到这一点,Color Oracle(colororacle.org)  和  Vischeck(www.vischeck.com/)  是两个可以模拟各种色盲情况的免费工具。


(二)字体

个人电脑或者网络上存在大量免费的字体可以用,因此本人建议不要用 “枯燥无味" 的Arial、Calibri 和 Times New Roman字体。独特设计的字体可以让一些枯燥的数据图形焕然一新。Font Squirrel(www.fontsquirrel.com)、Google Fonts(www.google.com/fonts)是不错的免费网站;Ginger(2003年)和Bringhurst(2013年)出版了字体选择和页面排版的指南。


(三)可视化工具

通过修改默认参数,Stata、SAS和Excel等工具都可以实现不错的数据可视化图形。其中,Stata的默认图形背景颜色是蓝色的,并且第一组刻度线并不总是出现在x轴和y轴相交的地方;R(www.r-project.org)提供了更多绘图功能;虽然Excel常被认为是 “缺乏想象力” 的作图工具,但各种博客、书籍和网站提供了许多拓展性的技巧,例如 www.peltiertech.com。
过去,HTML、JavaScript或其他一些编程语言是创建交互式可视化图表的先决条件。但现在,创建一套可拓展的数据可视化图表,只需拖动鼠标就能实现。例如,可以将一些不同类型的图表导入Tableau(www.tableausoftware.com) 中来实现交互式的功能,同时,Tableau还支持HTML、JavaScript等编程语言来构建自定义的可视化报表。
用户可以通过R的各种绘图包来创建交互式的可视化报表。例如,rCharts(http://ramnathv.github.io/rCharts/)和Shiny(http://www.rstudio.com/shiny/)。《纽约时报》广泛使用了R的JavaScript library D3 库;Creator Mike Bostock(http://bost.ocks.org/mike/ and bl.ocks.org/mbostock)也提供了一个不错的数据可视化库;Murray(2013)对R语言进行了简单介绍。


(四)布局

大多数平面设计师使用Adobe Creative Suite软件,其中包括InDesign、Illustrator和PhotoShop等程序。免费的开源软件Inkscape(http://inkscape.org/)是一种替代方案。许多关于图形布局和设计的书籍已经出版: Golombisky和Hagen(2010年)的工作为更好地理解设计技术提供了一个起点;Tondreau(2009年)提供了一个很好的版面设计介绍。


(五)绘制地图

正规的绘制地图软件相当昂贵,ArcGIS和ESRI这些免费的软件通常相对来说是不错的替代方案。虽然,Stata提供了 "spmap "插件(www.stata.com/support/faqs/graphics/spmap-and-maps),但生成图像的质量令人失望;StatPlanet(www.statsilk.com)是一个免费的基于Flash的程序,它可以从Excel中导入数据来创建交互式可视化地图(也可以在上面提到的Tableau中构建交互式地图);另一个免费工具TileMill(http:// www.mapbox.com/tilemill/)是基于HTML的,使用起来非常灵活,但可能需要更多的时间来学习和使用。


(六)绘制信息图

人们对信息图表的兴趣不断增加,促进了指导用户进行图表设计的服务的产生。就像提供交互式可视化设计的服务软件一样,新的信息图软件包比旧的工具更加方便用户使用,例如,Datawrapper(http://datawrapper.de/)、Infogr.am(http://infogr.am/)、和 Lemon.ly(http://lemon.ly/) 。


(七)资源

在过去的几年里,关于数据可视化的文章爆炸式增长。新的论文不断涌现,新的产品不断发布,关于最佳实践的讨论和辩论不断。许多书籍和博客对数据可视化技术和策略进行了深入讨论以及提供了数据可视化工具的教程。
早期基础性的指导书籍或著作有Tukey(1977)、Bertin(1983)、Cleveland(1993)和Tufte(2001[1983])。Wong(2010) 和 Robbins(2013b) 阐述了如何为特定的数据集设计和绘制特定的数据图表,它们是优秀的参考文献。Few(2009,2012)主要研究了认知理论和数据可视化技术,Cairo(2013)和Yau(2011,2013)的著作是此领域中较新的贡献。
致力于数据可视化领域的博客与日俱增, 以下是一份非常简短的清单:
  • Eagereyes(eagereyes.org)由Robert Kosara制作,他是Tableau软件公司的视觉分析研究员,也是UNC-Charlotte的前计算机科学教授,他经常写一些关于数据和信息可视化的研究方面的文章;
  • Flowing Data(flowdata.com)由作者兼统计学家的Nathan Yau制作,他经常展示一些网络上的可视化图形案例,他还发布数据可视化教程,主要使用R编程语言;
  • Perceptual Edge(perceptualedge.com)由作者兼顾问的Stephen Few制作,他讨论了数据可视化的优缺点,并以人类视觉认知理论为基础,推广数据可视化的最佳实践;
  • Junk Charts( junkcharts.typepad.com)是Kaiser Fung收集表现不佳的数据可视化图表并提出批评的网站。
  • Visualising Data(visualisingdata.com)由Andy Kirk创建,他详细介绍了数据可视化图表的设计过程,并分析了数据可视化的发展趋势;
  • Storytelling with Data(storytellingwithdata.com)是Cole Nussbaumer的博客,她经常提供数据可视化图表的实际案例;
  • 我在个人网站(policyviz.com)上提供了实用的数据可视化示例,以及讨论了如何进行一场有效的演讲。在我的配套网站HelpMeViz.com上,读者可以提交正在进行的工作,以寻求数据可视化社区的建议和反馈。



五、结论

经济学家可以利用数据可视化图表,让读者快速、准确地理解论文的研究内容。有效的数据图表应该满足以下三个原则:第一,突出重点数据,让数据说话;第二,减少无用信息,凸显关键信息;第三,图文结合,提高阅读流畅度。目前,即使是相当基础的软件(如Excel)也具有很高的拓展性,因此研究者只需投入一点时间学习图形展示的细节,就能获得很高的回报。为了创造有效的可视化图表,请你站在读者的角度思考如何展示数据和阐述事实,以便读者了解你的思想和论点。最后,使用动态或静态的设计模式, 将你的数据、模型和文字与可视化图表搭配起来,构建引人入胜的研究报告。



六、参考文献



‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍1. Bertin, Jacques. 1983. Semiology of Graphics:Diagrams, Networks, Maps. New York, NY: Esri Press.2. Bringhurst, Robert. 2013. Elements of Typographic Style: Version 4.0, 20th Anniversary Edition. Point Roberts, WA: Hartley and Marks.
3. Brock, Tim. 2013. “Improving on a Pair of Pie Charts.” http://datatodisplay.com/blog/chart-design/improving-pair-pie-charts/.
4. Cairo, Alberto. 2013. The Functional Art: An Introduction to Information Graphics and Visualization. Berkeley, CA: New Riders.
5. Camões, Jorge. 2013. “Finally Revealed: The Optimal Number of Categories in a Pie Chart.” http://www.excelcharts.com/blog/optimal-number-categories-pie-chart/.
6. Cleveland, William S. 1993. Visualizing Data.Summit, NJ: Hobart Press.
7. Coady, Geri. 2013. Colour Accessibility.(The Pocket Guide series: Collection 3.) Five Simple Steps. http://www.fivesimplesteps.com/products/the-pocket-guide-series-collection-three.
8. Corum, Jonathan. 2013. “Storytelling with Data.” Opening keynote address at the Tapestry Conference, held in Nashville, TN, February 23.http://style.org/tapestry/.
9. Few, Stephen. 2004. “Tapping the Power of Visual Perception.” Visual Business Intelligence Newsletter, September 4. http://www.perceptualedge.com/articles/ie/visual_perception.pdf.
10. Few, Stephen. 2005. “Grid Lines in Graphs are Rarely Useful.” Visual Business Intelligence Newsletter, February. http://www.perceptualedge.com/articles/dmreview/grid_lines.pdf.
11. Few, Stephen. 2007. “Save the Pies for Dessert.”Visual Business Intelligence Newsletter(August).
12. Few, Stephen. 2009. Now You See It. Burlingame,CA: Analytics Press.
13. Few, Stephen. 2012. Show Me the Numbers:Designing Tables and Graphs to Enlighten. 2nd ed.Burlingame, CA: Analytics Press.
14. Golombisky, Kim, and Rebecca Hagen. 2010.White Space is Not Your Enemy: A Beginner’s Guideto Communicating Visually through Graphic, Web &Multimedia Design. Burlington, MA: Elsevier, Inc.
15. Hanson, Gordon H. 2012. “The Rise of MiddleKingdoms: Emerging Economies in Global Trade.”Journal of Economic Perspectives 26(2): 41– 64.
16. Harris, Robert L. 1996. Information Graphics: AComprehensive Illustrated Reference. New York, NY:Oxford University Press.
17. Healey, Christopher G., and James T. Enns.2012.“Attention and Visual Memory in Visualizationand Computer Graphics.” IEEE Transactions on Visualization and Computer Graphics 18(7):1170– 88.
18. Heer, Jeffrey, Michael Bostock, and VadimOgievetsky. 2010. “A Tour through the VisualizationZoo.” ACMQueue, May 13. http://queue.acm.org/detail.cfm?id=1805128.
19. Hockley, William E., and Tyler Bancroft. 2011.“Extensions of the Picture Superiority Effect inAssociative Recognition.” Canadian Journal ofExperimental Psychology 65(4): 236– 56.20. Kirk, Andy. 2013. “Discussion: Storytelling andSuccess Stories.” April. http://www.visualisingdata.com/index.php/2013/04/discussion-storytelling-and-success-stories/.21. Klerman, Jacob Alex, and Caroline Danielson.2011.“The Transformation of the SupplementalNutrition Assistance Program.” Journal of Policy Analysis and Management 30(4): 863– 88.22. Kosara, Robert. 2013a. “Visual Storytelling in the Age of Data.” Keynote address at the Tapestry Conference, held February in Nashville, TN.http://www.youtube.com/watch?v=qSYEjhR2AwQ&feature=youtu.be.23. Kosara, Robert. 2013b. “How the Rainbow Color Map Misleads.” July 7. http://eagereyes.org/basics/rainbow-color-map.24. Kosara, Robert, and Jock Mackinlay. 2013.“Storytelling: The Next Step for Visualization.”Computer(Special Issue on Cutting-Edge Research in Visualization) 46(5): 44– 50.25. Medina, John. 2008. Brain Rules: 12 Principles for Surviving and Thriving at Work, Home, and School. Pear Press.26. Murray, Scott. 2013. Interactive Data Visualization for the Web: An Introduction to Designing with D3. Sebastopol, CA: O’Reilly Media, Inc.27. Nussbaumer, Cole. 2013. “Strategies for Avoiding the Spaghetti Graph.” March 14. http://www.storytellingwithdata.com/2013/03/avoiding-spaghetti-graph.html.28. Organisation for Economic Co-operation and Development. Accessed, August 2013. “Percentage of Employed Who are Senior Managers, by Sex.”http://www.oecd.org/gender/data/proportionofemployedwhoareseniormanagersbysex.htm.29. Ottaviano, Gianmarco I. P., and Giovanni Peri. 2008. “Immigration and National Wages: Clarifying the Theory and the Empirics.” NBER Working Paper 14188( July).30. Rampell, Catherine. 2013. “Comparing the World’s Glass Ceilings.” Economix, April 2. http://economix.blogs.nytimes.com/2013/04/02/comparing-the-worlds-glass-ceilings/?_r=0.31. Robbins, Naomi. 2013a. “How to Position Y-Axis Labels in Graphs.” February 12. http://www.forbes.com/sites/naomirobbins/2013/02/12/how-to-position-y-axis-labels-in-graphs/.32. Robbins, Naomi. 2013b. Creating More Effective Graphs. 2nd ed. Chart House.33. Schwabish, Jonathan. 2013a. “Mind the Gap—An Economic Remake.” The Why Axis, April. http://thewhyaxis.info/gap-remake/.34. Schwabish, Jonathan. 2013b. “To Label or Not to Label? That Is the Question.” June 10. http://www.allanalytics.com/author.asp?section_id=3072&doc_id=264322.35. Schwabish, Jonathan. 2013c. “VisualizingData: Bad Labels, Easy Fix.” May 2. http://www.allanalytics.com/author.asp?section_id=3072&doc_id=262539.36. Segel, Edward, and Jeffrey Heer. 2010. “Narrative Visualization: Telling Stories with Data.” IEEE Transactions on Visualization and Computer Graphics 16(6): 1139– 48.37. Shneiderman, Ben. 1996. “The Eyes Have It: A Task by Data Type Taxonomy for Information Visualizations.” In Proceedings of the IEEE Symposiumon Visual Languages, IEEE Computer Societ Press, 336–43.38. Skau, Drew. 2012. “2D’s Company, 3D’s a Crowd.” http://blog.visual.ly/2ds-company-3ds-a-crowd/.39. Social Security Administration. 2009. Fast Facts & Figures About Social Security, 2009. Social Security Administration( July). http://www.ssa.gov/policy/docs/chartbooks/fast_facts/2009/fast_facts09.pdf.40. Social Security Advisory Board. 2012. Aspects of Disability Decision Making: Data and Materials. Social Security Administration(February),http://www.ssab.gov/Publications/Disability/GPO_Chartbook_FINAL_06122012.pdf.41. Spiekermann, Erik, and E. M. Ginger. 2003. Stop Stealing Sheep & Find Out How Type Works, 2nd ed. Berkeley, CA: Adobe Press.42. Stinebrickner, Ralph, and Todd Stinebrickner. 2013. “Academic Performance and College Dropout: Using Longitudinal Expectations Data to Estimate a Learning Model.” Western University CIBC Working Paper 2013-5( July), http://economics.uwo.ca/cibc/workingpapers_docs/wp2013/Stinebrickner_Stinebrickner05.pdf.43. Tondreau, Beth. 2009. Layout Essentials: 100 Design Principles for Using Grids. Beverly, MA: Rockport Publishers.44. Tukey, John W. 1977. Exploratory Data Analysis Reading, MA: Addison Wesley.45. Tufte, Edward. 2001 [1983]. The Visual Display of Quantitative Information. 2nd ed.(First edition 1983). Cheshire, CT: Graphics Press.46. Tufte, Edward. 2006. Beautiful Evidence. Cheshire, CT: Graphics Press.47. Ware, Colin. 2012. Information Visualization: Perception for Design. 3rd ed. Waltham, MA: Morgan Kaufman.48. Wong, Dona M. 2010. The Wall Street Journal Guide to Information Graphics: The Dos and Don’ts of Presenting Data, Facts, and Figures. New York: W. W. Norton and Company.49. Yau, Nathan. 2011. Visualize This: The Flowing Data Guide to Design, Visualization, and Statistics. Indianapolis, IN: Wiley Publishing, Inc.50. Yau, Nathan. 2013. Data Points: Visualization that Means Something. Indianapolis, IN: Wile Publishing, Inc.







点击阅读原文进入CCAD数据库

长按识别,添加小客服企业微信~



·END·


星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!


点击搜索你感兴趣的内容吧

往期推荐


推荐丨大数据给社会学研究带来了什么挑战?

专题报告丨杭州数字经济产业知多少?

统计计量丨计量经济学术语(上)

专题报告丨人工智能产业之人才篇

统计计量丨实用统计学数据分析方法

专题报告丨走进钱塘新区之明星企业篇

统计计量丨如何正确运用计量经济模型进行实证分析





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



文丨Jonathan A. Schwabish

审阅丨杨奇明

排版编辑丨青酱


    欢迎扫描👇二维码添加关注    

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存