查看原文
其他

数据可视化 | 有统一规范吗?

数据Seminar 2022-12-31


本文转自公众号高下制图

原作者:Lisa Charlotte Rost

翻译:宋丹琳

Lisa Charlotte Rost是Datawrapper(位于柏林的一家在线数据可视化工具公司)的设计师和博客写手。多年来,她一直致力于分享关于数据可视化的干货和经验。我们试着翻译了她11月份的主题讲座《当我们在考虑数据可视化规则时,我们在考虑什么》的文字内容,一起看看国外一线可视化从业者有哪些思考。

整个讲座分为三个部分:为什么喜欢探讨规则;我喜欢什么样的规则;为什么有时候规则会相悖。

话不多说,快赶上这趟开往柏林的列车。

Part1为什么探讨数据可视化规则?

学生时代刚开始我还不太会设计,虽然在学校确实掌握了一些基本设计技巧,但我更愿意称之为“机器学习”,或者说“黑盒子”探索。什么意思呢?打个比方,我在电脑里上传100张梵高的画作,然后再上传任意一张图片,电脑可以把这个图片模拟成梵高风格的画。这一过程完全是计算机完成的,我并不知道具体是怎么做到的。

所以,为了突破这个“黑盒子”,我继续学习,很幸运地发现了Edward Tufte写的宝藏图书《The Visual Display of Quantitative Information》。在这本书里我发现,原来数据可视化也有那么多规则可循,而这些规则能帮助我成为更好的设计师。

不可否认的是,规则有局限性。一些创造性的方案难以通过规律得到,比如Eleanor Lutz制作的这份太阳系可视化地图。

↑ https://eleanorlutz.com/mapping-18000-asteroids

但在绘制简单图表时,规则就能派上大用场。

我的愿望是,人人都能不太费力地做出质量不错的可视化作品。

Part2我喜欢什么样的规则?

1完整的

好的数据可视化规则应当是完整的,满足不同背景受众的。下图是我在讲堆积柱状图的博客里提到的例子,堆积柱状图适合比较多个整体下的不同部分;如果你只需要比较一个整体的不同部分,条形图可能会更直观。

tps://blog.datawrapper.de/stacked-column-charts/

可能你觉得这样的常识显而易见,但事实上不少人会出错。我喜欢从优秀的数据可视化作品中寻找灵感,但最能激发我思考数据可视化规则的却是那些不够好的作品。

2可跳过的

由于不同原则可能适用于不同人群,我的文章是以“文字-图片-文字-图片”的结构展开的,并通过小标题进行划分,你可以直接跳过那些对你来说显而易见的规则。

3引发反思的

我不想直接告诉读者规则是什么,我更希望读者能主动地理解和思考规则可能有什么。我不想读者说:“好,听你的就行”,我希望读者可以思考:“也许我可以自己发现这些规则”。

例如,我希望大家能自己意识到,柱状图比饼图更适合展现哪个值最大:

但饼图又很适合展现接近25%、50%的数据。

4可解释的

向读者解释规则为什么有效是很有必要的,当大家知道了规则背后的原因,就可以将其类推到相似的问题上。

例如,一般情况下数据应当处于同一基线。为什么呢?因为这样一来读者就更容易对比他们的值了。这条规则不仅适用面积图,也能举一反三应用到堆叠柱状图。

5可选择的

数据可视化规则不是自上而下的硬性规定而是可供选择的。你可以忽略它们,把它们当作“精神食粮”来激发灵感,而不是照单全收。

6有条件的

规则是人定的,不是不可改变。例如,尽管低对比度的文字不易阅读,但也不意味着文字只能是高对比度的;尽管柱状图不从零刻度开始会让人困惑,但也不是说柱状图只能从零开始。

们有必要知道我们的目的是什么。数据可视化本没有好坏,目的不同让它们有了好坏之分。只有理解了创作者的目的,我们才能评判可视化的好坏。

Part3为什么规则有时会相悖?

数据可视化原则都是相互依存的。例如,当我遵循“网络内容可读性规范”增强了文字对比度后,颜色却不太好看了。这一现象在很多专业的数据可视化作品中也很常见(如图中圈出的)。

为什么会这样呢?如果没有遵循这些规则,还算优秀的数据可视化吗?本章我将介绍五种传统的理论:形式主义、工具主义、表现主义、模仿主义和制度主义。这些理论有助于我们思考数据可视化规则为何会相悖。

7形式主义

形式主义评判艺术的标准常常是:有趣吗?元素的整合和谐吗?颜色和形状运用的好吗?抽象艺术常常希望受形式主义的评判,例如这幅澳大利亚画家Grace Crowley的作品:

同样的,有些数据可视化也很关注美学。例如Nadieh Bremer这样的设计师就因其极富美观的可视化而著称,例如她的作品《Royal Constellations》展示了欧洲目前10位世袭王室领导人与其祖先错综复杂的血缘关系:

↑ https://www.visualcinnamon.com/portfolio/royal-constellations

除此之外,每一个尽可能尝试新事物的可视化也属于这一类。大多数情况下,这样创新的图表可能不是最易读的,但它绝对看起来有趣。

例如Lazaro Gamio在2017年创作的《The Emoji States of America》用emoji面部表情展现了美国各州居民的生活状况指标,如眼袋越大睡眠时长越短,眼睛越大学历水平越高等:

↑ https://www.axios.com/an-emoji-built-from-data-for-every-state-2408885674.html

8工具主义

工具主义的支持者认为艺术应该具有目的性。艺术应该影响社会、对社会有益。Steve Lambert的《Capitalism works for me! True/False》就是一个很好的例子,该装置在全世界资本主义国家中巡展,各国的观众们自发地走到投票装置前思考同样的问题:“资本主义对你来说起作用了吗?”。

↑ https://visitsteve.com/made/capitalism-works-for-me-truefalse/

同样的,数据可视化也可以用来产生某种社会影响、引发大众反思。来自柏林的社会工作者利用全球气温光谱生成工具制作了可视化图谱,展示了全球1850-2018年温室效应逐渐加剧的过程,呼吁大众保护环境。

↑ https://showyourstripes.info/

那些仅仅把“告知”作为其最大的目标,专注于向尽可能更多的读者传达更清晰洞察的可视化,也属于“工具主义”的范畴。比如德国新闻网站ZEIT Online发布的德国疫情可视化,我最近几个星期以来每天早上都会看它:

↑https://www.zeit.de/wissen/gesundheit/coronavirus-echtzeit-karte-deutschland-landkreise-infektionen-ausbreitung

9表达主义

对于一些艺术家来说,艺术就是表达情感,很多影像艺术都是典型的例子,在Alex Prager的电影摄影中也能看出这一点:

也有很多人在利用数据创作美丽的、主观的、有表现力的可视化。其中走在前沿的毋庸置疑是Giorgia Lupi。她2018年的作品《Bruises: The Data We Don't See》记录了一位患有特发性血小板减少性紫癜(ITP)的女孩的治疗过程。每个“花瓣”都是新的一天,花瓣上紫红色暗斑越深代表女孩身体上的淤青越严重,聚集的红点代表血小板数。仅凭临床记录几乎无法捕捉到儿童疾病对家庭的影响,可视化传达出了这些情绪。

↑ http://giorgialupi.com/bruises-the-data-we-dont-see

2017年,Giorgia写了一份《数据人道主义宣言》,明确地宣称数据可视化应该是主观的,而不是公正的,数据的背后是人,而不是数字本身:

《纽约时报》的这张可视化图显示了美国截止4月26日所有已知死于COVID-19的人的数据。但与Giorgia Lupi的作品相反,我们对这种可视化创造者的感受知之甚少。其主要目的是唤起情感,而不是表达情感。

10模仿主义

当你觉得艺术应该接近真实的,那你就在无形之中具有“模仿主义”思维,也许你会喜欢超真实的作品。

↑ https://www.gautierdeblonde.com/?page_id=9

将“尽可能真实”的想法转化到数据可视化领域非常有趣。展现数据的深度和主题的复杂性是非常具有“模仿主义”特征的,即使这会让图表本身变得难懂。这让我想起了Mark Allan Thorton 2014年创作的网络图《What Interest Reddit?》,它揭示了20万Reddit用户8400万评论中关键词的聚类和联系:

http://markallenthornton.com/blog/what-interests-reddit/

这种可视化没有什么主观性,它只是试图近距离和客观地展示数据,并没有做出自己的观点陈述。从这个意义上说,Micah Allan的云雨图也算一种模仿主义,它试图展示数据的所有细微差别,同时在数学上做出正确的聚合:

https://micahallen.org/2018/03/15/introducing-raincloud-plots/

在做模仿主义的数据可视化时,重要的是要思考分析和传达之间的区别。在分析阶段,云雨图确实很适合帮助你从数据中发现一些值得探索的点。但这种方式总会带有一种目的性:你总想尽可能真实地对待数据,即便会变得不太好理解。

11制度主义

去年,在迈阿密海滩举行的巴塞尔艺术展上,两根这样的香蕉以12万美元的价格售出。它们是好的艺术,主要因为某些人称其为好艺术。制度主义意味着有权威的人定义什么是好的艺术,什么是坏的艺术。

↑ https://news.artnet.com/art-world/maurizio-cattelan-banana-explained-1732773

在数据可视化中,虽然没有那么极端但我们也有这种能力。我们有像凯度信息之美、Malofiej和Iron Viz这样的奖项,也有一些社交媒体的大V,他们扮演着策展人的角色,并对数据可视化是好是坏提出自己的意见。

而在团队或组织中时,我们也会遇到字面意义上的“制度主义”:公司和同事定义了什么是好可视化和坏可视化。

这样的意见其实会在无形之中影响我们。我敢打赌,如果在社交平台上看到一个很多人点赞的数据可视化,那么大家也会倾向于尝试类似的东西。

Part4界线是模糊的

每个数据可视化都有其形式和功能,或多或少地显示数据的真实性。通常情况下,你甚至说不出重点是二者中的哪个。

例如,Stefanie Posavec对达尔文的《物种起源》的可视化,既关注了它的形式,也展示了完整的数据,是形式主义和模仿主义的结合产物:

↑ http://www.stefanieposavec.com/entangled-word-bank

许多科学研究中的可视化都致力于显示数据的复杂性(模仿主义),但不是为了模仿而模仿,而是因为这样确实是有实际意义的(工具主义),例如这张截取自基因变异论文中的可视化图表:

↑https://academic.oup.com/bioinformatics/article/32/19/3018/2196527

我发现这些模型有助于弄清楚规则为什么会相互矛盾,因为它们来自不同的“数据可视化理论”。我举三个例子:

例1 可读性 vs 好看的颜色

让我们回到一开始提到的网页易读性和色彩选择的例子。如果你通过工具主义来判断,并希望尽可能多的人理解,那么你就要遵循可读性的规则;如果你是一个设计师,比如在一个作品中你想用蓝色,因为你还没有这样做过,或者你就是喜欢这个效果,那么你可以遵循“使用美观颜色”的规则,这是基于形式主义的判断。

例2 易懂性 vs 数据正确性

第二个例子是“做一个容易理解的清晰陈述”vs.“公正地对待数据的复杂性”。同时兼顾两者几乎是不可能的,你必须做出牺牲。

“易懂性”是典型的工具主义规则,而“数据性正确”则是模仿主义规则。对于一名数据记者来说,让他的主流受众容易理解数据可能是他“唯一最重要的目标”。但是对于其他人来说,可读性可能不如对数据进行公正呈现重要。我们既可以为了美观而创作,也可以选择对复杂数据进行描绘,但要清楚这么做的目的是什么。

例3 吸引注意力 vs 避免条形竞赛图

条形竞赛图是用动画展示发展过程的条形图,条形图始终按等级顺序排列。

条形竞赛图真的很吸引人,它们甚至没有操纵任何东西便吸引住了人们的注意力,是工具主义的一个很好的例子。但不得不说有些专家真的很不喜欢它们。这就是工具主义(或形式主义)和制度主义之间的冲突。

Part5总结

不同的目的遵循着不同的规则,数据可视化的好坏取决于你的目标和优先项,本文的五种模型:形式主义、工具主义、表达主义、模仿主义和制度主义可以帮助我们思考我们的目的是什么。试着多问问自己:“你想让你的数据可视化因为什么而被评判?”

数据可视化是否应该由它的外观来判断(形式主义)?它们达到了什么目的(工具主义)?它们能唤起多少情感(表达主义)?它们是对事物的真实反映吗(模仿主义)?专家们喜欢它们吗(制度主义)?





星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


软件应用 | 数据科学系列:plotly可视化入门介绍

热点资讯 | 浙江工商大学开通企研·学术大数据平台试用!

热点资讯 | 三农学术周报(第18期)

统计计量 | 屡见不鲜的一类Wrong工具变量——组均值

统计计量 | 经济学期刊三大新趋势开始了: 数据开源, 预注册和预分析, 中国学者准备好了吗?

数据资源 | 19种国内社科类数据库汇总!

数据治理 | 社科研究软硬件体系搭建——虚拟化技术概述与实践






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 青酱


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存