▲点击 "TCC翻译情报局" 关注,回复 "社群" 加入我们TCC 推荐:大家好,这里是 TCC 翻译情报局,我是张聿彤。作者对现有的可视化工具专职为部分数据可视化人群和职能的现象不满意,认为不能孤立的看数据处理的每个步骤下的数据可视化。他认为最好的看待数据可视化的方式就是不要受限于角色或工具,而是专注于在数据处理过程中哪里需要使用到数据可视化。作者介绍了在数据生命周期中,数据可视化是如何参与到每个阶段并产生影响力的。
如今你能看到的任何地方,特别是在数据驱动的组织机构,你会发现数据可视化。数据可视化是现代公司缔造影响力的关键要素,存在于每个工具和工作流程里。它不仅仅是数据工程师、数据科学家、数据分析员的工作中重要的部分,也是那些职位名称中不带“数据”的人的工作重要部分。数据可视化出现在产品演示中,在 Slack 上的临时通讯中、在提交给股东的领导层报告中,甚至在营销材料中。我们希望改变人们经常在数据可视化中看到的 以工具为中心和以角色为中心的设计方法,这些方法强迫用户在工具间或者不同角色的权限墙中来回跳跃。在 Noteable,我们很清楚地设计了视觉可视化来反映当今人们在工作中如何使用数据,而不是他们在 15 年前如何使用数据。无论数据工作者的职位名称是什么,无论数据消费者在解决的问题是什么,我们正在研究他们的期望是如何增长并融合的。我们希望 改变人们经常在数据可视化中看到的以工具为中心和以角色为中心的设计方法,这些方法强迫用户在工具间或者不同角色的权限墙中来回跳跃。我们感觉通过从其他方法中引入优势,会鼓励数据可视化表达的多样性。这意味着,即使我们在开发一个 计算笔记本【1】产品,我们仍然需要跳出传统笔记本的局限性,去看数据可视化,并将其置于更广阔的背景下,即每个人如何使用数据可视化。(【1】计算笔记本(computational notebook):指能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中的工具。是特别适合数据科学使用的平台,能让数据科学家在同一个文档中编写代码、分析数据和插入可视化。)1. 现有的工具往往倾向到具体工作/职能
1. Existing tools tend to be specific to the job/function
创建可视化数据的设计工具无处不在的呈现与反映在各方面并没有改变。现有可用的工具通常与某个具体的使用案例相关,并针对案例进行优化。如果你是数据科学家,你会专注于验证方法,通常你会使用 Jupyter notebooks 或者 RStudio;如果你是分析师,你可能会使用 Tableau 或者 Looker;如果你需要制作说明图表,你是软件开发你可能会使用 D3,如果你不是开发你可能会选择 Powerpoint;如果你从业于金融或人力资源,你可能会选择Excel。
2. 很多工具在数据科学兴起前已存在
2. Many tools were designed before the data science boom
这些工具是在数据素养更低、数据驱动的组织机构更少、以及技术限制导致工具功能受限时设计的。当行业继续发展,很多工具随之发展的过程和特定的数据、数据处理方法及专业角色结合得太过紧密,导致这些工具让人感觉过于专业化,例如主要为数据分析师使用的BI(商业智能)工具。
数据处理方法和工具的紧密耦合也是数据角色演变后的结果,随着它们的成熟,反而加强了让工具定义工作:研究生课程宣传如何通过学习 python 计算笔记本成为一名数据科学家,训练营告诉你要学 D3 软件这样你才可以成为一名数据可视化开发,无数的工作坊帮助你学习 Tableau 软件来成为一名分析师。
但是由 分析师 / 数据科学家 / 产品经理 所做的工作并不是离散的、孤立的数据可视化片刻。在这些领域中用的某一数据处理方法在本质上和在另一领域用到的没有任何不同。恰恰相反:如果将一种方法中使用到的技能和方法结合到另一种方法中,可能会非常有用。我们看到这些步骤是孤立的,不是因为这是使用它们的最佳方式,而是因为它们目前是处于孤立状态下运行的。这就是为什么我们应该避开“分析师做的数据可视化与数据科学家做的不一样”的观点。我们看到这些步骤是孤立的,不是因为这是使用它们的最佳方式,而是因为它们目前是处于孤立状态下运行的。这就是便利规则被创建的原因,例如“不要用饼图”或“从不使用彩虹配色方案”或“最大化你的 数据墨水比 【2】”。即使在孤立状态之外的进行数据分析任务时,这些便利规则仍会受到挑战,但这些步骤是将原始数据转化为洞察和行动的过程的一部分。这个过程横跨从早期对数据的完全探索到最后给股东和领导层的汇报。(【2】数据墨水比(Data-Ink-Ratio):图形中的数据墨水量除以图形中的总墨水量,即在展示介质/页面上,用于展示数据所用的“墨水”量与介质/页面上全部“墨水”量之间的比值。其中数据墨水指的是图表中不可删除的核心内容。数据墨水比值越大,即意味着数据可视化图表中的冗余信息越少,不可删除的核心内容越多。)
3. 数据可视化生命周期
3. The Data Visualization Lifecycle
最好的看待数据可视化的方式就是不要受限于角色或工具,而是专注于数据处理过程中哪里需要使用到数据可视化。这些孤立离散的步骤中每一个都需要数据可视化的特别功能,从对原始数据的探索数据分析,到验证数据的假设、解释数据模式,再到将生成的图表产品化为定期的报告和其他数据资源。组织或机构试图寻找数据的日子早已将一去不复返了,现在他们轻易能获得大量数据,而挑战变成了:如何从中定位正确的数据并将这些数据摘要给到正确的人。让我们来看下每个步骤,了解当今数据可视化如何应用与支撑工作。1)探索性数据分析
探索性数据分析(EDA)指的是 当数据可视化是用来理解数据的模式和形状,而不是来解释解释这些模式。当它最常放在数据科学的背景下讨论时(使用例如 ggplot2 和 vega-lite 等工具优化数据处理方法),它的最佳案例是数据访问问题。组织或机构试图寻找数据的日子早已将一去不复返了,现在他们轻易能获得大量数据,而挑战变成了:如何从中定位正确的数据并将这些数据摘要给到正确的人。为了支持探索性数据分析,数据工程师持续性的工作就是部署数据可视化来展示数据源的形状、数据的沿袭【5】、以及它们如何加入到其他数据中。在数据集还是分析师/数据科学家的眼中独有的秘密之前,数据工程师早已在创建数据集并评估数据健康时用上了数据可视化。在这些数据源的视觉表达中,部分可能会继续保留来提供有关数据源状态的持续性报告,但一旦 数据集【3】合或 数据工作流 【4】完工,大部分的此阶段数据可视化会被抛弃。(【3】数据集(dataset):一组数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。)(【4】数据工作流(data pipeline):数据工作流沟通了数据源和数据应用的目标,包含了一家公司内部的数据流动全过程。它是一个贯穿了整个数据产品或者数据系统的一个管道,它连接了不同的数据处理分析的各个环节,将整个庞杂的系统变得井然有序,便于管理和扩展,因此让使用者能够集中精力从数据中获取所需要的信息,而不是把精力花费在管理日常数据和管理数据库方面。)(【5】数据延袭(data lineage):通常定义为一种数据生命周期,其中包括数据的来源以及数据随时间推移的位置。该术语还可以描述数据经过不同过程时会发生什么。)用来构建这类模式的工具,例如 Superset,强调直接插入您的数据,让您可以在不同的图表和设置之间快速切换。这种快速高效地可视化任何数据集的能力,无论它是关于什么的,再怎么强调都不为过。任何数据可视化处理的第一步几乎总是先看一看表格的一些行,不是因为这是可视化数据的最佳方式,而是因为表格几乎适用于所有数据集。通常股东仅需要访问并概览数据,他们会接受表格视图,因为这快捷又方便。探索性数据分析(EDA)在数据科学的领域特别突出,它在一开始与上面已经描述的类似,但很快就转向更集中的方法,这些方法属于数据可视化生命周期的下一步。2)假说的生成和验证
数据可视化中最和工作相关的方面是生成和验证假说。这和探索性数据分析(EDA)很像,但是更加具体,因为它在单纯的探索之外更深入数据的清晰申明。在数据科学的工作流程里,假说的生成和验证是通过具有分面等强大功能和处理几乎能处理所有类型数据的工具 —— 比如 ggplot2 和 vega —— 来完成的。这些工具通常还提供可用的功能来展示统计数据的显着性和不确定性,这是数据可视化生命周期里的其他部分所缺少的。统计测试,特别是 A/B 测试,可能会使用更定制化的界面并利用统计摘要的复杂表格来展示,为了方便那些非数据科学家进行假说的验证。机器学习是数据可视化在假设生成部分占有重要地位的另一个主要领域。数据可视化可能提供非常不同的形式来支持机器学习的工作流程:目标是优化特定数字(例如混淆矩阵的某些方面)以验证你的假说,然后对随机样本进行可视化来尝试确认没有偏差。3)说明图
验证假说是不够的,你必须向观众解释它。可能存在同样有效的竞争方法,即使没有,公司也没有无限的资源来追求每一种验证方法。数据可视化仅让建立它的人能理解是不够的,它需要被那些参与到围绕可视化数据决策的的人们所无障碍地理解并相信。这是从业人员真正的盲点领域,他们会很惊讶在他们分析中用到的图表在报告中没有那么有效。即使这个假说简单到是“这件事很重要”,下一件需要做到的事就是让这个假说对于不熟悉原始创建者的数据集和方法的受众而言更加清楚。你可以使用正式的 BI (商业智能)工具以及数据可视化库来完成此操作,它们能风格化并装饰那些在早期步骤中创建的简朴且杂乱的图表。有效的说明图依赖于所有有效沟通的法则:编辑、上下文(情景)和 清晰度。在前期数据分析探索中使用到(用来展示尽可能多的值)的配色方案被更深思熟虑过的颜色所取代,这些颜色强调了被分析的数据中的关键主题。图表中元素上的标签(比如如坐标轴)的格式更经过深思熟虑并弱化(不要那么视觉显眼)。遵循无数的数据可视化指南中描述的最佳实践,图表获得了一个标题和一些文本来配合读者。注释和上下文图表进一步说明和简单图表不同,说明图是为更多人设计的,而不仅仅是为了原始图表创建者们。4) 产品化
让图表变得可阅读并不是最后一件事,因为它需要让它的受众阅读和分发。大部分数据可视化指南忽略了这步,除非他们处理看板(dashboard)—— 他们真心地认为数据可视化的产品化的唯一方式就是把图表都塞到看板里。但是图表们有其他触达到它们受众的形式,无论是通过自动邮件、演讲还是备忘录。产品化改变了图表,它能让图表:增强合作(比如可以评论)、便于分享、易于交互和自动更新(或者用邮件报告的方式定期发布)。因此,产品化可能就像让在 Apple 和 Netflix 这样公司里的数据可视化工程师们去搭建一个完全定制化的分享应用一样,非常复杂和昂贵。或者产品化可能就像截图一个图表并把它塞到一个用于会议分享的文档里一样简单。现代的BI(商业智能)工具有能改进共享(它们工具构建的)看板的功能,其中还包括将看板共享为电子邮件报告。在定制化的应用和标准化的BI(商业智能)工具之间,还有例如 Dash 和 Streamlit 这样的看板库,可以快速地从上文提到的探索性数据分析(EDA)和假说生成这两个模式中生成看板。除此之外,最有争议的莫过于将图表的图片嵌入文档了。数据可视化的产品化,能像在 Notion, Coda, Quip, Confluence 或者 Google Docs 中插入图表一样简单吗?在很多情况下,便于分享和提供评论功能,是产品化的核心需求,但这已经通过在线文档里的静态截图完成了。这是最优解吗?还差得远了。图表不能够再继续动态更新、截图的人们可能会不小心裁剪掉关键信息。但很明显,鉴于这种能够在图表上分享和评论的方法的频率,收益仍大于缺陷。5)战略方向
产品化可能看上去也像是在数据额可视化生命周期里的最后一步,但不是。除了在演讲中的直接影响力之外,图表还(消极地和积极地)有助于使用数据的知识共享、最佳实践和指南。图表是一个公司的生命之血。如果公司想要改进它如何使用数据可视化,他们只能在评估如何使用数据可视化时才能做到这一点。即使没有积极的数据可视化评估,图表仍然影响着一个公司的战略方向。因为图表提纯和强调了指标。这些我们展示的指标、特别是在数据可视化生命周期中从探索活到产品化的指标,是认真投资的结果。它们影响决策,但也影响着之后的指标。这就是为什么数据可视化是指标设计的一个关键方面。类似地,数据本身以及数据的转变需要可视化。数据沿袭(数据生命周期)不仅包括ETL【6】 过程中创建的数据、也包括让数据在语义上足够有意义来让公司使用且决策的必需步骤。(【6】ETL:是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。)最后,每个公司产生的图表是公司里的人需要看的。这似乎是一个显而易见的观点,但图表通过提高或限制数据素养的方式表示数据。如果你的所有图表都是条形图或者折线图,那么你所有的指标都只会是那些可以在那些条形图和折线图图表上出现的那种,并且你所有的决策都将是基于这些指标的那种。但是,如果你有显示不确定性、分层数据、地型图、过程图、地图和其他数据类型的图表,那么你的公司将能够根据此类数据做出决策。因此,即使图表已成功被部署,它仍然会影响你公司的数据素养。如果你想了解更多相关信息,请查看我的文章——《图表能做什么》。4. 支持整个数据可视化生命周期
4. Supporting the Entire Data Visualization Lifecycle
我决定与他人共同创立 Noteable 公司的原因之一是我坚信受众和数据工具的融合,这是我在 2018 年 Tapestry 的主题演讲中提出的观点。在我尝试预测未来时,我建议将“Dashtellingbooks”作为数据讲故事、看板和计算笔记本的融合。自从那时起,我意识到构建支持现代数据可视化的产品不仅仅只需要不同工具形式的简单组合。在数据可视化上,我们需要关注的不仅仅是工具的产出;我们需要考虑这些工具如何适应现代数据方法,数据可视化发生在数据生命周期的每个点,而不仅仅是在最后。这就是我们在 Noteable 公司处理数据可视化的方式。这就是每个想要利用数据可视化的公司都应该采用的处理方式。在 Noteable 公司,我们正在创建一个能支持整个数据可视化生命周期的工具:我们利用计算笔记本的力量来让我们的用户能探索、解释和拓展他们的数据。对于数据可视化生命周期的每一个阶段,在未来我会写得更加详细,并阐明如何以整体化的方式去处理数据可视化的产品设计与应用设计,能更好地使用户能够充分利用数据可视化生命周期。如果你想阅读更多的关于“为什么发展你的数据文化是公司成功的关键之处”的文章,看看我们Noteable公司首席执行官(CEO) Michelle Ufford 的文章 —— 2021 年数据驱动领导者指南(第 1 部分)。对我们在 Noteable公司 的工作感到好奇吗?看看Noteable首席技术官(CTO) Matt Seal 的文章 —— Noteable:适用于现代数据团队的交互式计算笔记本文档。原文:https://medium.com/noteableio/designing-for-the-data-visualization-lifecycle-42d854cbf7d4
作者:Elijah Meeks
译者:陈羽姿