谈谈如何成功实施数据治理
根据 Gartner 的数据,到 2025 年,80% 寻求扩展数字业务的组织将会失败,因为他们没有采用现代数据和分析治理方法。难怪在 2023 年对 350 名首席数据官 (CDO) 和 CDO 同等职位的调查中,MIT CDOIQ 发现 45% 的 CDO 将数据治理视为首要任务。这些数据领导者正在寻求建立一种治理模型,使他们能够以正确的条件向正确的人员和应用程序提供数据,同时确保数据安全无虞。确保数据处于正确的状态才能成功数据治理的常见定义涉及决策权、政策、访问权限等。虽然这些定义在技术上可能准确,但它们不一定实用。在本文中,我们将讨论可实施的实用数据治理。实用数据治理意味着确保数据处于成功实施业务计划和运营所需的正确状态。为了使数据处于适合业务计划的状态,我们需要业务和 IT 部门合作。数据治理计划首先需要的是合适的人才。
需要考虑的角色有很多,但核心角色包括:数据管理员、数据所有者。数据管理员是来自业务部门的人员,对支持目标业务计划所需的数据有详细的了解。在保险示例中,客户试图提高索赔数据的质量以支持索赔裁决。数据管理员每天都在与 IT 部门合作开展该项目,做一些具体的事情:评估数据质量、制定用于监控数据的数据质量规则以及在出现问题时采取行动。其中一些问题涉及索赔管理流程中的业务流程变更,以提高数据质量。这就是为什么我们需要来自业务部门的人员与 IT 部门合作,带来所需的业务知识,同时利用技术支持数据管理活动。通常,业务部门中的某个人已经在扮演这个角色,但不是正式的。这些人由于对数据的深刻理解,往往会参与与特定数据域相关的项目。要找到候选数据管理员,请寻找这些人,然后对该角色进行一些形式化。
数据所有者的角色— 数据所有者是制定数据政策决策(包括监管和合规政策)的高管级人员。例如,他们决定谁有权访问索赔数据以及谁有权访问客户数据。数据所有者还解决有关术语定义(例如客户、收入等)的问题,并解决数据管理员提出的其他升级问题。数据所有者和数据管理员之间存在直接关系;数据管理员完成项目的日常任务,数据所有者拥有指导数据管理员工作的数据政策。
IT的角色- IT 中的角色有助于引导生成和使用数据的系统,并为数据管理员提供正确的工具和功能。例如,现代技术可以加速数据管理功能,如数据质量管理、主数据管理和数据安全。逆向工作以确定工作优先级。亚马逊有一种创新方法,称之为“逆向工作”。这个想法是从最终结果的愿景开始,然后逆向工作以确定要采取哪些行动来实现最终结果。这一理念适用于数据治理,通过从目标业务计划和预期结果开始反向工作来决定如何优先考虑数据治理工作。共享数据优先级除了支持单个业务计划外,扫描多个业务计划以寻找共享数据的机会也很重要。通过这种方式,我们可以确保在准备可用于业务计划的数据时,我们也关注其他业务计划的扩展和共享。查看各个计划的另一个好处是考虑所需的集成级别。
许多业务计划需要将各种来源的数据关联起来才能取得成功。如果我们能找到这些计划,我们就能确保整合计划到位,同时还能将相同的核心数据定位为广泛重复使用。通常,一项业务计划会将来自各种不同来源的数据串联在一起。然后,另一项计划将以略有不同的方式整合来自相同来源的数据。要制定有效的数据治理计划,需要实施所有流程、程序和策略,以便公司在开展业务的自然过程中纳入数据治理,避免重复工作,并提高每个项目中共享数据资源的完整性和质量。我们如何与业务计划保持一致?仅此一条建议就可以为您节省两年或更长时间的努力。
根据经验,大约 90% 的数据治理项目都举步维艰,因为它们本身就提出了数据治理的商业案例,却没有阐明该项目将如何支持数据团队之外获得支持的业务计划。如果我们单独提出数据治理的价值,我们就会举步维艰,因为我们将与我们应该支持的业务计划竞争。我们不应该单独提出数据治理的价值,而应该从业务计划开始逆向思考。
支持他人的商业计划。每家企业都已经拥有了计划、资金、正在进行或即将开始的大型企业业务计划。其他计划即将启动,几乎每项业务计划都需要数据才能成功。如果我们可以将数据治理计划定位为承重墙(就像建筑一样),我们就会成功。房子是商业计划,数据治理是支撑它的承重墙。通过这种方法,我们仍然在提出商业案例,但现在我们正在论证数据治理如何支持主要业务计划,我们并没有提出数据治理本身的价值。
如何开始?确定要支持的业务计划,并了解目标计划需要哪些数据。然后确定满足计划需求所需的数据状况。定位数据治理,以帮助确保数据已准备好满足目标计划的需求。
选择业务计划。业务计划需要根据其自身优点获得资金,而不是依赖于为数据战略或数据治理计划获得的资金。然后,我们将数据治理定位为支持这些计划的成功。如果我们反复这样做,就会出现机会,在计划之间重复使用数据并集成数据以支持跨职能计划。每一项行动都应提供近期的业务价值并逐步改善数据资源。根据业务计划的近期成功情况确定数据治理工作的优先级。
示例:选择业务计划(汽车)我们曾与一家汽车公司合作,帮助他们制定整体数据战略,包括数据治理。我们遇到了一位营销业务主管,他提出了一个我们可以用此数据战略支持的用例(与将保修查询与营销流程联系起来有关)。这位高管提出了一些令人印象深刻的潜在投资回报率数字。然而,支持这一计划将是一个大错误。为什么?因为据我们了解,这位高管在过去三年里一直在提出这一计划,但却无法获得资金。他希望通过数据战略工作来资助一个无法单独获得资金的解决方案。
关于数据治理的常见问题:
• 问题:我们应该从哪些数据开始?回答:从成功实施目标业务计划所必需的数据域开始。• 问题:我们如何为数据治理计划筹集资金?回答:展示数据治理如何帮助目标业务计划取得成功。
• 问题:我们从哪里开始?数据管理实践有很多,例如数据质量主控和数据管理。回答:构建或改进成功实施目标业务计划所必需的任何功能的元素。
• 问题:我们应该将哪些数据输入到数据目录中?回答:对支持目标业务计划所需的数据进行分类。
• 问题:我们应该解决哪些数据质量问题?回答:解决成功实施目标业务计划所需解决的数据质量问题。
示例:优先排序(供应链)一家公司需要通过自动补充商店和配送中心的库存来优化其供应链。数据治理负责人决定以成功实现自动补货所需的库存数据准确性为目标。这为供应链计划的其他要素提供了近期重点并建立了动力。领导者将数据治理计划定位为将相同数据的支持扩展到供应链之外的各种不同计划,例如货架空间优化、劳动力规划和定价优化。所有这些计划都需要相同的数据源。
如何展示数据治理计划的价值。衡量计划价值的最佳方法是阐明数据治理计划对一个或多个业务计划的贡献。即使我们只是讲述数据治理计划如何支持该计划的轶事,这也会有所帮助。理想情况下,该目标计划的领导者将验证数据治理对于成功是必要的。
什么是数据治理的良好模型?很多时候,数据治理被狭义地等同于一两种特定的数据管理功能。例如,数据目录是数据治理计划中非常重要的元素,但它并不等同于数据治理。它只是该计划的一个重要部分。为了确保数据为有针对性的业务计划做好准备,我们需要全面思考有效管理数据意味着什么,以及确保数据处于正确状态以支持业务计划意味着什么。
我们将数据治理功能分为三类:
• 理解数据
• 整理数据
• 保护数据 尽管我们考虑全面,但这并不意味着我们会一次性实现所有功能。
我们根据目标业务计划的需求对这些数据管理实践的各个部分进行优先排序。
理解数据——在上下文中理解我们的数据意味着我们可以发现和理解数据的状况和含义,以便我们可以规划改进并自信地使用它来推动商业价值。
数据剖析— 数据剖析的理念是系统地检查数据,以确定这些数据是否有问题,并了解数据特征,以用于各种目的(管理持续质量、设计数据库、对数据进行分类等)。在剖析数据时,我们必须明白数据永远不会完美。例如,并非每个客户属性都是 100% 正确的。业务数据管理员知道数据是对是错,而且 — 对于优先级和范围管理而言最重要的是 — 知道发现的任何问题将如何影响目标业务计划。为了支持数据剖析,现代技术可以实现复杂的统计、文本和图像分析以及可视化,以识别数据问题并了解数据内容。
数据目录— 健康的数据治理计划的一部分是确保需要访问数据的人能够访问数据。良好的数据目录可帮助最终用户和应用程序开发人员(数据消费者)查找数据。但找到数据还不够。数据消费者还会评估数据是否适合使用,因此数据目录提供从其他数据管理功能(例如数据质量统计、数据沿袭和安全分类)收集的业务背景和元数据。现代数据目录技术使数据生产者能够轻松共享和记录数据,并允许数据消费者使用内置智能来查找、评估和访问他们业务所需的数据。数据沿袭数据沿袭可识别特定数据元素的来源以及该数据的移动、转换和存储方式。当数据消费者在报告中看到数据时,他们经常会质疑数据来自何处以及在此过程中进行的任何派生或计算。现代数据沿袭技术从数据存储和数据管道收集元数据,以提供有关数据在流向应用程序和最终用户的过程中如何获取和操作的信息。
数据沿袭— 数据沿袭可识别特定数据元素的来源以及该数据的移动、转换和存储方式。当数据消费者在报告中看到数据时,他们经常会质疑数据来自何处以及在此过程中进行的任何推导或计算。现代数据沿袭技术从数据存储和数据管道收集元数据,以提供有关数据在传输到应用程序和最终用户的过程中如何获取和操作的信息。
整理数据——大规模整理数据意味着识别和管理数据资源,以便我们能够确保数据的准确性、新鲜度和完整性,从而实现有针对性的业务计划,同时限制数据扩散以及相关的不一致性和冗余性。
数据质量管理— 数据质量管理解决在数据分析或其他方式中发现的数据质量问题。我们需要首先决定要解决哪些问题 — 许多问题超出了范围。我们将重点放在那些如果不解决就会妨碍我们目标计划的具体问题上。我们需要具备数据及其在目标计划中的作用的业务和技术知识,以便尽可能地找到导致数据质量问题的根源。也许从某个来源获取数据存在技术问题。也许数据来自某个来源,因此翻译中存在错误。也许业务流程中存在问题。以之前的索赔裁决为例。当我们报告索赔时,文本字段是否描述得不够详细?根据项目中发现的无法通过技术变更自信地纠正的具体数据质量问题,我们设置了数据质量规则来监控生产中的问题,然后向能够纠正问题的数据管理员和业务用户发出警报并报告问题。为了支持数据质量管理,使用现代工具来开发和监控数据质量规则,利用大量的规则类型和自定义规则开发能力。
数据集成— 要使数据连贯地组合在一起,需要收集和合并来自各种来源的数据。我们需要流程和工具来实现这一点。以索赔为例,假设发生了合并。两个品牌下的两个业务部门现在属于一家保险公司,业务决策者需要对两个品牌的索赔进行累积和详细的分析。这需要检查两个部门的索赔数据结构,以实现统一分析。数据集成需要逐个字段进行检查,以确保来自不同来源的数据在语义和技术上都连贯地链接在一起。现代数据集成技术支持分析数据结构和构建从源到目标的低代码或无代码数据转换,同时在需要时利用专门的模块和自定义代码。
主数据管理— 主数据(例如有关客户、供应商和产品的数据)需要特别考虑。例如,有关同一客户的信息可能分别存储在与不同业务线相关的系统中。此外,主数据往往被组织成层次结构,例如对产品进行分类。数据管理员帮助定义协调规则并管理层次结构。现代主数据管理技术可以智能地匹配来自不同来源的实体,并实现自动化工作流、交叉引用和分层数据管理功能。
保护数据— 有效保护数据意味着在控制和可访问性之间取得适当的平衡。人们应该尽可能轻松地获得完成工作所需的授权访问权限。
数据安全— 数据安全意味着定义谁可以访问数据以及他们何时可以访问数据。例如,某些客户数据需要由某些角色(如客户服务或销售)自动访问。但基于项目的需求通常需要临时访问特定数据。通常,数据管理员会帮助启用基于角色和临时的访问,并由数据所有者制定的策略决策指导。现代数据安全技术可保护系统免受入侵,审计和控制系统边界内和跨系统的访问,并实现细粒度的访问控制以满足自动化和基于项目的访问需求。数据安全技术还可用于根据内置和自定义规则自动查找敏感数据和漏洞。
数据合规性——合规性意味着了解政府法规并确保我们遵守这些法规。数据所有者必须与安全和法律团队合作,为敏感数据域制定政策决策,以确保合规性,因为规则通常需要解释、判断和了解数据在业务中的使用方式。数据合规性技术在很大程度上依赖于数据安全工具,同时增加了管理合规性文档和实现通信的能力。
数据生命周期管理— 数据生命周期管理意味着有意存储数据以便于访问和优化成本。例如,我们可能需要保存员工信息多年。但如果数据非常陈旧,我们可能不需要立即访问这些数据。数据生命周期管理决定了我们需要保留数据多长时间以及将数据存储在何处以便进行适当的访问。现代数据生命周期管理技术提供经济高效的存储和检索,以及基于数据访问和归档要求以及随时间变化的自动数据移动。
我们如何构建数据治理路线图?要构建有效的数据治理路线图,最好将其纳入全面的数据战略路线图。我们必须将数据治理计划与业务计划相结合,这也是良好数据战略的标志。数据治理路线图不应该是一个独立的东西。一个好的路线图的结构看似简单。数据战略路线图上的工作流如下:
• 有针对性的业务计划
• 应用程序
• 数据领域
• 数据管理
• 数据架构
• 数据安全
• 运营模式。
我们如何使用企业运营模式?为了维持和不断改进数据治理计划,将数据治理嵌入企业运营模式以使其成为公司业务运作方式的自然组成部分非常重要。在数据治理计划开始时选择业务计划后,我们必须弄清楚如何说服这些计划的领导者,我们会帮助他们的计划。这就像在行驶的火车旁奔跑并跳上去。在数据治理计划开始时,真的没有选择。但之后,与其跳上行驶的火车,不如在车站赶上火车?每个组织都有我们可以将数据治理附加到的特定流程。通过附加到这些企业计划,我们将逐步将数据规划和实施活动制度化。需要协调的一些关键流程包括:
• 战略规划
• 计划和项目资金
• 企业架构
• 项目管理
我们从计划诞生的地方开始,并通过现有的范围和生命周期功能进行跟踪。这就是我们如何将数据治理计划和相关数据策略与企业的运营模式相结合。
战略规划-业务计划源自战略规划流程,在此流程中,高管构思业务计划并决定实施哪些计划。理想情况下,CDO(或类似 CDO 的角色)会直接参与该战略规划活动。CDO 将帮助集思广益制定新计划,并观察从该流程中产生的计划。然后,CDO 将确保适当修改整体数据战略的路线图。通过这种方式,我们可以从一开始就抓住计划,以便我们可以与这些业务计划一起制定数据计划。
计划和项目资金-我们需要关注筹资过程,并对所有提议的计划和为筹资过程提供资金的项目进行可观察性观察。这是另一个机会,可以通过正确的数据治理来计划支持计划,以确保数据适合使用。我们不需要所有细节。我们应该以与这些计划计划相同的详细程度来规划我们的数据治理计划。例如,如果有人提出定价优化计划,我们知道我们需要价格历史、价格历史对销售的影响信息、产品数据(包括位置和网络状态)等。即使不知道所有要求,我们也可以讨论支持提议计划的数据状况。随着目标计划的要求详细出现,我们将详细说明支持该计划的计划。
项目管理-项目管理专家决定如何在项目中部署数据,并从一开始就提供机会将数据管理实践和角色构建到项目生命周期中。这不仅仅是一般地进行数据分析或构建数据质量规则。同样,这将是数据治理追求其自身价值。相反,我们可以将标准任务直接放入数据部署方法中。该方法应包括角色和职责,以便我们可以将数据管理员的角色和其他角色直接作为标准角色,并具有特定的任务职责,例如分析数据、制定数据质量规则、编目数据,并由与这些任务相关的标准工具支持。这并不意味着每个项目都涉及每项功能,但我们在规划任何数据部署项目时都应该主动考虑这些任务。有了健康的路线图,所有这些活动都将专门用于支持业务计划中的目标应用程序和分析用例。
机器学习治理与数据治理相关吗?到目前为止,有关数据治理的一切也适用于机器学习。要从机器学习中产生价值,底层数据必须满足与机器学习模型相关的特定计划的需求,以确保数据、集成、安全性等的适当质量。因此,数据治理计划和机器学习从业者之间应该建立合作伙伴关系,就像数据治理计划支持一般的应用程序和分析一样。为此,机器学习模型和相关应用程序属于之前讨论的路线图的应用程序工作流,并得到所有其他工作流的支持。AI/ML 的特殊治理考虑 AI/ML 确实引入了我们需要在治理计划中考虑的新功能。例如:
• 特征存储
• 额外的法规遵从性
• MLOps • 新的道德考虑
• 生成式 AI 考虑
特征存储 -特征存储是数据存储,其数据以对机器学习有用的方式构建。我们不应该只为一个用例构建特征存储,而应该考虑为各种 ML 模型共享特征。然后,我们可以使用数据治理程序来支持可以在这些用例之间共享的特征存储。与数据治理的其他方面一样,我们不必同时构建所有可能的特征。但随着我们推出越来越多的用例,我们可以构建这些特征存储并扩展和增强它们。监管合规性政府继续提出新的立法来管理 ML。与数据法规一样,遵守这些法规需要安全、法律和治理职能部门之间的合作,并仔细解释和应用。
如何开始
确定一些有针对性的业务计划,无论它们包括分析和报告、AI/ML 建模、打包应用程序还是自定义应用程序。定位数据治理以支持其他程序。
查看支持计划所需的基础数据。所需数据的状况如何?需要解决哪些问题?定位数据治理,以确保数据处于一个或多个目标业务计划成功所需的状态。
优先考虑人员部分:需要安排哪些数据域和哪些数据所有者?由于我们已经确定了特定的业务计划,因此我们应该了解支持该计划所需的数据。由于我们已经确定了需要解决的数据问题,因此我们可以弄清楚如何利用人员和数据管理能力,将它们整合在一起并专门规划以支持近期计划。
请记住,在数据治理的每一步中,我们都在做两件事:
• 通过小范围的努力实现短期商业价值。
• 随着时间的推移构建能力,每个项目都有助于数据治理的成熟。
往期推荐
数据基础:OLTP 与 OLAP 数据建模的异同
全面了解什么是数据管理
确保企业数据质量的 11 个基本步骤
当今数据平台的建设策略及5个关键考虑因素
谈谈数据作为资源管理的重要性
数据基础系列:数据建模中的范式
数据资产管理方案
通过两个阶段实现数据平台的现代化