确保企业数据质量的 11 个基本步骤
掌控数据并非易事。数据瞬息万变,受业务和 IT 流程的转变、市场波动和企业所采用的战略影响。
数据的使用,无论是主动还是被动,都会导致信息的操纵:
主动使用数据:主动数据涉及数据输入、提取或存储等活动,本质上是主动收集、更改或使用数据的任何过程。
数据的被动使用:被动数据使用涉及影响数据处理的活动,包括存储、迁移、消费或存档/删除,被动修改或使用固有数据。
因此,自组织成立以来,由于各种原因,其数据资产变化的速度不断加快。
评估当前数据资产是否符合组织的需求至关重要。数据通常被视为公司的信用标识,反映了公司的可信度。“公司是否值得信赖?”这个问题可以转化为公司生成的信息是否足够准确、一致且可及时访问。
此外,对于什么可以被视为“好数据”,目前还没有明确的共识。这一概念是由所涉及的个人、所考虑的业务需求以及公司运营的时间和地点等因素来确定的。
管理此类数据特征属于数据质量和高质量标准的定义范围。
最终,除了影响公司的声誉风险之外,数据质量还会提升数据作为战略和组织资产的价值。与其预期用途更相符的数据可降低财务风险、提高员工效率和生产力,并促进做出明智的决策。
提高数据质量的 11 步方法
为了强调高质量数据的重要性,我概述了组织在开启提高数据质量的征程时应考虑的11 个基本要素。
1 制定数据策略
必须战略性地使用数据才能产生商业价值。换句话说,必须制定一个计划,其中包含一系列行动要点、利益相关者和时间表。实现适合用途的数据首先要明确其预期用途。
应该提出一些关键问题来引发组织内部的数据战略讨论:
推动企业运营的业务需求是什么?
公司在数据质量准备方面有多成熟?
谁是主要的利益相关者?他们提供了什么见解?
跨部门的反馈循环有多有效?
管理委员会在未来 5 年内要实现什么目标?
目前如何使用数据来实现这些目标?
2 建立元数据管理方法
数据管理的基本原则之一是“管理数据需要元数据”,这意味着元数据是各种数据生命周期流程的标准,包括数据质量管理。
以业务术语表为例。它汇编了业务元数据,并将其转化为业务术语及其描述。这些术语对于构建与有效性、精确度、及时性等指标相关的数据质量规则至关重要。
3 定义数据质量计划
评估和管理数据质量是一个持续的过程,它反映数据的生命周期,将其视为一种产品。
公司应该实施强大的数据质量计划,概述一系列循环行动,包括调整标准、设定目标以及开发方法、指标和阈值,以持续评估信息的质量状况。
至关重要的是要认识到,实现完美的数据质量不是一个目标,而是一个不断发展的过程,与公司的运营流程紧密交织在一起。
4 设计数据治理模型
数据治理经常被描述为有效数据管理的核心催化剂。在重复的数据管理活动中灌输问责制至关重要。在数据治理模型中,角色和职责被明确定义并应用于实际用例。
为了有效运作,需要进行再培训和变革管理举措,为员工分配新角色,并确保工作场所的工作职责明确。
具体来说,在数据质量治理岗位上,公司应该考虑已经在业务和技术方面参与处理数据的人员。为这些新设立的岗位制定招聘计划和政策也可能是恰当的。
5 选择关键数据用例
最初,人们可能会倾向于将数据质量方法应用于组织内的所有数据。然而,重要的是要认识到并非所有数据在任何时候都同样重要。
确定优先次序是关键,重点关注可能影响公司声誉、财务业绩、法规合规性和业务运营的固有风险。
此外,采样数据至关重要,因为来自数据资产的代表性样本可以发现数据质量问题并提出潜在的解决方案。
6. 通过政策强制执行数据质量
数据政策是数据治理的关键要素,规定了数据标准和行为准则。这些政策以权威但令人接受的语气传达,定义了应如何看待和使用数据。
在数据质量管理中,在组织内建立高质量数据标准以及为可接受的数据质量设定明确的目标、指标和阈值至关重要。
数据政策是长期监控数据质量计划的有效手段,并确保整个组织都知道最佳实践。
7 定义评估体系
评估数据质量结合了定量和定性方法。最初,一种基础方法是执行基于描述性统计的数据分析任务——例如计算汇总统计数据、检测异常值以及分析值模式和分布。
接下来,可以应用定量和定性方法,第一步是确定标准。
在定量方法中,这涉及精确定位数据质量维度以分析数据特征。然后将这些维度转化为指标并作为测试持续应用,将数值结果与上下文相关阈值进行比较。
定性方法可能包括问卷调查、半结构化访谈和焦点小组。
这两种方法都非常重要,应该结合使用。
8 定期进行数据质量评估
数据质量评估的目的是巩固对数据的整体看法并突出数据的特殊性,找出危及数据质量的因素。质量平复包括一系列活动,以应对以下挑战:
难以优先处理和解决质量事故
对提取数据的信心有限
难以建立符合业务要求的数据质量规则
需要诊断并衡量质量问题的严重程度
制定纠正当前事件和预防未来发生新事件的指导方针
需要创建数据验证的控制和机制
当数据质量经验有限时,高层评估是确定下一步行动和规划长期计划的有效方法。
9 实施数据质量控制
数据质量控制涉及在数据生命周期的各个阶段一致地应用指标。
这可能包括在数据提取或输入期间以及转换或迁移之后建立控制。
在数据生命的最后阶段,控制为数据消费者提供了一种通过质量分数、报告和仪表板来评估所用数据可靠性的方法。
数据质量控制的目标是对每个分析的数据单元执行业务规则,进行检查以确保完整性、准确性、合规性和其他所需特性。
10 采用数据质量工具
虽然高水平的质量练习在目前可能有效,但它们无法快速修复数据,也无法提供数据可观察性功能。由于这些练习很简单,因此涉及数据采样,需要重新检查更广泛的数据结构中当前数据生命周期流程中的任何差距或不足之处。
问题范围如此之广,没有一种单一的方法可以有效解决所有数据质量问题。一旦确定并分类了具体问题,建议选择一种专门用于解决这些问题的质量工具。
在成熟的组织中,数据质量工具通常用于扫描输入源,自动理解、评估和提炼信息。这些工具以自动化和自主的方式提供发现、映射、解析、分类和分析等功能。
无论如何,必须强调的是,工具并不是解决数据质量问题的“终极解决方案”。建立数据成熟度是先决条件。
11 考虑人工智能增强数据质量
增强数据质量是一种使用 AI 算法和小部件来增强和自动化数据质量管理的方法。数据得到纠正,AI 从这些纠正中学习并提出相应的建议。这些功能会随着时间的推移自动调整和改善数据质量,而无需太多人工干预。
然而,数据管理员和 IT 专业人员的作用仍然至关重要。他们应该直接监督 AI 流程,以确保优质算法符合业务价值并正确适应数据基础设施。
词汇表和业务规则是向模型提供正确信息的方式。频繁微调人工智能模型也是必要的,以防止误解和曲解。如今,许多数据管理工具都配备了嵌入式人工智能功能。
小结
建议公司不要急于实施数据质量计划,而是要优先打下坚实的基础。
实际上,这意味着在整个组织建立明确的元数据收集和管理流程以及全面的政策和业务规则之前,不要采用任何工具。
按照特定顺序关注人员、流程和技术,引导流程。制定以业务价值和数据为核心的长期战略。让各种利益相关者参与进来,接受不同的观点,并利用他们的见解。
虽然管理数据质量并不是数据管理的最终目标,而且还有更多内容,但它无疑代表着一个重要的里程碑。
往期推荐
当今数据平台的建设策略及5个关键考虑因素
谈谈数据作为资源管理的重要性
数据基础系列:数据建模中的范式
数据资产管理方案
通过两个阶段实现数据平台的现代化
数据基础系列:Lambda架构和Kappa架构
谈谈数据架构的演变和典型模式
谈谈汽车数据价值变现及收益分配