手把手教您如何进行数据质量管理【值得收藏】
通过克服数据质量挑战,领先于数据曲线
无论推动业务战略或重点如何,组织都在转向数据来利用关键见解,并帮助提高组织实现其愿景、关键目标和目的的能力。
但是,质量差的数据可能会对获得见解的时间产生负面影响,并可能破坏组织的客户体验工作、产品或服务创新、运营效率或风险和合规性管理。如果您希望从数据中获取见解以进行决策,则这些见解的质量仅与提供或推动它们的数据的质量一样好。
提高数据质量意味着拥有可持续成功且适合数据使用的数据质量管理实践,同时不断发展以跟上或领先于不断变化的业务和数据环境。这不是一次修复一个数据集的问题,这是资源和时间密集型的,而是确定数据质量始终偏离轨道的地方,并创建一个程序来改进源头的数据处理。
概述
主要挑战
组织正遇到数据质量差的陷阱,包括:
不可靠的数据和不利的输出。
效率低下和昂贵的补救措施。
不满意的利益相关者。
数据质量差会阻碍成功的决策。
常见障碍
不了解数据质量的目的和执行会导致数据迷失方向。
未能意识到数据质量的重要性/价值。
不确定从哪里开始处理数据质量。
缺乏对数据质量的投资。
在数据质量方面,组织倾向于采用项目心态,而不是采取从长远来看更全面的战略方法。
解决数据质量问题的方法
通过制定可行的数据质量计划,解决数据质量问题的根本原因。
熟悉组织的数据环境和业务环境。
确定数据质量修复的业务用例的优先级。
从根本上解决数据质量问题,以确保数据流动的适当基础。
保持最佳实践并发展数据质量计划非常重要。
关键洞察
尽可能靠近数据源解决数据质量问题,同时了解每个业务用例对数据质量有不同的要求和期望。
数据是组织知识的基础
数据使您的组织能够做出决策。
需要可靠的数据来方便企业各级的数据使用者。
需要洞察力、知识和信息来为运营、战术和战略决策过程提供信息。需要数据和信息来管理业务并增强业务流程,例如计费、客户接触点和履约。
原始数据
商业信息
切实可行的见解
数据应该是组织发展的基础。高管们不断寻求的转型见解可以通过数据质量实践来发现,该实践使高质量、值得信赖的信息随时可供需要它的业务用户使用。
98%的公司使用数据来改善客户体验。
高级数据架构
构建数据质量计划
数据质量理念和数据文化诊断
业务战略和用例
优先考虑质量差的用例
关键洞察
在组织系统和应用程序体系结构的各种流中引入、集成和维护数据时,数据质量可能会降低多个点。
了解组织在整个业务环境中的数据文化和数据质量环境。
优先考虑数据质量较差的业务用例。
对于每个用例,确定整个数据管道中的数据质量问题和要求。
从根本上解决数据质量问题。
当数据流经质量保证监控检查点时,监控数据以确保高质量的输出。
洞察力:
在整个数据管道中正确应用数据质量维度将产生卓越的业务决策。
数据流的任何阶段都可能发生数据质量问题。
防止数据质量差的连锁效应
数据是数据驱动型组织决策的基础。
因此,如果组织的基础数据出现问题,这可能会对许多下游业务功能产生多米诺骨牌效应。
让我们用一个例子来说明数据质量差的多米诺骨牌效应。
组织X希望将其数据迁移到单一平台SystemY。迁移后,很明显,从该平台生成的报告不一致,并且经常看起来是错误的。这有什么影响?
必须花时间识别数据质量问题,并且通常采用手动数据质量修复。这将使交付依赖于系统Y的项目的时间延长X个月。
为了修复这些问题,企业需要签订两个额外的资源来完成不可预见的工作。新资源的成本$X,以及额外的基础设施和硬件成本。
现在,业务的战略目标处于危险之中,对新系统Y有一种不信任的感觉。
影响提供卓越客户体验能力的三大挑战
30%数据质量差;
30%交互更改的方法;
30%遗留系统或缺乏新技术;
95%的组织表示,数据质量差会损害业务绩效。
保持高质量的数据将支持更明智的决策和战略洞察力
提高组织的数据质量将有助于企业实现以下好处:
数据驱动型决策
业务决策应具有强有力的理由。数据可以提供对关键业务问题的洞察,例如,“如何提供更好的客户满意度?89%的受访首席信息官表示,缺乏高质量的数据是做出良好决策的障碍。
客户亲密度
通过使用记录系统中的正确数据来分析交易、情绪和交互的完整客户视图,改善营销和客户体验。94%表示数据质量差会影响业务成果的高级IT领导者的百分比。
创新领导力
深入了解产品、服务、使用趋势、行业方向和竞争对手结果,以支持有关创新、新产品、服务和定价的决策。20%由于数据质量差,企业损失了多达20%的收入。
卓越运营
确保以合适的价格和成本结构快速、一致地向正确的各方提供正确的解决方案。通过使用正确的数据来推动流程改进,从而实现流程自动化。10-20%数据质量计划的实施可以减少高达20%的公司预算。
但是,保持数据质量很困难
避免这些陷阱,从数据中获取真正的价值。
数据债务会拖累投资回报率–高度的数据债务会阻碍您实现预期的投资回报率。
缺乏信任意味着缺乏使用–对数据缺乏信心会导致组织中缺乏数据使用,从而对战略规划、KPI和业务成果产生负面影响。
战略资产成为一种负担-不良数据使您的企业面临不符合合规标准的风险,这可能导致您支付数百万美元的罚款。
成本增加和效率低下–修复不良数据所花费的时间意味着重要计划的工作负载容量减少,并且无法做出基于数据的决策。
采用数据驱动技术的障碍–预测分析和人工智能等新兴技术依赖于高质量的数据。不准确、不完整或不相关的数据将导致延迟或缺乏投资回报率。
糟糕的客户体验–在不良数据上运行您的业务可能会阻碍您向客户交付服务的能力,增加他们的挫败感,从而对您维护客户群的能力产生负面影响。
关键洞察
数据质量在输入点受到的影响最大。这是数据质量多米诺骨牌效应的原因之一,并且可能是由于错误传播而导致的数据质量错误代价最高的形式之一。换句话说,无论是通过改进应用程序和数据库设计还是改进数据引入策略,修复数据引入,都将修复大多数数据质量问题。
关注数据和分析的过程
数据质量与数据策略、数据管理和数据治理息息相关。
数据战略
数据质量
数据治理
主数据
数据集成
企业内容管理
数据生命周期管理
数据架构
数据管理
数据仓库/湖/湖屋
报告和分析
.AI
数据质量植根于数据管理
从数据质量管理中获得最大收益。
数据管理是对获取、控制、保护、交付和提高数据和信息资产价值的政策、实践和项目的规划、执行和监督(DAMA,2009)。
换句话说,在正确的时间向正确的人提供正确的信息。
数据质量管理存在于构成数据管理框架的每个数据实践、信息维度、业务资源和主题区域中。
在这一框架内,有效的数据质量做法将以标准化做法取代临时程序。
如果没有跨此框架的适当协调和协作,有效的数据质量实践就无法成功。
一致性可确保数据质量实践适合业务目的。
DAMADMBOK2数据管理框架
数据管理
数据治理
数据质量
数据架构
数据建模与设计
数据存储和运营
数据安全
数据集成和互操作性
文档和内容
参考和主数据
数据仓库和商业智能
元数据
建立数据质量方法
阶段步骤 | 1.定义组织的数据环境和业务环境 | 2.分析数据质量修复的优先级 | 3.建立组织的数据质量计划 | 4.发展并维持数据质量实践 |
阶段成果 | 此步骤确定对数据和业务环境的基本理解、有关数据质量的基本概念,以及IT有效提高数据质量所需的核心功能和能力。 | 要开始处理特定的业务驱动型数据质量项目,您必须确定数据驱动的业务部门并确定其优先级。这将确保数据改进计划与业务目标和优先级保持一致。 | 在根据优先级确定要修复谁的数据后,确定他们在数据质量方面面临的具体问题,并实施改进计划来修复它。 | 现在,已经将改进计划付诸实施,请确保数据质量问题不会不断出现。将数据质量管理与数据治理实践集成到您的组织中,并提高组织的整体数据成熟度。 |
关键洞察
数据质量在旁观者的眼中
数据角色和职责
数据质量通过数据生命周期中的三个主要层进行
数据策略 数据策略应包含数据质量作为标准组件。 ←数据质量问题可能发生在数据流的任何阶段→ | ||||
DQ维度 及时性–代表性–可用性–一致性–完整性–独特性–条目质量–有效性–信心–重要性 | ||||
源系统层
| 数据加工层
| 消费层
| ||
数据创建→ | [SLA]数据引入[质量保证] | →数据汇聚与工程→ | [SLA]数据交付[质量保证] | →报告与分析 |
在这里修复数据质量根本原因... | → | 以防止在这里进行昂贵的修复。 |
案例研究
行业:医疗保健
调整源系统以最大限度地提高业务产出。
一家医疗保险机构面临数据质量问题,其中关键业务用例受到负面影响。业务规则定义不明确,默认值而不是实际值引起了关注。处理多个地址时,数据来自不同的源系统。
面临的挑战是确定最准确的地址,因为有些地址不完整,有些地址不是最新的。这尤其挑战了关键业务部门,即营销部门,通过无法联系现有客户来宣传任何其他产品,从而在执行关键活动时获得商业价值。
对于这一举措,该保险机构采取了经济的方法,利用内部资源解决了这些数据质量问题。
结果
在没有任何MDM工具或主记录或任何与数据质量相关的特定技术的情况下,该保险机构使用内部开发来解决源系统中的这些特定问题。数据质量分析等数据质量功能被用来发现并解决这些问题。
“数据质量是主观的;必须有选择性地定位最重要的数据。当业务工具正确时,大多数问题都将得到解决,并实现最大价值。
第一阶段
定义组织的数据环境和业务环境
构建数据质量计划
数据质量是一种方法论,必须这样对待
全面的数据质量实践包括适当的业务需求收集、规划、治理和监督功能,以及为经过适当培训的员工提供授权技术和持续开发流程。
用于数据质量的适当数据管理方法的一些常见示例包括:
数据质量团队具有执行数据治理工作所需的能力和资源。
存在用于持续评估数据质量性能能力的流程。
改进策略旨在提高数据质量性能。
管理数据质量的政策和程序有很好的文档记录、沟通、遵循和更新。
制定用于修订策略和程序的更改控制,包括更新和更改的沟通。
自我审计技术用于在设计或重新校准策略时确保业务与IT的一致性。
有效的数据质量实践与其他总体数据学科、相关数据实践和战略业务目标相协调。
数据质量可以通过四个关键质量指标来定义
与使用石蕊测试测量物质的酸度类似,可以使用简单的指示来测量数据的质量。在以下是数据质量问题的常见根本原因时,请考虑以下四个质量指标来评估数据质量:
完整性–接近正确值。包括准确性、一致性和与其他数据库的可比性。
可用性–数据满足当前用户需求的程度。若要衡量这一点,您必须确定用户是否对他们用于完成其业务功能的数据感到满意。
及时性–从数据的创建和可用性之间的时间长度。
可访问性–用户访问和理解数据(包括数据定义和上下文)的难易程度。可解释性也可用于描述该指标。
关键洞察
质量是一个相对术语。数据质量是根据容差来衡量的。完美的数据质量既是不可能的,也是浪费时间和精力。
如何为数据质量计划获得投资
请按照以下步骤让领导层相信数据质量的价值:
“你必须与人平起平坐,你不能只是开始用数据语言交谈,并期望他们理解另一种语言是金钱和数字。”
执行此蓝图第1阶段,因为这将为执行以下步骤提供价值。
建立信誉。向他们展示对数据的理解以及它如何与业务保持一致。
提供切实的证据,说明低质量数据如何影响重要业务用例。
展示修复优先考虑的数据质量问题的投资回报率。
解释如何建立、实施和维持数据质量计划。
证明从源头解决数据质量问题的重要性,以及它如何成为最高效、最有效且最经济实惠的解决方案。
第一阶段可交付成果
其中每个可交付结果都用作输入,以检测有关组织的关键结果并帮助完成此蓝图:
1.数据文化诊断
使用此报表可了解组织在与数据文化相关的领域中所处的位置。
虽然报告中的质量与信任领域可能是这个蓝图中最普遍的,但这个诊断可能会指出其他需要更多关注的领域。
2.业务能力图模板
执行此过程以了解启用特定价值流的功能。此可交付结果的输出是组织定义的业务功能的高级视图。
3.数据质量诊断
数据质量报告旨在帮助您了解、评估和改进关键组织数据质量问题。这是组织中各个领域的受访者可以跨各个维度评估数据质量的地方。
数据质量诊断价值
使用数据质量维度确定业务用例的优先级。
为每个主要业务用例完成此诊断。数据区域性诊断和业务功能图的输出应有助于了解要解决的用例。
让参与业务用例的所有关键利益相关者参与进来。单个用例中可能涉及多个业务部门。
通过比较“重要性”和“置信度”数据质量维度的分数,确定最需要关注的数据质量业务用例的优先级。
如果存在被认为具有高重要性和低置信度的数据元素,则必须优先考虑它们。
记分卡示例
由于多种根本原因导致数据质量差
了解高质量数据的属性后,请了解这些指标可能指向数据质量差的根本原因。
如果注意到组织数据的可用性、完整性、及时性或可访问性受到影响,则以下一个或多个根本原因可能会困扰您的数据:
通过五层数据架构了解数据质量差的常见根本原因:
这些数据质量差的根本原因很难避免,不仅因为它们通常是在组织的开始阶段产生的,还因为变革可能很困难。这意味着根本原因通常通过陈旧或过时的业务流程传播。
数据质量问题根本原因#1:系统或应用程序设计不佳
应用程序设计在组织数据的质量中起着最大的作用之一。应用程序的正确设计可以防止数据质量问题,这些问题可能会滚雪球般地演变成下游更大的问题。
正确的摄入是关键的90%。一盎司的预防胜过一磅的治疗。在许多不同的主题中都是如此,数据质量就是其中之一。设计应用程序以便内部员工或外部客户正确输入数据是防止数据质量问题的最有效方法。
应用程序/系统级别数据质量问题的一些常见原因包括:
打开字段过多(接受各种输入的自由格式文本字段)。
不存在查找功能。应查找而不是输入参考数据。
未定义必填字段,导致字段为空。
在写入基础数据库之前不验证数据条目。
手动数据输入会导致人为错误。糟糕的应用程序设计可能会加剧这种情况,这些设计会导致不正确的数据输入。
数据质量问题根本原因#2:糟糕的数据库设计
数据库设计也会影响数据质量。数据库的设计方式(包括架构和密钥标识)可能会影响用于报告和分析的数据的完整性。
最常见的数据库类型是关系数据库。因此,我们将重点介绍这种类型的数据库。
在使用和设计关系数据库时,必须考虑一些重要的概念。
参照完整性是一个对关系数据库架构的设计很重要的术语,它指示表关系必须始终保持一致。
为了使表关系保持一致,主键(每行的唯一值)必须唯一标识表列中的实体。外键(在第二个表中定义但引用第一个表中的主键的字段)必须与外键引用的主键一致。若要维护引用完整性,必须将任何更新反馈到主键。
关键洞察
其他类型的数据库(包括具有非结构化数据的数据库)需要考虑数据质量。但是,非结构化数据可能具有不同级别的质量容差。
在数据库级别,一些常见的根本原因包括:
缺乏参照完整性。
缺少唯一键。
没有受限的数据范围。
数据类型不正确,字符串字段可以容纳太多字符。
孤立记录。
数据库和人员:
尽管数据库设计是一个技术问题,但不要忘记人。
缺乏对员工进行数据库权限培训,以将数据更新/输入到物理数据库中是数据质量的常见问题。
数据质量问题根本原因#3:企业数据的集成和同步不当
数据引入是另一类数据质量问题的根本原因。在第2层移动数据时,无论是通过ETL、ESB、点对点集成等,都需要保持数据在移动和/或转换过程中的完整性。
第2层(数据引入层)用于出于以下两个主要目的之一移动数据:
将数据从原始系统移动到下游系统以支持集成的业务流程。
将数据移动到数据所在的第3层,用于其他目的。这种最纯粹形式的数据移动意味着我们将原始数据移动到整个数据仓库环境中的存储位置,以反映我们选择如何存储时的任何安全性、合规性和其他标准。此外,它是出于独特业务目的转换数据的地方,这些数据也将移动到休息地点或特定使用的地方。数据清理和匹配以及其他与数据相关的混合任务在此层发生。
这可确保数据在整个过程中保持原始状态,并提高结果的可信度和完成任务的速度。
在集成层,数据质量问题的一些常见根本原因包括:
无数据掩码。例如,邮政编码应具有五个数字字符的掩码。
有问题的聚合、转换过程或不正确的逻辑。
集成环境中的数据刷新过程不同步。
缺少数据匹配工具。
缺乏数据质量工具。
没有数据探查功能。
数据转换或迁移过程中的错误-在迁移、停用或转换系统时-数据集的移动。
数据源和目标之间的数据映射不正确。
数据质量问题根本原因#4:数据质量政策和程序不充分和无效
数据政策和程序对于围绕数据建立标准是必要的,并且代表了另一类数据质量问题的根本原因。此问题涵盖所有五个5层体系结构。
数据策略是旨在管理数据的创建、获取、完整性、安全性、合规性和质量的简短声明。这些策略因组织而异,具体取决于您的特定数据需求。
策略描述做什么,而标准和程序描述如何做某事。
数据政策应该很少,而且应该简短直接。策略是动态文档,应不断更新以响应组织的数据需求。
数据策略应强调在各种场景下谁负责数据,以及如何有效管理数据的规则。
与策略和程序相关的数据质量问题的一些常见根本原因包括:
策略不存在或已过期。
员工基本上不了解有效的政策。
策略不受监控和实施。
策略位于多个位置。
存在同一策略的多个版本。
策略在不同的孤岛中管理不一致。
未经培训的作者写的政策写得很差。
政策培训计划不足。
政策草案停滞不前,失去动力。
高级管理层的政策支持薄弱。
数据质量问题根本原因#5:低效或无效的业务流程
与业务流程相关的数据质量问题的一些常见根本原因包括:
同一记录的多个条目会导致数据库中重复记录激增。
数据的许多业务定义。
呈现数据时未能记录数据操作。
未能培训人们如何理解数据。
手动密集型流程可能会导致重复工作。
没有明确划分部门内部或部门之间的业务流程依赖关系,这导致了业务流程的孤立方法,而不是协调和一致的方法。
业务流程可能会影响数据质量。如何将数据输入系统,以及员工培训和有关正确数据定义的知识,可能会影响组织数据的质量。
这些有问题的业务流程根本原因可能导致:
重复记录
数据不完整
数据使用不当
字段中输入的数据错误
这些数据质量问题将导致成本高昂且效率低下的手动修复,浪费宝贵的时间和资源。
第一阶段小结
1.数据质量理解
了解数据质量是一种方法论,应如此对待。
数据质量可以通过四个关键指标来定义,即完整性、可用性、及时性和可访问性。
介绍了如何为数据质量计划获得投资,并展示其对领导层的价值。
2.阶段可交付成果
完成数据文化诊断和业务能力图模板,因为它们是了解数据文化和业务能力的基础,以开始数据质量改进之旅。
在为每个主要业务用例完成数据质量诊断时,让关键相关利益相关者参与进来。使用重要性和置信度维度来帮助确定要解决的用例的优先级。
3.常见根本原因
解决了在整个数据流中可能出现多个根本原因的问题。
分析了数据质量的以下常见根本原因:
系统或应用程序设计不佳
糟糕的数据库设计
企业数据的集成和同步不当
数据质量政策和程序不充分和无效
低效或无效的业务流程
第二阶段
分析数据质量修复的优先级
构建数据质量计划
业务环境和数据质量
在业务部门级别建立数据质量改进项目的业务上下文,以找到共同目标。
为了确保数据改进策略由业务驱动,通过了解业务上下文来开始数据质量项目评估。然后,确定哪些业务部门使用数据,并创建路线图,以确定业务部门进行数据质量修复的优先级。
业务环境由企业业务愿景、使命、目标和目的、差异化因素和驱动因素表示。总的来说,它们提供了有关对组织重要内容的基本信息,以及有关如何实现这一目标的一些提示。在此步骤中,收集有关业务视图的重要信息,并解释业务视图以建立数据视图。
企业愿景
业务目标
业务驱动因素
业务差异化因素
并非每个业务部门都以相同的程度使用数据
数据流图可以通过组织采用主动方法提高数据质量来提供价值。通过了解入口点的位置以及查找数据缺陷的位置来节省时间。
了解数据的位置可能具有挑战性,因为它通常是动态的,很少驻留在一个地方。花时间创建数据流图有很多好处。
绘制数据流有助于明确数据的位置以及数据在企业系统中的移动方式。
了解数据移动的位置和时间有助于了解谁在使用数据以及数据在不同点是如何操纵的。
数据流图将引出如何在不同的用例中使用数据。
业务用例→由→业务部门使用→托管→系统→用于→数据的使用
并非每个业务部门都需要相同的数据质量标准
若要确定业务部门数据质量改进项目的优先级,必须分析它们使用的数据对业务的相对重要性。数据对业务越重要,修复该数据的优先级就越高。确定数据重要性有两种度量:业务价值和业务影响。
数据的业务价值
可以通过考虑数据与组织创收的联系以及如何将其用于组织的生产力和运营来评估数据的商业价值。
通过询问如果数据不可用(例如,由于质量差)会发生什么情况来评估数据的商业价值:
收入损失
生产力损失
运营成本增加
数据的业务影响
数据的业务影响应考虑不良数据对内部和外部各方的影响。
通过询问错误数据对以下参数的影响来评估数据的业务影响:
对客户的影响
对内部员工的影响
对业务合作伙伴的影响
价值+影响=数据优先级得分
通过完成数据质量问题陈述模板,确保项目以正确的方式开始
在确定解决方案之前,必须确定业务部门数据的问题。
在阐明问题之前,它有助于确定问题的症状。以下W将帮助您描述数据质量问题的症状:
什么
定义业务部门中数据质量差产生的症状和感受。
哪里
定义导致数据质量问题的数据的位置。
什么时候
定义数据质量问题的频率和持续时间的严重程度。
谁
定义谁受数据质量问题的影响以及谁处理数据。
最佳实践
症状与问题。通常,人们会确定问题的症状列表,并将这些问题误认为是问题。识别症状有助于定义问题,但症状无助于确定解决方案。问题陈述可帮助创建解决方案。
定义项目问题以阐明目的
输入
业务部门数据质量问题的症状
输出
优化的问题描述
材料
数据质量问题陈述模板
参与者
数据质量改进项目团队
业务线代表
定义的问题可以帮助创建明确的目标,并引导确定问题的解决方案。
问题陈述由一两句话组成,总结了质量改进团队要解决的条件或问题。因此,为了使改进团队解决问题,问题陈述必须具体而简洁。
示例
将数据质量改进项目团队聚集在一个房间中,并从被认为与数据质量相关的问题开始。
问问今天这种现实的属性和症状是什么;对受问题影响的人执行此操作。这应该是IT和业务协作。
得出结论:团队了解到了什么?
考虑结论的影响以及必须考虑的其他注意事项,例如法规需求、合规性、策略和目标。
制定解决方案–将问题控制在可以在现实时间范围内解决的内容,例如三个月。
案例研究
植根于业务需求的战略路线图为成功制定数据质量改进计划奠定了基础。
作为转向正式数据质量实践的一部分,MathWorks利用了一种渐进式方法,该方法花时间调查业务案例以支持改进措施。以路线图的形式建立切合实际的改进目标是获得行政批准以推动项目向前发展的核心组成部分。
路线图创建
在构建包含业务流程和数据分析结果的综合路线图时,MathWorks选择记录五年和三年的总体目标,其中一年目标支持每个目标。这种方法确保所采取的战术行动以长期战略目标为指导。
结果–业务一致性
在提交其路线图以供高管批准时,MathWorks强调以吸引业务用户的方式传达其计划的进展和影响。他们专注于与业务利益相关者保持持续的沟通渠道,以展示计划的价值,并逐步将企业文化转变为投资于有效的数据质量实践的文化。
“不要一有机会就跳起来,因为你可能会在需要消防车的地方用一杯水灭火。”
使用实践评估和项目规划工具制定提高数据质量的策略
评估IT在数据质量方面的能力和能力,并计划随着组织的数据质量实践的发展而构建这些能力和能力。在修复数据质量之前,请确保具有正确修复数据质量所需的技能和能力。
以下IT功能是持续开发的,对于标准化和构建数据质量实践是必需的:
满足业务需求
服务与项目
政策、程序和标准
角色和组织结构
监督和沟通
不同数据类型的数据质量
数据处理和补救能力:
数据标准化:根据行业标准和业务规则将值格式化为一致的标准。
数据清理:修改值以满足域限制、完整性约束或其他业务规则,以便为组织提供足够的数据质量。
数据匹配:识别、链接和合并数据集中或跨数据集的相关条目。
数据验证:检查数据的正确性。
在针对当前和所需的目标状态评估了这些功能和能力后,数据质量实践评估和项目规划工具将建议应遵循的改进操作,以便构建数据质量实践。此外,在设定目标日期后,将生成路线图,以创建您的数据质量实践发展战略。
对当前进行基准测试并确定目标数据质量实践的功能
输入
组织中当前和所需的数据质量实践
输出
评估数据质量实践中的差距所在
材料
数据质量实践评估和项目规划工具
参与者
数据质量项目负责人
业务线代表
业务架构师
使用数据质量实践评估和项目规划工具,根据如何处理和执行数据质量来评估实践的基线和目标能力。
关键洞察
专注于早期对齐。评估特定人员的工作职能内的能力自然会导致分歧或辩论,尤其是在业务和IT人员之间。提醒每个人,数据质量最终应尽可能满足业务需求。
可视化可提高对数据质量实践中存在差距的整体理解
为了对实践评估的结果进行更深入的分析,可创建每个实践能力和相关数据管理实践中发现的差距的可视化效果。这些图表用作分析摘要。
“满足业务需求”能力的差距评估
差距评估的可视化数据质量实践能力
通过对关键实践能力领域的总差距进行相对比较来增强您的差距分析,这将有助于确定优先事项。
展示这些内容,以改善差距分析和优先次序会议中的讨论。
通过复制和粘贴差距评估图,提高策略模板、最终演示文稿和摘要文档的清晰度和流程。
在参与数据质量改进项目计划之前,请收到IT部门关于可行性的签核
最后一块是获得IT的签核。
霍夫施塔特定律:它总是比你预期的要长,即使你考虑到霍夫施塔特定律。
这意味着,在让IT参与数据质量项目以修复第二阶段的业务部门数据之前,IT必须评估数据质量改进计划的可行性。可行性分析通常用于审查项目的优势和劣势,以及完成项目所需的技能和技术的可用性。使用以下工作流指导执行可行性分析:
项目评估流程:
当前能力
运营能力
系统能力
计划功能
对项目计划的建议/修改
评价结果摘要
最佳实践
当PMO确定和协调项目时,IT必须确定项目的时间和数量。
进行差距分析会议,以审查能力差距并确定其优先级
输入
当前和目标状态评估
输出
记录在案的举措,帮助您达到目标状态
材料
数据质量实践评估和项目规划工具
参与者
数据质量团队
信息技术代表
案例
分析差距分析结果–作为一个小组,讨论数据质量实践分数的结果。讨论已查明差距的影响。
对每个评估能力的当前水平和目标水平之间的差距进行行项目审查。
头脑风暴调整策略–集思广益,支持实践将其能力建设到所需的目标水平所需的努力和活动。提出以下问题:
必须执行哪些活动才能启用此功能?
必须对资源、流程、技术、业务参与和通信进行哪些更改/添加?
记录数据质量计划–将活动转变为计划。数据质量实践路线图。查看计划并估计每个计划的开始和结束日期。
继续评估评估结果,以便创建一套全面的数据质量计划,以支持您构建能力的实践。
创建组织的数据质量改进战略路线图
输入
数据质量实践差距和改进措施
输出
数据质量实践改进路线图
材料
数据质量实践评估和项目规划工具
参与者
数据质量项目负责人
企业高管
IT主管
业务架构师
生成路线图
在数据质量实践评估和项目规划工具中规划每个计划的顺序、开始时间和长度。
该工具将根据计划的开始和长度生成甘特图。
建立基线指标
将通过以下方式改进基线指标:
创建实践级指标来监控数据质量实践。
示例:
为业务和IT建立指标,以确定数据质量实践开发是否有效。
为每个指标设置目标。
收集当前数据以计算指标并建立基线。
分配一个所有者来跟踪每个指标,以对性能负责。
度量 | 当前 | 目标 |
使用情况(使用数据仓库的经过培训的用户的百分比) | ||
性能(响应时间) | ||
性能(响应时间) | ||
资源利用率(内存使用情况、计算机周期数) | ||
用户满意度(季度用户调查) | ||
数据质量(超出有效值的%值、缺少的字段百分比、数据类型错误、超出可接受范围的数据、违反业务规则的数据。数据质量的某些方面可以自动跟踪和报告) | ||
成本(初始安装和持续安装,总拥有成本,包括服务器、软件许可证、支持人员) | ||
安全性(检测到安全违规、违规来源、违规行为) | ||
使用的模式 | ||
缩短数据上市时间 | ||
可用数据的完整性 | ||
正在使用多少个“标准”数据模型 | ||
数据治理计划的额外业务价值是什么? | ||
BI和分析团队在数据准备上花费了多少时间? |
第二阶段小结
当改进数据质量实践并从被动转向稳定时,不要休息并假设可以让数据质量自行运行。快速变化的消费者需求或其他痛苦将赶上您的组织,您将再次落后。通过转向成熟度度的主动和预测,可以保持领先地位。通过遵循阶段一中列出的方法,组织的数据质量实践将随着时间的推移而改进,从而产生以下结果:
无能力
数据质量实践改进之前
数据质量没有标准
响应级
第1年
定义的流程
数据质量的数据清理方法
稳定级
第2年
业务规则/管理到位
教育与培训
积极级
第3年
数据质量实践完全到位并嵌入文化中
值得信赖的智能企业
(全球卓越数据、卓越数据成熟度模型)
第三阶段
建立组织的数据质量计划
构建数据质量计划
创建数据血缘关系图以映射数据旅程并确定要修复的数据主题区域
了解业务部门中存在的各种数据以及哪些数据对业务功能至关重要并且需要最高程度的质量工作非常重要。
可视化数据库和数据流。数据沿袭图可以帮助数据质量改进团队可视化数据问题所在。牢记五层体系结构,构建数据沿袭图。
提醒:五层架构
使用以下图标来表示各种数据系统和数据库。
使用数据沿袭图记录业务部门使用的数据源和应用程序
输入
业务部门使用的数据源和应用程序
输出
数据沿袭图
材料
数据沿袭图模板
参与者
业务部门主管/数据所有者
中小企业业务单元
数据分析师/架构师
通过创建系统上下文图来映射业务部门内的数据流和位置。
准确了解数据位置和使用情况:通过广泛的知识相关业务流程以及相关业务运营对数据的使用,吸引业务用户和代表参与进来。
与业务部门的主要业务代表坐下来。
记录数据源及其参与的流程,并让IT确认数据源正确无误。
在系统上下文图中映射源和进程。
数据沿袭图示例
利用数据质量实践评估和项目规划工具记录业务环境
输入
业务愿景、目标和驱动因素
输出
数据质量改进项目的业务上下文
材料
数据质量实践评估和项目规划工具
参与者
数据质量项目负责人
业务线代表
IT主管
制定目标并将其与特定目标保持一致,为数据质量计划设置框架。
在实现业务愿景、使命、目标和目的以及维持差异化因素和关键驱动因素的背景下,请考虑数据质量在何处以及如何成为障碍。然后集思广益,制定映射到这些障碍的数据质量改进目标。确定数据质量实践评估和项目规划工具的业务部门的优先级。
建立业务上下文示例 医疗保健行业 | |
使命 | 通过提高所有成员的数据质量和数据收集、聚合和可访问性,改善会员服务并使服务提供商体验更有效。 |
目标 | 建立有意义的指标,指导改善医疗保健,以提高医疗保健提供者的成员有效性:
|
驱动 | 通过提供准确、可信、及时且易于理解的数据,将服务消费者与遵守既定法规的服务提供商联系起来,以连接服务提供商并消除官僚主义并节省金钱和时间。 |
关键驱动因素 | 为会员无缝提供医疗保健。 |
记录已识别的业务部门及其关联数据
输入
业务部门
输出
记录业务部门以开始确定优先级
材料
数据质量实践评估和项目规划工具
参与者
项目管理人
案例
使用数据质量实践评估和项目规划工具确定业务部门的优先级,记录在组织中使用数据的业务部门。这可能是组织中的所有业务部门。
接下来,记录这些业务部门使用的主要数据。
然后,这些输入将用于评估业务部门的优先级,以生成数据质量改进项目路线图。
提醒–并非每个业务部门都需要相同的数据质量标准
若要确定业务部门数据质量改进项目的优先级,必须分析它们使用的数据对业务的相对重要性。数据对业务越重要,修复该数据的优先级就越高。确定数据重要性有两种度量:业务价值和业务影响。
数据的商业价值
可以通过考虑数据与组织创收的联系以及如何将其用于组织的生产力和运营来评估数据的商业价值。
通过询问如果数据不可用(例如,由于质量差)会发生什么情况来评估数据的商业价值:
收入损失
生产力损失
运营成本增加
数据的业务影响
数据的业务影响应考虑不良数据对内部和外部各方的影响。通过询问错误数据对以下参数的影响来评估数据的业务影响:
对客户的影响
对内部员工的影响
对业务合作伙伴的影响
价值+影响=数据优先级得分
评估业务部门优先级顺序以改进数据质量
输入
评估业务部门数据的价值和影响
输出
数据质量改进项目的优先级列表
材料
数据质量实践评估和项目规划工具
参与者
项目管理人
数据所有者
案例
说明:确定数据质量实践评估和项目规划工具的业务部门优先级中,评估每个记录的业务部门内数据的业务价值和业务影响。
使用评级“高”、“中”和“低”来衡量每个业务部门数据的财务、生产力和效率价值和影响。
除了这些评级之外,还要评估提交给IT的有关数据质量问题的技术支持的数量。此参数指示业务部门的数据对于数据质量修复具有高优先级。
为数据质量改进项目创建业务部门订单路线图
输入
每个业务部门数据重要性评级
输出
数据质量改进项目路线图
材料
数据质量实践评估和项目规划工具
参与者
项目管理人
产品经理
业务线代表
案例
在评估业务部门数据的业务价值和业务影响后,数据质量实践评估和项目规划工具根据评级评估业务部门的优先级。然后,这些优先级汇总形成数据质量项目路线图的路线图中。以下是项目路线图的示例:
确定业务部门级别的指标以跟踪数据质量改进
在提高特定业务部门的数据质量时,衡量数据质量改进的好处将帮助您展示项目对业务的价值。
使用下表指导创建与业务一致的指标:
事业部 | 驱动因素 | 指标 | 目标 |
销售 | 客户亲密度 | 客户数据的准确性。缺失或不完整记录的百分比。 | 客户记录错误减少10%。 |
营销 | 客户亲密度 | 客户数据的准确性。缺失或不完整记录的百分比。 | 客户记录错误减少10%。 |
金融 | 卓越运营 | 财务报告的相关性。 | 减少报告不准确投诉。 |
人力资源 | 风险管理 | 员工数据的准确性。 | 员工记录错误减少10%。 |
航运 | 卓越运营 | 发票数据的及时性。 | 报告时间缩短10%。 |
关键洞察
将数据治理成功指标与整体业务优势相关联,使执行管理层和执行发起人保持参与,因为他们看到了可操作的结果。与负责的数据所有者/监管员、数据治理指导委员会和执行发起人一起持续审查指标。
案例研究
通过正确的方法解决数据质量问题,最大限度地提高投资回报率
EDC
行业:政府
挑战
加拿大环境发展部(EDC)最初将纯粹根据其业务直觉确定对业务重要的数据元素。
领导层试图通过将一组不同的工具引入组织来解决企业的数据问题。
它没有成功,因为基本的基础层,即数据和基础设施,是不正确的——他们没有启用这些工具的基础能力。
协作
领导层听取了由一个团队负责数据持久性的需求。
因此,数据平台团队被授予在整个企业中广泛执行数据质量计划的任务。
在数据与分析COE下成立了一个数据质量团队。他们的任务是分析数据并了解需要达到什么数据质量。他们不断与业务部门合作,制定数据质量规则。
结果
EDC通过最初与业务利益相关者一起执行数据质量管理评估来解决其数据质量问题的根源。
从那时起,EDC能够建立他们的数据质量计划,并开展其他关键举措,以证明数据质量的投资回报率。
从优先级最高的业务部门开始数据质量改进项目
现在,已经有了数据质量改进项目的优先级列表,请确定优先级最高的业务部门。这是将在第3阶段一起解决其数据质量问题的业务部门。
为第一个业务部门启动并确定解决方案后,请解决优先级列表中的下一个业务部门的数据质量问题。
创建并记录数据质量改进团队
输入
符合数据质量改进计划团队角色的个人
输出
项目团队
材料
数据质量改进计划模板
参与者
数据所有者
项目管理人
产品经理
数据质量改进计划是应为每个数据质量项目(即每个业务部门)创建的简明文档,以跟踪项目。
案例
与为数据质量改进项目确定的业务部门的数据所有者会面。
确定适合数据质量改进计划团队角色的人员。
使用数据质量改进计划模板记录适合这些角色的角色和个人。
与改进团队举行介绍性会议,以明确项目的角色和职责。
团队角色 | 分配给 |
数据所有者 | [名称] |
项目管理人 | [名称] |
业务分析师/BRM | [名称] |
数据管家 | [名称] |
数据分析师 | [名称] |
记录数据质量改进计划的业务上下文
输入
项目团队
标识的数据属性
输出
数据质量改进计划的业务上下文
材料
数据质量改进计划模板
参与者
数据所有者
项目赞助商
产品负责人
数据质量计划必须与业务相关,并且业务上下文将用于为数据改进策略提供输入。然后,可以使用上下文来确定数据质量问题的根本原因的确切位置,这将为您的解决方案提供信息。
案例
数据质量改进计划的业务上下文包括记录以前的活动:
数据质量改进团队。
数据沿袭图。
数据质量问题陈述。
最佳实践
虽然许多组织采用数据质量原则,但并非所有组织都以相同的术语表达它们。在组织内拥有多个视角,制定适合组织独特的数据质量议程的原则。任何有兴趣解决他们面临的日常数据质量问题的人都有助于围绕项目创建上下文。
现在已经定义了问题,重新审视数据质量差的根本原因
明确了被选为最高优先级的业务部门中存在的数据质量问题。现在是时候弄清楚是什么导致了这些问题。
在下表中,将找到数据质量问题的一些常见原因类别,以及一些特定的根本原因。
类别 | 描述 |
1.系统/应用设计 | 无效、不充分甚至不正确的系统/应用程序设计接受源应用程序和数据库不正确和缺失的数据元素。这些源系统中的数据记录可能会传播到2层体系结构的第3、4、5和5层系统中,从而产生多米诺骨牌和连锁反应。 |
2.数据库设计 | 数据库的创建和建模方式不正确,因此数据记录的管理不正确,从而导致重复和孤立的记录,以及缺少数据元素的记录或包含不正确数据元素的记录。数据库中较差的操作数据通常会导致第2、3、4和5层出现问题。 |
3.企业集成 | 数据或信息在第2层中未正确集成、转换、屏蔽和聚合。此外,某些数据集成任务可能不及时,导致数据过时甚至与其他数据相矛盾。企业集成是加载数据仓库和数据集市的前奏。此层中的问题会影响3层体系结构上的第4、5和5层。 |
4.政策和程序 | 政策和程序没有有效地用于加强数据质量。在某些情况下,发现了政策差距。在其他情况下,策略是重叠和重复的。策略也可能过时或过于复杂,影响用户解释策略目标的能力。策略会影响5层体系结构中的所有层。 |
5.业务流程 | 不正确的业务流程设计将不良数据引入数据系统。未能围绕批准数据更改创建流程,未能记录关键数据元素以及未能培训员工正确使用数据,使数据质量成为一个紧迫的问题。 |
利用根本原因分析方法查明数据问题的根源
根本原因分析是一种将问题分解为其组件的系统方法。使用鱼骨图帮助揭示数据问题的根本原因。
建议使用五个根本原因类别来评估数据质量问题:
应用程序设计。问题是否由应用程序级别的人为错误引起?考虑内部员工、外部合作伙伴/供应商和客户。
数据库设计。问题是否由特定数据库引起,并源于其设计中的不足?
集成。数据集成工具可能未得到充分利用,或者数据匹配规则可能设计不佳。
政策和程序。这些问题是由于缺乏治理而发生的吗?
业务流程。问题是否由于流程不足而发生?
例如:
在对与业务部门数据的准确性相关的数据问题执行更深入的分析时,将通过评估五类数据质量问题根本原因中每类的贡献来执行根本原因分析:
利用数据分析技术的组合来识别和量化根本原因
关键洞察
在数据探查活动中包括关键主题区域的所有属性可能会产生太多信息而无法理解。主要在表级别执行数据分析,并且仅当能够充分缩小范围时才进行属性分析。
数据分析工具
数据分析提取目标数据集的样本,并通过多个级别的分析运行它。最终结果是有关各种数据质量标准(重复数据、不完整数据、陈旧数据等)的详细统计数据报告。
许多数据分析工具都有内置的模板和报告来帮助您发现数据问题。此外,它们还量化了数据问题的发生。
电子发现工具
这是对分析工具的补充。例如,使用BI工具创建所有无效状态(例如“CAL”、“AZN”等)的自定义分组,并可视化无效状态与所有状态相比的百分比。
SQL查询
这是对分析工具的补充。例如,使用SQL语句按客户细分对客户数据进行分组,然后按状态对客户数据进行分组,以确定哪些段-状态组合包含不良数据。
确定正在考虑的特定业务部门的数据问题
输入
业务部门感受到的数据质量问题
数据沿袭图
输出
分类数据质量问题
材料
白板、记号笔、便笺
数据质量改进计划模板
参与者
数据质量提升项目组
业务线代表
示例
将数据质量改进项目团队聚集在一个房间里,以及便笺和白板。
在白板上显示以前创建的数据沿袭图。
使用颜色编码的便笺,将问题附加到团队成员可以识别的数据沿袭图的每个组件。对四个质量属性使用不同的颜色:完整性、可用性、及时性和可访问性。
例:
在鱼骨图上绘制数据问题,以确定根本原因
输入
分类数据质量问题
输出
完整的鱼骨图
材料
白板、记号笔、便笺
数据质量改进计划模板
参与者
数据质量提升项目组
现在,根据数据质量属性对数据质量问题进行分类,请将这些问题映射到四个鱼骨图上。
了解背后的根本原因系统/应用程序设计错误
次优系统/应用程序设计为不良数据提供了入口点。
业务流程 | |||||
通常见于→ | 第1层 | 第2层 | 第3层 | 第4层 | 第5层 |
问题 | 根源 | 可用性 | 完整性 | 及时 | 可及性 |
数据掩码不足 | 没有为用户界面中的自由格式文本字段定义数据掩码。例如,北美电话号码应有4个掩码——国家代码(1位)、区号(3位)和本地号码(7位)。 | X | X | ||
自由格式文本字段过多 | 错误地使用自由格式文本字段(接受各种输入的字段)。例如,使用自由格式的文本字段作为邮政编码,而不是后端查找。 | X | X | ||
缺乏值查找 | 不会从引用列表中查找引用数据。例如,输入状态缩写,而不是从标准状态列表中查找。 | X | X | ||
缺少必填字段定义 | 必填字段未被识别和强化。包含许多缺失数据元素的结果数据记录。例如,某些用户可能会在具有2个非必填字段的UI中填写3或20个字段。 | X |
了解常见数据库设计错误背后的根本原因
不正确的数据库设计允许存储和传播不正确的数据。
业务流程 | |||||
通常见于→ | 第1层 | 第2层 | 第3层 | 第4层 | 第5层 |
问题 | 根源 | 可用性 | 完整性 | 及时 | 可及性 |
不正确的参照完整性 | 引用完整性约束不存在或未正确实现,导致子记录没有父记录,或者以级联方式更新或删除相关记录。例如,在创建发票之前创建发票行项目。 | X | X | ||
缺少唯一键 | 缺少唯一键会导致无法保证记录唯一性的场景。例如,具有相同customer_ID的客户记录。 | X | X | ||
数据范围 | 无法为传入数据定义数据范围,导致数据值超出范围。例如,年龄字段能够存储999岁。 | X | X | ||
数据类型不正确 | 使用不正确的数据类型来存储数据字段。例如,字符串字段用于存储邮政编码。一些用户使用它来存储电话号码、生日等。 | X | X |
了解集成错误背后的根本原因
不正确的数据集成或同步可能会导致分析数据不佳。
业务流程 | |||||
通常见于→ | 第1层 | 第2层 | 第3层 | 第4层 | 第5层 |
问题 | 根源 | 可用性 | 完整性 | 及时 | 可及性 |
转换不正确 | 转换不正确。可能使用了错误的公式,转换以错误的数据粒度完成,或者聚合逻辑不正确。例如,聚合是针对所有客户完成的,而不仅仅是活跃客户。 | X | X | ||
数据刷新不同步 | 数据以不同的时间间隔同步,导致数据域不同步的数据仓库。例如,客户交易被刷新以反映最新活动,但帐户余额尚未刷新。 | X | X | ||
数据匹配不正确 | 无法匹配来自不同系统的记录,从而导致重复和不匹配的记录。例如,无法匹配来自不同系统的客户,因为他们有不同的cust_ID。 | X | X | ||
数据映射不正确 | 源系统中的字段未与数据仓库字段正确匹配。例如,来自不同系统的状态字段混合到一个字段中。 | X | X |
了解背后的根本原因政策和程序错误
次优政策和程序损害了最佳做法的效果。
业务流程 | |||||
通常见于→ | 第1层 | 第2层 | 第3层 | 第4层 | 第5层 |
问题 | 根源 | 可用性 | 完整性 | 及时 | 可及性 |
政策差距 | 在缺少一些关键政策或未更新以反映最新变化的政策方面,政策格局存在差距。例如,缺少数据输入策略,导致数据输入做法不一致。 | X | X | ||
政策沟通 | 政策已到位,但政策未有效传达给组织,导致对政策的误解和政策的执行不足。例如,创建了数据标准,但很少有开发人员意识到它的存在。 | X | X | ||
策略实施 | 政策已经到位,但没有主动重新执行,这导致政策和政策采用不一致。例如,由于缺乏强化,政策采用率随着时间的推移而下降。 | X | X | ||
保单质量 | 策略由未经培训的作者编写,他们不传达消息。例如,非技术数据用户可能会发现加载了技术术语的策略令人困惑。 | X | X |
了解背后的根本原因常见的业务流程错误
低效和低效的业务流程为不良数据创造了入口点。
业务流程 | |||||
通常见于→ | 第1层 | 第2层 | 第3层 | 第4层 | 第5层 |
问题 | 根源 | 可用性 | 完整性 | 及时 | 可及性 |
缺乏培训 | 关键数据人员和业务分析师没有接受过数据质量和数据治理方面的培训,导致缺乏问责制。例如,数据管理员不知道重复财务报表的下游影响。 | X | X | ||
无效的业务流程 | 同一条信息被输入数据系统两次或更多次。或者一段数据在数据系统中停滞太久。例如,多次扫描纸质表单以将数据提取到不同的数据系统中。 | X | X | ||
缺乏文件 | 未能记录关键业务流程的工作流程。缺乏工作流程会导致数据的使用欠佳。例如,由于未记录的业务逻辑,数据建模不正确。 | X | X | ||
业务孤岛之间缺乏集成 | 业务孤岛保留自己的数据集,导致数据孤岛,其中数据不共享和/或数据传输错误。例如,来自设备的数据被提取为数据文件并存储在共享驱动器中,几乎没有访问权限。 | X | X |
第三阶段小结
数据沿袭图
建议创建数据沿袭图,以帮助可视化数据流,映射数据旅程并确定要修复的数据主题区域。
在整个阶段中多次使用了数据沿袭图。例如,数据沿袭图用于记录业务部门使用的数据源和应用程序
业务环境
通过数据质量实践评估和项目规划工具记录了业务环境。
同一工具用于记录已识别的业务部门及其关联数据。
还在业务部门级别确定了指标,以跟踪数据质量改进。
常见根本原因
利用根本原因分析方法查明数据质量问题的根源。
分析并了解了以下背后的根本原因:
系统/应用程序设计错误
常见的数据库设计错误
企业集成错误
政策和程序错误
常见的业务流程错误
第四阶段
发展并维持数据质量计划
构建您的数据质量计划
对于已确定的根本原因,确定问题的解决方案
在完成上一步时,确定了业务部门内数据质量问题的根本原因。现在,是时候确定解决方案了。
所有数据质量解决方案都有两个组成部分:
技术
人
在设计解决方案时,请记住,数据质量问题的解决方案并不相互排斥。换句话说,已确定的根本原因可能有多种适用于它的解决方案。
例如,如果应用程序受到不准确数据的困扰,则应用程序设计可能不是最佳的,但导致输入数据的过程也可能需要修复。
数据质量改进策略#1:通过改进系统/应用程序设计来解决数据质量问题。
技术
应用界面设计
限制字段长度–仅捕获应用程序所需的字符。
利用数据掩码–在邮政编码和电话号码等标准化字段中使用数据掩码。
限制开放文本字段的使用并使用参考表–仅在需要时显示开放文本字段。使用引用表来限制数据值。
提供选项–使用单选按钮、下拉列表和多选,而不是使用打开的文本字段。
应用程序级别的数据验证
提交前验证数据–使用简单验证来确保输入的数据不是随机数字和字母。
跟踪历史记录–跟踪谁输入了哪些字段。
不能提交两次–只能提交一次设计。
人
培训
数据输入培训–与数据输入、创建或更新数据记录相关的培训。
数据解析培训–培训数据专员或其他专门的数据人员如何解决未正确输入的数据记录。
持续改进
标准–制定应用程序设计原则和标准。
现场测试–与少数人一起输入现场数据以查找异常和差异。
检测和解决–应尽快隔离和解决异常数据记录。
应用测试
全面测试–应用程序设计是抵御不良数据的第一道防线。测试以确保将错误数据排除在系统之外。
案例研究
HMS
行业:医疗保健
改进数据质量摄取过程,为用户提供更好的客户亲密度
医疗保健管理系统(HMS)为医疗保健赞助商和付款人提供成本控制服务,并协调福利服务。这是为了确保向政府机构和个人正确支付医疗保健索赔。为此,HMS依赖于数据,这些数据需要具有高质量,以确保做出正确的决策,正确的人获得正确的索赔,以及适当的各方支付。
为了提高HMS客户数据的完整性,HMS建立了一个框架,帮助标准化了大量和高可变数据的收集。
结果
HMS与数据质量平台供应商合作,建立了数据标准化框架,能够简化数据分析,并将新客户的实施时间从几个月减少到几周。
HMS数据受到数据摄取程序缺乏标准化的困扰。
在改进数据质量流程之前 | 改进数据质量流程后 |
数据摄取 | 数据摄取 |
许多摄入标准。 | 标准化数据摄取 |
数据存储 | 数据存储 |
缺乏匹配数据的能力,造成数据质量错误。 | |
数据分析 | 数据分析 |
= | = |
客户实施时间慢 | 客户实施时间缩短50% |
数据质量改进策略#2:使用正确的数据库设计修复数据质量问题。
技术
数据库设计最佳实践
引用完整性–确保在级联创建、更新和删除方面维护父/子关系。
主键定义–确保至少有一个键来保证数据记录的唯一性,并且主键不应允许null。
验证数据域–创建触发器以检查在数据库字段中输入的数据值。
字段类型和长度–定义最适合保存字段值的数据类型和长度。
一次性数据修复
探索解决方案–在哪里解决数据问题?是否有解决问题的案例?
运行分析工具以捕获错误–使用定义的条件对数据库运行扫描,以识别可疑数据的出现。
在修复所有记录之前修复样本–使用概念验证方法探索修复选项并在修复完整记录集之前评估影响。
人
DBA团队
成对执行关键任务–采用结对方法来执行关键任务,以便进行验证和交叉检查。
熟练的DBA–DBA应获得认证和认可。
能力–持续评估DBA能力。
准备–开发演练以刺激数据问题并培训DBA。
交叉培训–交叉培训团队成员,以便一个DBA可以覆盖另一个DBA。
数据质量改进策略#3:改进企业数据的集成和同步。
技术
集成架构
在进行转换时,最好先将集成结果保留在第3层,然后再在第4层中进一步细化和呈现数据。
时间、时间和时间–考虑事件的顺序。您可能需要先执行一些ETL任务,然后再执行其他任务,以实现同步和一致性。
历史变化–确保第3层足够强大,可以包含历史数据。需要缓慢启用类型2,更改维度以在某个时间点重新创建数据。
数据清理
标准化–利用数据标准化来标准化名称和地址字段,以改善匹配和集成。
模糊匹配–数据集之间没有公共键时。数据集只能通过模糊匹配进行匹配。模糊匹配不是硬科学;定义一个置信水平,并考虑一种处理不匹配的机制。
人
报告和文档
业务数据术语表和数据沿袭–定义业务数据术语表以增强关键数据元素的可查找性。记录数据映射和ETL逻辑。
创建数据质量报告–许多ETL平台提供预制数据质量报告。利用这些质量报告来监视数据运行状况。
代码审查
创建数据质量报告–许多ETL平台提供预制数据质量报告。利用这些质量报告来监视数据运行状况。
ARB(架构审查委员会)——所有ETL代码都应得到架构审查委员会的批准,以确保与整体集成策略保持一致。
数据质量改进策略#4:改进数据质量政策和程序。
技术
策略报告
数据质量报告–利用来自ETL平台的预制数据质量报告来持续监控数据质量。当发现异常时,请制定正确的政策来处理问题。
将策略存储在众所周知且易于查找和访问的中心位置。技术可以帮助传达政策的一个关键方法是将它们发布在一个集中的网站上。
使存储库可搜索且易于导航。
人
政策审查和培训
政策审查–制定定期审查政策的时间表–邀请专业作家以确保政策易于理解。
政策培训–政策经常未读和误读。对用户和利益干系人进行政策培训是确保这些用户和利益干系人了解政策基本原理的有效方法。最好包含一些由策略处理的方案。
政策热线/邮箱–为避免误解政策,应设立政策热线/信箱,以回答最终用户/利益相关者提出的任何数据政策问题。
政策沟通
简化沟通–创建方便的单页纸和信息图表海报,以传达政策的关键信息。
政策简报–每当启动新的数据项目时,都应提供数据策略简报,以确保项目团队从一开始就遵循政策。
数据质量改进策略#5:简化和优化业务流程。
技术
需求收集
数据沿袭–利用元数据管理工具构建和记录数据沿袭以供将来参考。
文档存储库–最佳实践是记录关键项目信息,并在项目团队和利益相关者之间共享该知识。对项目的深入了解有助于在项目早期识别数据质量问题。
人
需求收集
数据集可能存在,但业务部门没有有效的方式来传达质量需求。
我不知道数据意味着什么,所以我认为质量很差——看到正确的数据呈现给企业但企业不信任数据的情况并不少见。他们也不理解对数据执行的业务逻辑。
了解业务工作流–了解业务工作流以了解与工作流关联的手动步骤。您可能会发现输入、操作或使用数据不当的步骤。
集思广益解决数据质量问题
输入
数据分析结果
初步根本原因分析
输出
数据修复建议
已修复的问题
材料
数据质量改进计划模板
参与者
业务和数据分析师
数据专家和监管员
在演练完数据质量问题的最佳实践解决方案后,提出解决方案以解决已识别的问题。
示例
查看根本原因分析:重新访问您在步骤3.2中生成的根本原因分析和数据沿袭图。以更详细地了解问题。
表征每个问题:您可能需要生成数据分析报告来描述问题。可以使用数据质量套件、BI平台甚至SQL语句生成报告。
集思广益解决方案:作为一个小组,讨论解决问题的潜在方法。您可以通过以下方面来解决这些问题:
解决方案方法 |
技术方法 |
以人为本的方法 |
问题领域 |
应用/系统设计 |
数据库设计 |
数据集成和同步 |
政策和程序 |
业务流程 |
记录和沟通:记录数据问题的解决方案。您可能需要重用或参考解决方案。还要集思广益,就如何将结果传达给业务部门提出一些想法。
保持数据质量需要通过数据治理实践进行持续监督
质量数据是数据治理和数据质量管理的最终结果。数据治理通过为业务流程提供必要的监督和控制来实现数据质量,以保持数据质量。有三个主要组涉及成熟的治理实践。数据质量应与所有这些紧密集成。
数据治理委员会
该委员会建立了跨越整个组织的数据管理实践。这应该由高级管理层或最高管理层组成,他们可以代表组织内的各个部门和业务线。数据治理委员会可以帮助提升数据治理的价值,促进培养数据质量的文化,并确保数据治理计划的目标与业务目标保持一致。
数据所有者
确定组织内的数据所有者角色有助于为数据问题创建更大程度的责任。他们经常监督数据的生成方式以及消费方式。数据所有者来自业务方面,对数据集拥有合法权利和定义的控制权。他们确保数据可供组织内的适当人员使用。
数据管家
当数据管理员的角色与指导委员会的角色混淆时,组织的数据治理计划中可能会发生冲突。数据管家的存在是为了执行有关数据治理和数据管理的决策。数据管理员通常是特定系统/数据集的业务分析师或高级用户。数据所有者主要负责访问,数据专员负责数据集的质量。
将数据质量管理策略与现有数据治理委员会集成
持续和定期的数据质量管理是组织数据治理机构的责任。
对正在进行的数据质量活动的监督落在组织中存在的数据治理委员会的肩上。
没有放之四海而皆准的数据治理结构。但是,大多数组织在建立委员会、理事会和跨职能小组时都遵循类似的模式。他们努力在战略、战术和运营层面确定角色和责任:
创建和更新组织的业务数据术语表,以跟上当前数据定义
输入
数据质量指标和目标
输出
定期安排的数据质量检查
材料
业务数据术语表模板
数据质量仪表板
参与者
数据管家
数据质量和治理的一个关键方面是业务数据术语表。业务数据术语表有助于使业务术语与组织的数据资产保持一致。它允许与数据交互的人员快速识别与之关联的应用程序、流程和管理,这将提高搜索组织数据定义和属性的准确性和效率,从而更好地访问数据。反过来,这将提高组织数据的质量,因为它将更加准确、相关和可访问。
使用业务数据术语表模板记录数据的关键方面,例如:
定义
源系统
可能的值
数据管家
数据敏感度
数据可用性
批处理或实时
保留
关键洞察
业务数据术语表确保关键业务系统和用户具有关键业务用途的关键数据得到适当的拥有和定义。它还建立了规则,导致数据所有者强制执行适当的数据管理和质量。
数据管理员:使用业务部门的数据质量改进计划进行持续的质量监控
将数据质量策略集成到组织的数据治理计划中需要将策略传递给数据治理计划的成员。数据专员角色负责业务部门级别的数据质量,并且应参与数据质量改进项目的创建和实施。进行数据质量修复后,数据专员有责任定期监视业务部门数据的质量。
制定改进计划↓ |
|
实施改进计划↓ |
|
持续改进计划 |
|
开发面向业务的数据质量仪表板,以显示数据质量的改进或突然下降
数据管理员可以利用的一种工具是数据质量仪表板。为解决数据质量而实施的计划必须具有由业务目标定义的指标,以展示数据质量改进项目的价值。此外,数据管理员应拥有用于跟踪业务部门数据质量的工具,以便向数据所有者和数据治理指导委员会报告问题。
示例1:市场营销将数据用于直邮和电子市场营销活动。他们特别关心客户数据。具体而言,它们要求客户名称、地址和产品配置文件等属性具有较高的数据质量。
示例2:或者,Finance将重点放在财务数据上,重点关注帐户余额、付款延迟、信用评分和计费日期等属性。
图表上的注释:帐单地址质量的总体改进
接触点准确性突然下降可能会促使企业要求解释
创建面向业务的数据质量仪表板的方法:
安排与职能部门的会议,讨论哪些关键数据质量指标对其业务运营至关重要。您应该考虑在阶段1中完成的业务上下文、功能区域和主题区域分析作为起点。
讨论如何收集关键指标及其相关计算的数据。
讨论并确定报告间隔。
讨论并确定度量单位。
生成类似于示例的仪表板。请考虑使用BI或分析工具来开发仪表板。
必须持续进行数据质量管理,以持续改进组织的数据
数据质量永远不会真正完整;它是一组持续的流程和学科,需要一个永久的计划来监控实践、审查流程和维护一致的数据标准。
向利益干系人设定期望,即需要长期承诺在组织内维护质量数据,这对于计划的成功至关重要。
数据质量维护计划将不断修订和微调用于组织数据管理的持续实践、流程和程序。
数据质量是一个需要持续关注的程序:
→维护→良好的数据→
数据质量管理是一项长期承诺,它改变了组织查看、管理和利用其公司数据资产的方式。所有相关方的长期支持至关重要。
定义数据质量维护的数据质量审查议程
输入
数据质量指标和目标
输出
定期安排的数据质量检查
材料
数据质量诊断
数据质量仪表板
参与者
数据管家
作为数据管理员,您负责对业务部门的数据进行持续的数据质量检查。定义改进议程以组织改进活动。每年和每季度组织一次活动,以确保全年进行改进。
每季
根据里程碑衡量数据质量指标。使用数据质量诊断执行定期数据质量运行状况检查。
查看业务部门的业务数据术语表,确保它是最新且全面的。
评估实践领域计划的进度(时间、里程碑、预算、交付的收益)。
分析整体数据质量,并在执行仪表板中报告关键改进项目和纠正措施的进度。
向监督机构通报数据质量的总体状况。
每年
计算当前的基线,并通过将其与前几年进行比较来衡量进度。
为每个实践领域和实践间交接流程设定/修订质量目标。
重新评估/重新建立数据质量目标。
设置/审查数据质量指标和跟踪机制。
设置数据质量审查里程碑和时间表。
从最终用户和从业者的角度重新审视数据质量培训。
关键洞察
在任何改进计划开始时进行数据质量诊断,然后定期使用诊断重新检查运行状况,以查看症状是否复发。这应该是一个监视活动,而不是数据质量修复活动。如果症状足够严重,请重复改进计划过程。
往期推荐