2012年3月29日,奥巴马政府发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative),将数据定义为“未来的新石油”。伴随着大数据时代的来临,人们对数据的重视达到了前所未有的高度,为了解决数据流动过程中产生的一系列问题,「数据治理」一词逐渐兴起。数据治理目的是为了最大程度地发挥数据的价值,根本在于促进数据的流动。无论各种主体以何种方式开展数据治理,其核心都是要推动数据自由、安全地流动,以便最大程度的挖掘和释放数据的价值。通过数据治理工作的开展,可降低业务运营成本、提升业务处理效率、改善数据质量、控制数据风险、增强数据安全、赋能管理决策。业内对开展数据治理工作的职能,有不同的划分。2023年1月,大数据技术标准推进委员会发布的《数据资产管理实践白皮书(6.0版)》指出,数据资产管理主要包括:数据模型管理、数据标准管理、数据质量管理、主数据管理、数据安全管理、元数据管理、数据开发管理、数据资产流通、数据价值评估、数据资产运营10个活动职能。国际数据管理协会(DAMA国际)作为国际性的专业机构,所提出的数据管理框架(DAMA车轮图),将数据治理总结为:数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文件和内容管理、参考数据和主数据、数据仓库和商务智能、元数据、数据质量、数据架构10个方向。综合各方对开展数据治理工作的主要职能,总结数据治理主要包括:数据模型管理、数据标准管理、主数据管理、元数据管理、数据质量治理和数据安全治理,6部分。数据模型管理是指在进行架构管理和信息系统设计时,使用标准化用语、单词等数据要素设计、开发、维护和治理数据模型,并进行系统化管理。数据模型管理的核心内容,主要包含:数据模型设计;模型版本控制;模型文档化;模型优化与维护和模型应用与评估。数据模型主要分为三种类型:概念数据模型、逻辑数据模型、物理数据模型。概念模型是对业务实体、业务操作、操作规则的整体描述。逻辑模型是对概念模型的具体化,根据概念模型,设计数据实体和数据属性,侧重系统的逻辑实现。物理模型是对辑模型中各种实体表的具体实现,包括表的数据结构类型、索引、存储资源分配等。数据模型设计,是通过理解业务、对数据进行梳理、分析和开发的过程。常用的建模方式有维度建模法、ER建模法等。模型版本控制,通过跟踪和管理数据模型的不同版本,以确保在更新或变更时有清晰的记录。模型文档化,为每个数据模型创建详细的文档。模型优化与维护,分析模型的性能,并根据需求对其优化,以提高系统的效率和响应速度。模型应用与评估,将设计好的数据模型部署至生产环境,确保与实际业务、应用的无缝集成。数据模型的设计和管理是数据治理的开端,良好的数据模型可使企业数据治理事半功倍。数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。数据标准管理的目标,是通过制定和发布由数据利益相关方确认的数据标准,结合制度约束、过程约束、技术工具等手段,推动数据的标准化,进一步提升数据质量。对于企业厘清数据资产、打通数据孤岛、加快数据流通、释放数据价值有着至关重要的作用。数据标准管理,主要包含:业务术语标准;基础数据标准;主数据标准;指标数据标准。业务术语标准是对业务领域中使用的术语、概念进行统一定义和规范化管理。确保在整个组织或企业内,不同部门、系统和人员之间使用的术语具有一致的含义,避免歧义与误解。提高数据质量和可理解性,减少因误解或同一术语的不同含义,所产生的混淆。基础数据是系统的数据字典,其标准化一般会涉及国际标准、国家标准和行业标准,如国家地区、行政区划、邮政编码、性别代码、计量单位代码等。组织或企业需根据其自身的需求不断进行积累、补充完善和更新优化。主数据标准,主数据是指在组织内部被多个业务流程和系统共享的,反映核心业务实体的基础数据。其标准包括:主数据分类标准(明确定义主数据的各个元素和属性。如客户、产品、供应商等的具体定义和分类)、主数据编码标准(确定如何使用编码来标识和分类数据。如产品编码、客户编号等)和主数据模型标准(主数据属性的逻辑模型或物理模型)。指标数据标准,指标数据标准化建设包含,业务属性标准、技术属性标准、管理属性标准。用于确保业务数据的一致性、准确性和可比较性的规范和规则,防止同一指标,在不同业务中,使用口径不一致,导致的用数错误。在技术层面,需做到:指标统一录入维护(统一录入),标准化定义与加工(统一生产),指标使用统一服务(统一消费)。数据标准的管理,自上需要组织或企业的高层制定相应的标准规范,并有相应的制度,保障规范的贯彻执行。自下数据治理团队需联同数据仓库团队,共同落地实施。
“主数据”指满足跨部门业务协同需要,反映核心业务实体状态属性的基础信息。主数据被誉为企业的“黄金数据”,具有高价值性、高共享性、稳定性强的特点。通过主数据管理,可解决各异构系统的数据不标准、不一致问题。保障业务连贯性以及数据的一致性、完整性和准确性,提升业务条线之间的协同能力。
主数据管理的关键内容,主要包含:主数据梳理、识别;主数据体系建立;主数据集成和主数据运营。主数据梳理、识别,通过理解业务、调研现状,对组织或企业的主数据进行梳理、识别。主数据体系建立为建设“组织体系”、“标准体系”和“流程体系”。“组织体系”对主数据进行管理,有效组织机构的保证;“标准体系”包括:主数据分类标准、主数据编码标准、主数据结构标准和主数据间关系标准;“流程体系”保障在主数据管理过程中,严格执行组织或企业的主数据标准和相关规范。主数据集成包括:数据准备、数据清洗、数据集成等将数据汇集到主数据平台的过程。主数据运营,在日常管理中,对主数据版本进行迭代发布,并将其推广到企业的各业务中,各业务按照主数据的标准规范使用,保证各应用系统主数据的一致性。
“元数据”是描述数据信息的数据。比如一个数据库中的一张表,它的元数据信息主要有:表存储大小,创建时间,表说明,字段描述,负责人,访问记录等。元数据是进行数据治理的基础,其贯穿数据资产管理的全流程。元数据的建设,主要分为:元数据采集;元数据管理;元数据检索;元数据分析和数据资产目录。由于元数据来源各异,进行元数据建设,首先需对元数据进行采集。元数据按来源,具体可分为:技术元数据、业务元数据和操作元数据。技术元数据,基本在各引擎的内部,如存储元数据,基本位于各存储引擎的metastore;计算元数据,大多被记录在各引擎的运行时日志。业务元数据,基本位于在各业务系统内部,如数据字段的描述,数据口径的定义等。操作元数据,通常在审计日志里,它记录了数据被访问的信息。将各类元数据采集汇总至统一的元数据数仓,是进行元数据建设的第一步。将采集得到的元数据,在元数据数仓层进行清洗加工,确定相应的指标口径,建设元数据模型,对其进行统一管理维护。通过对元数据分析,并进行相应的数据产品建设,可建设成相关的数据产品,如:数据资产大盘、数据地图,数据血缘关系等。数据资产目录是指企业或组织对其数据资产进行系统化整理和分类,以形成一个清晰、易于管理和检索的数据资源清单,目的是提高数据的可发现性、可访问性和可重用性。
数据价值的充分发挥,必须有可靠的数据质量作为保障。针对不同的数据集,数据质量评估的维度可能不同,但一般都包含数据的一致性、完整性、唯一性、准确性、真实性、及时性、关联性等。做好数据质量工作,事前定义数据质量规则标准,如数据准确率指标,数据产出承诺时间(SLA时间)。事中进行数据质量监控,对数据生产链路的每一个产出环节,进行质量预警监控。通过「数据质量控制」(DQC),对表级或字段级产出数据,进行及时地校验校测,若有数据异常问题,对该问题的下游生产链路进行阻断,并要人工干预,处理数据质量问题,从而保障整条数据生产链路的准确性与及时性。事后,对出现的数据质量问题进行管理,通过分析数据,剖析产生数据治理问题的本质原因,提出解决方案,落地完成。对数据质量问题,产出相应的数据质量报告,用于评估数据质量状况和持续跟踪数据质量。对已发生的数据质量问题,建立和维护对应的问题库,集中管理数据质量问题,提升数据质量的改进效率。在管理考核层面,设置数据质量考核的KPI。通过事前、事中、事后等多重措施,防止数据质量问题,持续提升企业数据质量水平。
数据安全管理,是确保数据处于有效保护和合法利用的状态。各国的法律法规,在近些年也对数据安全进行了明确的要求。美国,2018年通过《加州消费者隐私法》(California Consumer Privacy Act, CCPA)赋予了消费者更完整的个人信息控制权。欧盟,在2018年5月生效的《通用数据保护条例》(General Data Protection Regulation, GDPR),加强了对个人信息的保护。我国,在2017年6月,实施《中华人民共和国网络安全法》;2021年9月和11月,分别实施《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》,对数据处理、网络安全建设提出了明确的法律要求,使信息安全、数据保护和个人信息管理方面更加规范与透明。数据安全管理,总体包含:数据分类分级;敏感数据识别;访问控制;加密脱敏;安全审计和隐私计算。数据分类分级,是进行数据安全治理的基础,根据数据的使用用途,对数据进行分类;根据数据价值与敏感程度,对数据进行分级,数据分级可分为“一般数据”、“重要数据”、“核心数据”三个等级。明确数据分类分级的标准,对敏感、重要的数据(如个人信息数据)在技术上需有自动化识别的能力。同时,对其访问行为(读取、下载、传输)进行管控和审计,包含授权审批、权限审计(表权限、行权限、列权限等)、权限回收等方面。访问控制策略遵循最小授权原则。对于敏感、重要的数据,在技术上需进行加密脱敏处理,使用的加密算法,须是数据所在国规定的标准加密算法。隐私计算可让多个数据拥有者,在不暴露原始数据的情况下,实现数据的共享、互通、计算和建模。在过去几年里,隐私计算的应用落地,得到了显著发展,并逐渐成为一项重要的技术能力。对于重要数据和核心数据的保护,还需建立事后溯源机制,通过技术能力和审计机制,对数据泄露事件进行追踪溯源。此外,数据安全管理在组织层面,成立数据安全委员会,确保各项数据安全治理制度的落地执行。数据治理工作,明确了管理细则制定、数据质量稽核、治理技术导入等事项,自上而下的组织保障,对于数据治理工作能否取得成功,起着至关重要的作用。组织或企业的数据问题不是单靠实施一个数据治理项目就能彻底解决的。数据治理组织的成立,不仅是在数据治理项目建设阶段的保障,更重要的是在运营阶段的持续保障。最上层,成立数据委员会,用于制定数据治理流程标准与相对应的规章制度。各事业部需任命数据治理负责人,负责落实数据委员会关于数据治理工作的流程与标准。同时,各事业部设立多个数据治理接口人,向事业部数据治理负责人汇报数据治理工作的进展。并分配治理任务给相关的治理操作人。治理的最终落脚点,是完成具体每一项的治理操作动作,由具体的治理操作人完成。
数据治理工作取得好的成效,组织或企业自上而下形成的”数据驱动“文化必不可少,具体来说,是指“用数据思考,用数据说话,用数据管理”。组织或企业的管理层,做好表率,将数据文化理念运用到企业的各项工作中,即以数据为驱动来开展各种业务活动,指导管理和决策。此外,在组织或企业内部,加强数据文化的宣贯和培训,使员工对企业数据驱动文化有深刻的认知,并在日常工作中,通过使用数据提升其工作的效率。
“元数据”是开展数据治理工作的技术基础。建立统一的元数据中心,将技术元数据、业务元数据、操作元数据进行汇聚,运用数仓的数据建模方法,建设统一的元数据数仓。通过元数据数仓的持续建设完善,对元数据的持续分析挖掘,方有技术基础和储备,进行数据模型管理,数据标准管理、数据质量管理和数据安全管理。
数据血缘关系,是理清数据加工链路的基础,详细描述了数据来源、传输路径、转换过程以及数据在不同系统和应用中的流动情况。数据血缘在数据变更通知、数据迁移、合规审计、数据追踪和溯源等方面,有着不可替代的作用。根据不同的力度,可将数据血缘细分为“表级血缘”、“字段血缘(列血缘)”和“算子级血缘”。表级血缘专注于描述数据表之间的依赖关系和数据流动情况。字段血缘相比表级血缘,描述血缘关系力度更细,聚焦于数据表中各个字段(列)之间的依赖关系和数据流动情况。算子级血缘是数据血缘管理中最细致的形式,深入到具体的操作符和函数级别,可追踪到数据处理的最小单位,提供了对数据处理过程的全面理解和透明度。通过追踪每一个算子,可以实现更精准的数据质量管理、调试与优化。在技术实现上,实现高准确率的字段血缘和算子级血缘,有比较大的挑战。底层的技术实现绕不开SQL解析能力。但由于方言SQL、自定义函数、动态生成代码等挑战,做到高准确率的字段血缘和算子级血缘,并非易事。衡量数据治理工作的“好”与“坏”程度,在国内互联网公司的数据治理内部实践中,大多使用“数据健康分”的方式衡量。数据健康分,具体可拆分为“成本分”、“安全分”、“质量分”、“模型分”和“价值分”。健康分通过扣分机制,对待治理但尚未完成治理操作的数据资产,予以相应的扣分。成本分,用于衡量数据使用成本的效率,提升成本分的核心,主要对“无效数据资产”进行下线/删除处理,同时提升“有效数据资产”的使用效率(用更少的机器资源,存储更多的数据,计算更多的任务)。安全分(有时也成为合规分),通过对数据访问控制(访问、下载、外发)和敏感数据使用管控的程度,衡量安全分的水位。质量分,在数据生产中,对导致数据质量问题的相关动作或结果,进行扣分(如未按SLA保障时间产出数据,多次出现强规则阻断告警等)。模型分,用于衡量数仓建模的“好”与“坏”程度,其治理需要同数仓紧密结合,目的是防止数仓模型出现坏味道(如:跨层访问、反向依赖等)。“价值分”一般通过使用、访问次数、业务重要度等指标衡量。“数据健康分”的5个维度分数的平均值作为健康分的总得分,用于衡量公司内部各事业部使用数据“好”与“坏”的程度。核心目的为,降低数据成本、提升数据效率和控制数据风险。目前“数据健康分”多作为公司内部的实践,分数的高与低在公司内的各事业部内拉齐。业界暂无数据健康分的统一标准。
2022年11月,美国人工智能研究实验室OpenAI发布大型语言模型ChatGPT,次年2023年3月发布多模态模型GPT-4,因其强大的自然语言生成能力、广泛的应用场景和迅速增长的用户基础而成为全球关注的焦点。大型语言模型目前已多个场景:“客服服务与支持”、“内容生成”、“编程开发”、“语言翻译”得到了广泛的应用。
在数据治理相关领域,结合大模型进行数据治理尚在探索之中。结合目前已被广泛使用的应用,大模型在数据治理活动中的知识库整合、数据质量报告等,梳理和总结性工作,将会提升其自动化程度与效率。
结合开展数据治理的主要职能活动,与每个职能活动中的核心关键内容,我们对每个职能中的关键内容按“技术成熟度”、“成熟周期”、“技术难度”、“业务价值”、“管理协作难度”和“大模型取代收益”、“大模型取代周期”7个维度,进行了成熟度划分。发布了《数据治理技术成熟度曲线》,希望能帮助计划开展或已开展数据治理的组织或企业,明晰数据治理活动的关键内容,并对每个关键内容,在技术、价值和收益等方面有一个总体的判断,以便更加清晰明确地规划和开展数据治理活动。
点击下面的阅读原文,填写表单后免费获取《技术成熟度曲线-数据治理篇》