查看原文
其他

集团类企业数据治理实践

左银康 DataFunSummit
2024-09-11

导读 本文将从数据治理的愿景目标、工作框架、组织制度、数据标准、数据质量、数据安全等方面介绍数据治理体系建设。

主要内容包括以下几个部分:

1. 数据治理愿景和目标

2. 数据治理体系框架

3. 数据各领域的管理

4. 数据治理实践

分享嘉宾|左银康 国信证券股份有限公司 数据治理负责人 

编辑整理|李本培

内容校对|李瑶

出品社区|DataFun


01

数据治理愿景和目标

每家企业开展数据治理的愿景基本都是为了通过持续的数据治理,来保障整个企业数据资产的价值创造。证券行业作为一个强监管行业,开展数据治理的首要目标是监管合规,确保符合国际、国家、行业的法律法规或监管要求;第二个目标是数据安全,保护信息主体的隐私安全;第三个目标是保障数据的可信可用,即通过持续改进数据质量来提供准确、及时、完整、一致的数据。

02

数据治理体系框架

1. 数据治理总体框架

数据治理框架整体上可分为三层:

  • 一层是顶层设计方面,在开展数据治理的过程中,首先需要自上而下地组织保障,每一级也要有相应的角色和岗位来开展工作。在此基础上,还需要制度与流程的保障,数据治理本身就是偏管理和协调类的工作,需要通过各种各样的流程制度来实现数据标准和工作的推动。

  • 二层是治理领域方面,首先数据质量是数据治理必不可缺的领域,也是主要的抓手,需要通过数据质量监控、数据问题整改等一系列工作来保障组织内各个系统、各个业务数据质量的提升。其次是数据资产的统筹,包括元数据、数据模型、数据标准和数据架构的管理。最后是数据安全管控,包括数据安全的管理制度、技术平台、持续化安全运营等。

  • 第三层是平台工具,例如数据管控平台、数据模型工具、数据资产门户、数据安全运营平台等,通过这些平台来支撑以上数据质量、数据标准、元数据、数据模型、数据架构和数据安全等方面的工作。

2. 数据治理组织架构

细化到各个领域,首先在组织架构层面,一般的金融企业或者央企、国企都会分为三层的组织架构,自上而下地开展整个企业或者集团的数据治理工作。

在最上层决策层,由公司董事长或者总裁来牵头整个公司的数据治理工作,成立数据治理委员会或者叫数据治理领导小组,所以数据治理也是一把手工程。

第二层是管理层,管理层一般会成立相应的数据治理办公室或者数据治理工作小组来推进相关的制度建设、工具建设以及标准化流程落地。

第三层是执行层,即每个业务部门或者每一个开发团队,有相应的数据治理专员来执行数据治理策略、数据标准流程以及落实数据质量的要求和数据安全的管控。

3. 数据治理制度体系

在制度体系层面,首先会有一个公司层面或者集团层面的数据管理办法,用来统筹数据管理领域相关的各项规范细则。然后会有数据标准细则、数据质量细则、数据模型细则、元数据细则、数据架构设计规范等一系列的规范和流程。最后基于以上各类细则,需要发布数据标准、数据质量、元数据、数据架构等各类流程与模板,用来在每一个流程中进行评审和检查。同时数据安全管理办法也会作为一个独立的制度体系,在整个集团或者公司内发布,并且会按照数据全生命周期划分,如数据的存储安全、传输安全、备份安全等。

03

数据各领域的管理

1. 数据标准管理

数据各领域包括数据标准、数据质量、元数据、数据架构、数据安全等。数据标准指通过对数据的规范和一致定义来规范指标的业务属性、管理属性及技术属性,避免指标重复建设、指标口径不统一等各类情况。业务属性包括数据指标的中英文名称、简称、别名、业务定义、业务规则、统计频率等方面内容。技术属性包括数据的类型、格式、长度、精度等,也即在数据库里进行物理模型设计及落地的一些属性。管理属性是由数据治理或者数据管理归口的团队来牵头制定的数据标准分类、安全定级、标准的定义部门、管理者和业务应用系统等相关信息。

2. 数据质量管理

数据质量管理整体的流程和思路可以结合 DMAIC 六西格玛框架或者 PDCA 环来进行设计。

以 DMAIC 为例。首先在定义阶段需要明确数据质量相对应的质量规则,基于这些规则才能在第二个阶段进行数据质量的检核,通过检核发现的问题,可以在第三个阶段进行分析和溯源,再由问题原因发生的团队来进行数据质量的整改和提升,最后由数据治理团队进行全流程的跟进和控制。

3. 数据质量管理工具

为了支持上述流程,需要完善的数据质量管理工具。工具层面,可以分为数据层、计算层和应用层。首先在数据层,数据质量管理工具需要把企业内部的各类数据管理起来,如账户数据、产品数据、投研数据、报送数据等。在计算层,需要基于工具对各类数据进行一致性、完整性、准确性或者空值检测等各类基础数据或者指标数据的监控。通过一些规则的配置完成质检任务以及数据质量监控任务的运行和告警。在应用层,可以通过数据问题的管理以及数据质量看板提供的功能来支撑,如提供一些管理问题工单的录入、问题的统计数据、质量评分卡等功能。以上就是整个数据质量管理的闭环流程,在事前、事中、事后进行整体的数据质量保障。

4. 数据质量监控

数据质量监控是在数据质量工作中提前发现问题,并且避免数据问题重复发生的主要手段,需要覆盖企业内部各类 OLAP 和 OLTP 系统。

数据质量监控分为五大类,第一类是基础数据的监控,如针对客户数据、交易数据、产品数据等原始数据,需要从完整性、一致性、准确性、真实性等方面进行监控;第二类是指标数据监控,指针对如报表加工出来的各类数据进行同比波动、环比波动、最大值等各类指标类数据的监控;第三类是跨系统数据监控,是对于企业内部多个系统中同一类数据一致性的监控,如账户系统和另一个系统都有客户的个人信息数据;第四类是数据任务的监控,通过对各种任务的及时性或者一致性做数据任务的保障;第五类是表结构监控,针对各类数据库的原始数据进行监控,一旦表结构发生变动,就将变动及时告诉给下游系统和相关的负责人,让他们及时评估。

5. 数据模型管理

数据模型管理的整体思路应与企业内部的研发流程相结合,如与 DevOps 相结合贯穿于数据模型的设计、开发、测试和上线全过程。同时也需要通过数据模型的规范性检查和数据模型的监控,来确保数据模型的质量。在事前针对自研类、采购类等系统做模型的逆向和设计,把模型管理起来。同时这些模型在设计过程中,需要和企业内部的数据标准做映射和引用,从而保证数据模型在设计阶段的规范性。事中阶段,通过数据治理团队或数据架构团队对数据模型评审保障模型规范性的落地。事后,通过生产态模型和设计态模型的比对来监控,如上线后和规范性设计阶段是否一致来做事后的检核和保障。

6. 元数据管理

元数据管理更偏技术,例如通过元数据系统对各个业务系统、数据仓库、数据集市、数据湖里源头的数据做采集和版本管理。同时基于元数据和研发流程的打通做血缘关系的解析、预发布库的管理。最终通过元数据的管理来实现影响分析、表结构的冷热度分析、跨环境的比对等应用场景。

7. 元数据的融合与共享

以元数据的融合与共享为例,将元数据系统与研发流程打通,即元数据系统与底部的数据交换平台、数据服务平台、数据展现的前端平台打通,然后通过前端的一些研发平台或者 OA 流程对元数据的变动做评审,只有评审通过后才能正常上线。

8. 数据安全管理

目前国家对数据安全高度重视,数据安全相关的法律法规也日趋严格。开展数据安全管理的思路,可以以个人客户信息为中心,建立贯穿于数据全生命周期的安全治理体系。例如有数据安全治理相关的战略组织架构和制度规范,在技术平台方面有数据安全相关的敏感数据识别工具、数据库防护系统、数据库审计系统、数据防泄露 DLP 平台以及隐私计算平台。在数据安全治理的运营体系方面,包括数据资产的识别、数据安全的风险监测、数据安全的应急响应、企业内的培训和宣贯等。

9. 数据全生命周期安全

在数据全生命周期的不同阶段对应的工具也不太一样。例如在数据采集阶段,有数据的分类分级、安全准入、元数据的管理、数据源的认证等。在数据交换阶段,通过数据加密、数据脱敏、数据审计、数据水印、数据溯源等平台工具来进行数据交换的安全管控。

10. 数据的分类分级

数据的分类分级是数据安全治理的前提,企业内部开展数据安全治理工作,一般第一步都是要开展数据分类分级。基于一些行业标准来进行企业内部数据分类分级框架的建立,同时可以搭建数据分类分级平台,对企业内部各类业务系统数据做敏感数据的识别,最终搭建数据资产门户。基于数据分类分级进一步推进数据安全的风险识别、数据安全的防护规划、数据安全的持续运营,以及敏感数据的申请等各类应用场景。

04

数据治理实践

1. 集团内企业数据共享实践

下面以集团内企业的数据共享实践为例,介绍数据安全。例如一些央企,可能是跨业态的集团,包括港口子公司、银行子公司、证券子公司、物流子公司等,开展数据共享的困难是非常大的。可以从组织内部的一些数据入手,包括集团内部的组织数据、员工数据、财务数据、供应商数据等,通过这些数据共享来对企业内部 OA、采购等各类平台建设做支撑。

2. 数据治理平台典型框架

很多企业会和数据中台结合去建设数据治理平台。在大数据平台建设框架里,元数据基于源头系统做元数据的采集、数据地图建设、数据血缘的解析等,然后通过数据标准、数据质量、数据模型等平台进一步支持数据服务功能,并且最终支持前端的一些报表平台、业务系统、机器学习等各类应用。

3. 数据治理考核

数据治理考核在不同企业的重视程度不太一样,没有严格的奖惩制度,很多业务部门配合度不高。所以数据治理是从上而下去推动,并且要开展数据治理的考核。例如有的部门一年到头经常提数据问题或者投诉数据问题,但是本身又没有配合数据治理工作,没有制定相应的数据标准,没有进行相应的数据质量监控,那么数据治理考核分就应该扣分。但如果有的部门问题很少,又主动配合制定一些规则和标准,那么就会有考核的加分,这就是奖惩制度的一些策略,可以结合各个企业的实际情况去开展。

4. 数据治理典型实践框架

最后介绍企业数据治理的一个典型框架。首先在顶层会有整个企业数据治理或者数字化转型的目标愿景、指导原则、规划实施路线和管理模式。同时在数据治理框架上,建设数据治理相关的组织架构、制度政策、管理流程和模板手册。数据治理的管理模块包括模型的管理、标准的管理、质量的管理、元数据的管理以及安全的管理。在底层平台上通过数据模型平台、数据管控平台、数据安全运营平台等,或者统称为数据资产平台进行整体的支撑。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


左银康

国信证券股份有限公司

数据治理负责人

本科毕业于华中科技大学,先后在大型股份制商业银行、四大央企和国信证券从事数据治理工作。

在商业银行总行开展数据治理,推动全行的数据标准制定、客户数据质量检核、元数据的管理和平台工具建设,在四大央企之一开展集团主数据建设,进行集团组织、员工、物料主数据的规划、实施和推广,目前在国信证券开展数据治理工作,负责公司数据治理组织、制度、流程、工具的规划、设计和实施落地。


往期推荐


复杂图上的知识迁移学习

开源delta lake 3.0 优势和发展

多模态大模型在文本和视频分析中的应用

流式数据湖 Paimon 0.7 的研发进展

多模内容理解在百度商业广告中的探索实践

直播预告| 智能运维,如何让中小企业数据库管理更高效?

哔哩哔哩基于 Iceberg 的智能数据组织优化实践

图技术在金融反欺诈中的应用

CloudCamel:OPPO 云上大数据极致优化之路

ClickHouse企业版商业化精要解读


点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存