数据资产是指由企业拥有或者管理的,能够为企业带来未来经济利益的,以物理或电子形式记录的数据资源,如文件资料、电子数据等。事实上,将数据凝练为数据资产,需要有效且恰当的管理。数据资产盘点即是对存量数据进行系统化梳理,与数据标准匹配,推动数据资源转化为数据资产的过程。
在数据治理架构中,数据资产盘点位于底层数据和数据管理与应用之间,处于承上启下的重要地位。对上支撑数据安全管理等职能建设及以价值发掘为导向的数据应用,对下实现底层数据的梳理、对接数据标准,达成企业内部“统一数据标准”的目标。
面对烟囱式野蛮生长的存量数据现状,监管数据检查、数据治理等任务的迫切需求倒逼企业厘清所拥有的数据资产,破除数据孤岛;获取数据管理的抓手,实现数据的有效管理。
1.监管数据检查
近年来,监管部门对银行业数据治理工作愈加重视,针对监管数据质量的检查也日趋严格。然而监管数据复杂程度的日益提高,数据来源跨部门跨系统现象的愈加明显。导致监管数据治理过程中,难以定位数据的主管部门,也无法对问题数据进行溯源。为建立监管数据质量治理的长效机制,需要通过数据资产盘点,梳理源系统负责部门,明确责任主体;深挖问题数据源头,通过源系统整改从根本上提升数据质量。
2. 数据安全管理
面对外部《网络安全法》等法规的压力和内部信息安全的要求,如何在安全的前提下充分分享数据是数据安全的核心问题。为推动数据安全管理体系的建设,需要厘清数据资产在哪,数据资产的状态等问题。通过数据资产盘点建立数据与元数据的映射关系,明确数据类型、属性、分布、分类分级等信息。并以此为依据,有针对性地设计数据存储保护、授权管理等策略,平衡数据安全和数据共享两方面,最终打造“安全合规”的数据可控共享能力。为了监管数据报送、数据安全治理等事项的高效推进,对存量数据的盘点已然展开。根据笔者的实践,对数据资产盘点的流程方法进行初探,将其分为元数据采集、标准映射、质量校验和数据地图发布四个环节。以下进行详细介绍。
1. 元数据采集
元数据采集是指从数据库、数据建模工具等数据源获取技术元数据的过程。从存储数据的物理层系统着手,采集数据在开发过程中落地的数据库、SCHEMA、表和字段信息。针对存量数据,以数据项为桥梁,通过对标,建立数据标准与技术元数据的映射关系。记录数据在企业层面需共同遵守的业务含义和业务规则,以及数据主管部门、数据资产目录、数据安全分类分级等信息。对超出预先定义的数据标准范围的数据项,实时构建数据标准,并进行连接。同步推进数据标准体系的完善。在完成数据资产梳理之后,需要制定数据质量规则,校验交付物是否符合规范要求。例如唯一性检查,控制同一个名称的数据项连接到唯一的数据标准,消除同名不同义的情况。并且对问题数据源头进行改造,从而保障数据资产盘点的质量。通过元数据采集,标准映射和交付物的质量检查,完成数据的全面体检后。发布数据地图服务,一方面提供数据搜索、数据样例、资产/用户画像等能力,帮助用户快速对海量数据进行检索和提取,支撑数据消费。另一方面明确数据的主管部门,提供数据的分类分级信息,为后续的监管问题数据整改、数据安全管理奠定基础。04
数据资产的智能化盘点
数据资产盘点流程的梳理为实践方法的优化提供了靶点,同时日新月异的智能化工具也提供了丰富的武器库。为实现高效的数据资产盘点,以下对数据资产的智能化盘点进行了初步的探索。不同于人工采集通过数据管理人员发布需求,开发人员收集整理元数据的接力式方案。智能化元数据采集依赖数据“软感知”能力,基于埋点技术,针对元数据来源,配置恰当的适配器及元数据模型,设置周期性或触发性采集任务,自动抽取系统中的元数据信息。例如,通过PyMySQL工具建立Python与MySQL数据库服务器的连接,设置采集周期,定时拉取数据库中的表名、表注释、字段名、字段注释和字段类型等信息。现有的人工对标基于关键词模糊匹配,对海量数据标准进行筛选,基于个人经验定位符合的数据标准。存在耗时长,人力成本高的问题。智能化对标基于字段名称等文本信息的分析,通过距离度量、推荐系统等算法进行信息过滤和推荐排序,主动为用户推荐潜在的数据标准,以解决信息过载问题。如图1,对于名为“建立机构”的数据项,基于中文名称产生“建立机构编号”、“建立时间”等已有数据标准推荐,由数据管理人员确定接受的数据标准。
图1 智能化标准映射
3.智能化质量校验
为了克服人工评审的低效,在明确质量校验规则后,需要对校验规则进行数字化改造,将复杂的规则用数字化的方式进行描述和管理。例如,上述的唯一性检查,可以抽象为:数据项和数据标准是一对一的关系,并通过程序自动识别和智能预警。
图2 从人工到智能化数据资产盘点
企业所拥有的数据是一笔可观的潜在资产,通过数据资产盘点,可以帮助企业厘清所拥有的数据资产现状,为发掘和释放数据中蕴含的经济价值夯实基础。对数据资产盘点流程的总结及数据资产的智能化盘点方法的探索,为进一步实现方法论的优化提升提供了落脚点。
参考文献
[1] 华为公司数据管理部.华为数据之道[M].北京:机械工业出版社,2020:56-71,167-175,215-220,231-243.[2] 美国DAMA国际.DAMA数据管理知识体系指南(第二版)[M]. 北京:机械工业出版社,2020:320-345.[3] 中国信息通信研究院政策与经济研究所.数据资产化:数据资产确认与会计计量研究报告(2020年)[R]. 北京:中国信通院,2020.[4] 中国信息通信研究院云计算与大数据研究所.数据资产管理实践白皮书(4.0)[R]. 北京:中国信通院,2019.[5] 车伟,赵申.供电企业数据盘点与数据目录构建研究[J].机电信息,2019(36):1-3.
公众号后台回复关键词:画像源码、画像ppt、数据治理,都可获取宝贵干货资源与资料!
ps.更多福利:
关键词
| 领取资源
|
---|
数据治理 | 数据质量视频 |
数据质量 | 数据质量视频 |
画像源码 | 用户画像项目源码 |
推荐系统 | 推荐系统教程视频 |
OneData | 阿里OneData体系PPT |
更多精彩,关注我们,一起见证!
更多精彩,请戳"阅读原文"到"数仓之路"查看
!关注不迷路~ 各种福利、资源定期分享!
★数据治理 | 解决方案.PPT
★数据治理 | 就是数据建模?
★数据治理 | 元数据管理实践
★数据治理 | 元数据采集那点事
★数据治理 | 平台工具前世今生
★数据治理 | 数仓深度之数据脱敏
★数据治理 | 该怎么做?全面解读!
★数据治理 | 企业数据治理七把利剑
★数据治理 | 携程数据治理落地实践
★数据治理 | 90%的人搞不清的事情
★数据治理 | 美团酒旅数据治理实践
★数据治理 | 基于数据架构和数据模型
★数据治理 | 百分点数据治理“PAI”建设实践
★数据治理 | 一文读懂数据治理(附500页ppt)