查看原文
其他

洞察|企业数据资产盘点与数据标准梳理方法

数字治理全球洞察 数字治理全球洞察 2023-06-07


大数据在中国的大地上蓬勃发展,带动了许多新的理念的诞生,数据治理就是其中之一,这两年已建立好的数据中心或者正在建的数据中心都在如火如荼的进行。

在企业内部,也已经开始由原来的业务部门和IT部门演变出来数据管理部门,通过开展数据管理办法、制定数据标准、保证数据质量、维护数据架构、提供平台与工具等工作作为数字化转型的基础设施,数据治理已经成为数据团队履行数据职责的重要手段。

目前很多大数据公司都推出了很多数据治理相关产品,相信这些工具和平台也会越来越成熟,数据治理相关工具本身不是数据治理最难的问题,针对企业目前在数据管理方面存在的问题主要还是业务规划咨询,针对企业数据架构进行规划,如何构建企业数据管控体系,实现数据全生命周期的统一管理,建立数据标准与规范,提供全面、统一的数据服务,灵活支撑业务,为企业精细化管理提供保障,为企业发展创造价值,提升企业运营与管理能力,打造企业核心竞争力。

针对企业数据架构进行规划咨询,整个过程基本上主要分为以下几个阶段来推进工作:


在第一阶段统筹规划中建设组织责任体系,首先是把主要工作职责定义好,这个是做任何事情的前提。

数据治理组织责任体系大致分为:数据治理委员会、数据管理部门、数据生产部门(业务部门)、数据消费部门(业务部门、客户)、数据开发部门(如果很多企业没有该部门,一般进行招投标来完成IT厂商的选定)。针对各组织体系运行的认责机制流程参考如下图所示:


明确了相关组织责任体系后,接下来就是如何完成数据标准的制定,这是目前企业数据管理部门最头痛的问题。

一般企业做这项工作至少需要4-5个人,同时牵头组织人还需要具备以下技能:
  • 掌握业务,如果不懂,组内必须有人要懂
  • 熟悉有哪些部门,每个部门的职责是什么
  • 针对数据库有比较深的理解
  • 针对数据架构有比较深的理解
  • 针对数据治理实施方法论有比较深的理解

数据治理组织是依据业内的业务经营理念、业务战略、IT战略以及数据战略共同的推动,结合企业实际的情况形成实施数据治理的有效保障,尽管各家企业形式、归口部门及人员设置有所不同,但组织的形成是建设数据治理长久机制的基础性工作,从一定程度上来说,组织建设是“人”的建设。它激发了组织活力,保障数据治理日常化和持久化。

说完数据治理组织,然后说下数据资产盘点和制定数据标准,事实上,数据资产盘点和制定数据标准是相铺相成的。

传统意义上的资产盘点是指对资产进行定期清点,以确定各种财产在一定时间的实存数。数据资产盘点则是对企业拥有的数据进行清点,已确定企业当前拥有的数据。数据资产盘点将帮助企业弄清以下问题:
  • 企业有多少数据?
  • 企业有哪些数据?
  • 企业的数据价值如何?
  • 企业的这些数据分布在什么地方?最有价值的数据存储在什么位置?
  • 企业数据的归属和责任人是谁?

数据资产盘点的成果是数据资产清单或数据资产目录,它能从全局层面直观的展现企业拥有的数据资产情况,帮助企业进行更有效的数据利用和管理,明确企业的数据保护目标,协助企业完成数据安全保护体系的构建。

企业的数据资产盘点,应该以数据价值为导向,以统一标准为核心。因此,在进行数据资产盘点前,我们需要明确以下几点:
  • 企业在日常经营活动中,积累了体量庞大的数据
  • 只有可控的、能为企业带来利益的数据才是数据资产
  • 数据使用和保护的前提是知道有哪些数据、在哪里
  • 统一的数据定义和价值标准,将有利于数据的使用和管理
  • 明确数据的归属,将为跨业务的数据使用和数据安全保护落实提供便利

下面介绍数据资产盘点的方法和步骤,主要归纳为6个阶段:构建数据标准、数据发现、数据定义、分类分级、明确归属、数据资产目录。


(1)构建数据标准
企业的数据往往来源于各个业务,而各业务的数据来源、数据定义和价值标准,可能存在极大的差别,这将不利于数据的整合、全局管理和使用。因此,企业在进行数据资产盘点前,首先要根据企业所在行业的相关标准,结合企业自身的业务情况构建数据标准,形成全局统一的数据定义和数据价值体系。数据资产盘点工作,将在此数据标准的指导下展开。

(2)数据发现
数据发现是解决数据在哪里、有多少的问题。随着企业的业务不断发展,数据量将呈指数级上升,这些数据可能散布在各个角落。数据发现就是从全局出发,系统性的扫描企业内的数据资产,确定数据存储的位置和数据量,形成数据的存储分布地图。数据发现的核心在于全面、系统的扫描,以避免出现数据遗漏的情况。

(3)数据定义
数据定义是解决有哪些数据的问题。针对扫描的数据存储位置,需要对数据进行识别和定义,标记数据内容,并基于数据内容和存储方式,明确数据的组织结构,形成库-表-字段的数据框架,即明确库中有哪些表、表内有哪些数据,结合数据发现的成果,绘制数据资产地图,将数据的存储位置、存储内容、存储量清晰的进行呈现。

(4)分类分级
分类分级是解决哪些数据有价值、数据价值高低的问题。数据的分类应该基于业务,数据的分级应该基于价值,数据的分类分级应该构建的数据标准指导下进行。通过数据的分类分级,对发现定义的数据进行数据价值和重要性层面的全面梳理和标记,为数据使用、价值挖掘、数据保护提供价值依据。

(5)明确归属
通过调研、业务关联、存储对象关联等方式,确定数据资产的业务归属和责任人,有助于掌握数据的来源和去向、明确相关责任归属,为跨业务的数据使用、数据关联分析、数据分类保护等提供目标和责任指向。

(6)数据资产目录
数据资产目录是数据资产盘点的最终成果,也是数据资产管理的第一步。它将企业内的所有数据进行汇总,构建出一张全局的数据地图,清晰的展现出企业拥有的数据内容、数据量、数据价值、数据存储位置以及数据归属和责任人,帮助企业掌握其拥有的所有数据及数据价值,为企业进行数据使用、数据价值挖掘以及数据保护提供指导依据,同时指导企业进行数据规划和数据体系搭建。

有人会问,那到底如何开展上述工作呢?为了摸清企业有多少个业务系统、每个业务系统里面有多少张表、业务系统中的业务表哪些是空的、分别有哪些部门在使用和产生数据等问题,首先需要制定一个数据资产调研表,下图为政务信息资源目录调研表模版表,面向政府部门的:

(点击查看高清原图)

下图为某高校的数据标准模版表,面向企业的可以参考: 

(点击查看高清原图)

依据上述调研表的信息按业务主题域进行数据分类、识别相关实体、构建数据模型,规范主数据与编码规则。

如何针对业务主题域进行分类?首先要知道企业的业务经营范围和相关职责是什么,就是搞清楚企业业务,比如政务资源里面把信息分成人口、法人、宏观经济、空间地理等分类;法院体系把人、案件、车辆、办公进行业务主题分类。

如何查找实体数据?实体数据在数据库进行存储的时候,主要有以下几大特性:
  • 数据更新频率低
  • 数据访问频率高
  • 数据有唯一性
  • 许多表引用该表信息

这些信息其实可以根据程序进行一次数据探查,可以大致判断出实体数据是哪些表,得到一个需要人工进行调整的ER关系进行手动打标,如果是人工的话就应该是调查加操作sql语句来判断相关情况。完成实体数据定义后,同步的行为表、数据字典表也可以进行整理出来,在整理过程中相关的数据模型也同步形成。


至此,盘点数据资产阶段结束,接下来要定义数据标准。数据标准一般分为基础数据标准和指标数据标准,所谓基础标准既是按照业务主题域划分后形成每一个数据元、代码集、编码集都属于数据基础标准。指标数据标准,构建指标体系是一个完整的过程。


  • 代码集:一个代码集代表一个数据元,怎么理解呢?例如:性别是一个数据元,那么他的值域范围是一个数据字典里面的值,主要包括男、女、其他三种之一。代码集和数据元之间最大的差异为:该数据元如果是代码集,那么他的取值范围是依据代码集范围而来的。
  • 编码集:编码规则也是数据标准的定义范围,只是使用范围是不一样的。编码集既可用于数据元的编码规范,也可以用户目录和分类的相关规范。
  • 数据元:专业定义又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元,在特定的语义环境中被认为是不可再分的最小数据单元。数据元的属性一般分为通用属性和行业属性,通用属性目前国家针对数据元定义了22个核心属性,针对每个行业的属性,企业里面可以自行定义新的属性,上文图1和图2里面就体现了不同行业针对数据元的属性是有差异的。

一般来说,数据标准梳理一般是自上而下来做的,这种方式梳理出来可能很完整,但是落不了地。

目前行业盛行的方式自下而上做的,通过数据治理平台可以自动采集一些技术元数据,再通过这些数据的特征跟数据的数据元信息建立关联关系。这个过程的技术相对复杂,需要结合技术平台和人工确认两个环节,需要通过业务属性、技术属性的特征建立相关数据标准。

最后解答下在梳理数据标准中的常见的几个问题:

1、定义数据标准的时候发现几个系统都有同类数据时应该怎么办?
在这里应该找到“权威元”。举个列子,把卫计委的人口信息和公安的人口信息都获取过来,发现都有人口信息,但是又有差异,那么应该如何做,这个时候,就需要知道,公安管人口的,一切人口基础信息以公安为主,那么就会将公安作为权威元来进行比对数据间的问题,这样也可能倒过来完善权威元的数据信息,企业内部业务部门数据职责和系统使用道理一样。

2、梳理过程中的多个数据元如何形成一个数据集?
在前面讲到,针对已有数据资产进行了获取技术属性,在底层存储的时候,基本是在一个表中,首先可以针对一张表里面的数据元分成小类,在业务里面叫数据集,在A表中有一个身份证号码,在B表中也有一个身份证号码,那么在两个数据集中也会存在,所有可以确定一个关系是一个数据元可以存在多个数据集中。

3、针对定义好的数据集如何区分大类或者叫资源主题域?
这个其实就是前面提到了主题如何分域的问题,首先标准肯定要去对应资源,资源需要确定在哪些部门里面,部门里面有哪些系统在管理这些资源,按照这个方式首先就梳理出来资源生成数据标准,有了数据标准后,需要结合实际业务场景生成数据服务,数据服务可以形成主题库、主数据、指标库等多种形态。

4、数据质量规则如何去梳理和生成?
在数据标准基础之上定义质量体系,质量问题一般分为两类:语法错误和语义错误。语法错误,可以依据现有的长度、类型、值域等内容进行基础版规定;语义错误是需要结合业务场景来确定数据一致性、完整性等规则。

这个梳理可以从数据库层面去梳理,很多时候数据库表中其实存在很多关系,往往以前在设计的时候没有形成物理关系,可以通过观察数据得知,肯定存在主外键关系,把业务质量规则就按照这个方式去配置,通过不断完善业务逻辑和使用数据服务去优化数据质量定义。

— END — 

数字治理全球洞察 | 全球数字治理前沿系列:速递 | 中央网信办全国网络法治工作会议释放重要信号
“数据二十条”政策解读|吴沈括:构筑面向数字化和全球化的数据跨境流通生态
聚焦网络法治 护航数字经济:2022年世界互联网大会乌镇峰会网络法治论坛在浙江乌镇举行
动向|欧洲2023年立法议程:数字立法位于第二位
美国要求互联网公司研发针对中国电信设备的攻击武器 外交部回应“中国+中亚五国”数据安全合作倡议
前沿瞭望|美国首次公布联邦《数据隐私与保护法案》(全文)
动向|美国推动的"印太经济框架" 想做什么?动向|拜登宣布启动"印太经济框架" 日韩澳印等13国加入洞察|欧盟-美国有关未来数字治理的立场异同欧洲EDPS与EDPB关于欧盟数据法案的联合意见(5月5日)
高端视野|吴沈括 李涛:流量劫持的的刑法应对
吴沈括|数据要素市场建设中的公共数据与政企合作吴沈括|欧盟2022年《数字服务法案》:平台新治理的欧洲样板
吴沈括|欧盟2022年《数据治理法案》:数据要素流转利用的欧洲方案
美欧就跨大西洋数据隐私框架达成原则性协议(含监管历史演进梳理)光明网 | 吴沈括:强化数字安全助力数字经济高质量发展重磅|欧盟《数据法案》(Data Act)草案(中译本)重磅|欧盟《数据法案》(Data Act)草案全文
高端视野|吴沈括 Deuse Clément:欧盟数字主权与《数据法案》立法进程高端视野 | 吴沈括 S. Boutillier:网络空间国际规则与《巴黎倡议》高端视野|吴沈括 L. Valenti:数据跨境调取与布达佩斯公约第二补充议定书高端视野|吴沈括 H. MANZOOR:数字安全与联合国打击网络犯罪公约高端视野|吴沈括 Elena Scarpelli:欧盟数据主权与《电子证据条例》立法高端视野|吴沈括 Andrea Fusi:欧盟数字转型与《数字权利和原则宣言》高端视野 | 欧盟委员会《欧洲数据治理条例》提案研究数字治理全球洞察 | 跨境数据治理前沿系列:【研究报告】数据跨境治理国别规则(10):澳大利亚
【研究报告】数据跨境治理国别规则(9):俄罗斯
【研究报告】数据跨境治理国别规则(8):印度
【研究报告】数据跨境治理国别规则(7):马来西亚
【研究报告】数据跨境治理国别规则(6):新加坡
【研究报告】数据跨境治理国别规则(5):韩国
【研究报告】数据跨境治理国别规则(4):日本
【研究报告】数据跨境治理国别规则(3):德国
【研究报告】数据跨境治理国别规则(2):爱尔兰
【研究报告】数据跨境治理国别规则(1):欧盟数据监管 | 上海:启动数据出境安全评估政策系列宣讲活动
动向|印度:拟设立“数据大使馆” 为数据提供“外交豁免权”
重磅|北京:建设“数据特区” 打造全球数字经济标杆城市
重磅|上海网信办:数据出境安全评估申报工作十问十答(二)
重磅|发改委、商务部:放宽数据要素交易和跨境数据业务市场准入
数据跨境|欧-美数据隐私框架充分性决定草案:认可美国数据保护水平
数据跨境|英国就韩国达成数据跨境充分性认定 助力实现双边经济增长
数据跨境取证|吴沈括 蔡佩原:英国-美国《数据访问协议》中译本(2022-10-03施行)
数据跨境|拜登《关于加强美国信号情报活动保障的行政命令》(中译本)高端视野|吴沈括 孙鹏程:《数据出境安全评估办法》下的出境合规准备工作重磅 | 国家互联网信息办公室《数据出境安全评估办法》(全文)
重磅 | 国家互联网信息办公室公布《数据出境安全评估办法》(附答记者问)
速递|欧洲数据保护委员会关于欧美跨大西洋数据隐私框架协议的声明动向|欧盟与美国有望在2022年春季达成新的数据跨境传输协议高端视野|吴沈括 蔡佩原:欧盟《数据法案》(草案)的非个人数据跨境制度高端视野 | 吴沈括 邓立山:WTO框架下的数据跨境规则研究高端视野 | 吴沈括 邓立山:OECD框架下的数据跨境规则研究高端视野 | 吴沈括 邓立山:DEPA框架下的数据跨境规则研究
高端视野 | 吴沈括 邓立山:G20框架下的数据跨境规则研究
高端视野|吴沈括 邓立山:CPTPP框架下的数据跨境规则研究
高端视野|吴沈括 邓立山:RCEP框架下的数据跨境规则研究
高端视野 | 吴沈括 邓立山:APEC框架下的数据跨境规则研究高端视野|吴沈括 邓立山:APEC框架下关于数据跨境的CBPR规则研究数字治理全球洞察 | 数据治理前沿系列:速递|最高人民法院发布第35批指导性案例 强化个人信息刑法保护
吴沈括|全面落实上位法律规范 培育数据安全管理生态
重磅|工信部《工业和信息化领域数据安全管理办法(试行)》(全文)
数据司法|欧盟法院:如果个人信息“明显不准确” 有权要求搜索引擎移除搜索结果
最高检发布5件依法惩治侵犯公民个人信息犯罪典型案例
《“十四五”全民健康信息化规划》:医院核心信息全国互通 强化网络与数据安全
汽车数据处理、个人信息安全工程指南等14项国家标准发布
EDPB:执法资源不足导致个人数据保护的监管面临风险
速递|印尼国会审议通过《个人数据保护法》高端视野|吴沈括:《企业涉个人信息刑事风险合规风控》研究报告重磅|中央深改委通过《关于构建数据基础制度更好发挥数据要素作用的意见》
瞭望|英国公布2022年《数据改革法案》具体计划 称为“脱欧后的胜利”数据执法|法国数据监管机关:对谷歌分析工具的整改不会让它变得合法高端视野 | 跨国企业数据保护官(DPO)设置研究(上篇)国家市场监督管理总局 国家互联网信息办公室关于开展数据安全管理认证工作的公告观点|阻碍医疗数据研究革命的是法律问题,而不是基础设施
检察日报|吴沈括 李涛:数字经济语境下流量劫持的刑事治理数据监管|匈牙利就AI数据处理侵权对布达佩斯银行科处高额罚款数据监管|法国数据保护机关就健康数据泄露处罚生物公司150万欧元
欧洲数据保护委员会(EDPB)关于执法合作的声明(4月28日)
速递|欧洲数据保护委员会关于比利时数据保护机关独立地位的质疑关切数据监管|芬兰数据保护机关因诊所实现数据主体权利不力科处行政罚款数据监管|欧洲数据保护专员(EDPS):是时候瞄准在线广告了!数据监管|爱尔兰数据保护委员会宣布对Meta(脸书)处罚1700万欧元数据监管|意大利数据保护机关就面部识别处罚美国Clearview公司2000万欧元数据监管|波兰数据保护机关就员工造成数据泄露对公司处以创纪录罚款数字治理全球洞察 | 网络安全治理前沿系列:速递|商务部发布不可靠实体清单 美国公司洛克希德·马丁与雷神在列
速递|美国禁止华为中兴等5家中企在美销售设备
英国延后华为临时禁令 但2027年底前全面移除5G设备不变
美国网络安全禁令生效,限制向中国等国家共享网络漏洞重磅|欧盟委员会2022年《网络安全条例》提案(全文)重磅|欧盟委员会2022年《信息安全条例》提案(全文)数字治理全球洞察 | 网络平台治理前沿系列:速递|工信部征求意见:提升移动互联网应用服务能力,强化全流程个人信息保护
重磅|市场监管总局对知网滥用市场支配地位罚款8760万元并责令全面整改(附行政处罚决定书)
重磅|中央网信办秘书局 中国证监会办公厅《非法证券活动网上信息内容治理工作方案》(全文)
重磅|国家网信办、工信部、公安部《互联网信息服务深度合成管理规定》(全文)
国家六部门:网约车平台采集个人信息应在中国内地存储使用 保存不少于2年
重磅|反不正当竞争法(修订草案征求意见稿)禁止利用数据算法不正当竞争
国家互联网信息办公室修订《互联网跟帖评论服务管理规定》发布施行
EDPB通过有关TikTok的法律文书 TikTok停更个性化广告的法律基础重磅|国家广电总局、文旅部《网络主播行为规范》(全文)
重磅|中央深改委:将平台企业支付和其他金融活动纳入监管 服务实体经济
国家网信办《互联网跟帖评论服务管理规定(修订草案征求意见稿)》(全文)全国人大常委会法工委披露反垄断法、反电信网络诈骗法二审稿修改内容
重磅|国家网信办修订发布《移动互联网应用程序信息服务管理规定》(全文)
数字治理全球洞察 | 数字政府治理前沿系列:重磅|国务院《关于加强数字政府建设的指导意见》(全文)数字治理全球洞察 | 未成年人保护前沿系列:光明网|吴沈括:未成年人网络保护面临技术、组织、内容三重风险
数字治理全球洞察 | 电信网络诈骗治理前沿系列:2022年电信网络诈骗治理报告:以短视频平台为样本的研究
发布反电信网络诈骗倡议!北师大主办2022年世界互联网大会乌镇峰会网络法治论坛
吴沈括 黄诗亮|《反电信网络诈骗法》的治理要旨与合规启示英译本|《中华人民共和国反电信网络诈骗法》(全文)重磅|《中华人民共和国反电信网络诈骗法》(全文)重磅 | 《反电信网络诈骗法(草案二次审议稿)》(全文)数字治理全球洞察 | 数据跨境取证前沿系列:重磅|司法部明确涉诉数据信息的跨境调取规则数据跨境取证|吴沈括 蔡佩原:英国-美国《数据访问协议》中译本(2022-10-03施行)数字治理全球洞察 | 数据认证前沿系列:专题|数字大咖谈:中国个人信息保护认证面面观
高端视野|吴沈括:个人信息保护认证的制度意义与实践价值
吴沈括 邱芷蕙|美国TrustArc隐私与数据治理框架(P&DG)要览吴沈括 周奕达|美国TRUSTe企业隐私认证的机制概要与价值启示前沿|EDPB批准德国州数据保护机关有关数据保护认证计划的意见数字治理全球洞察 | 数据要素市场前沿系列:动向|印度:拟设立“数据大使馆” 为数据提供“外交豁免权”
重磅|北京:建设“数据特区” 打造全球数字经济标杆城市重磅|发改委、商务部:放宽数据要素交易和跨境数据业务市场准入
Meta将个人数据用于广告投放 被欧盟罚款3.9亿欧元
数据要素市场|厦门公布《厦门经济特区数据条例》(全文)
《四川省数据条例》获表决通过 2023年1月1日起实施
数据要素立法|《陕西省大数据条例》(全文)数字治理全球洞察 | 人工智能治理前沿系列:动向|欧盟AI法案欧洲议会遇阻:创新和安全难以兼顾
洞察|美欧首个全面人工智能协议达成,对我国影响几何?洞察|大火的“ChatGPT”,潜在的“数据安全隐患”重磅 | 中国关于加强人工智能伦理治理的立场文件
速递|美国总统拜登签署《人工智能培训法案》
EDPS:欧洲委员会《人工智能公约》谈判应当加强基本权利保护数字治理全球洞察 | 数字经济治理前沿系列:动向|美国议员鼓动强化对美在中国投资审查
吴沈括|构筑面向数字化和全球化的数据跨境流通生态
美国PCAOB:现行合作框架满足对中概股审计底稿核查的要求
数据资产|财政部:企业应按规定披露不同类型数据资源
吴沈括 崔鑫铭|《北京市数字经济促进条例》助力建设全球数字经济标杆
重磅|《北京市数字经济促进条例》通过 重点培育数字经济核心产业数字治理全球洞察 | 国别研究系列(美国):突发 | 美国商务部把5家中国公司和研究所列入“实体清单”(附名单)
洞察|美欧首个全面人工智能协议达成,对我国影响几何?重磅|外交部网站:《美国滥施“长臂管辖”及其危害》报告(全文)
吴沈括 黄诗亮|美国智库CNAS《数字监控生态系统》报告解析吴沈括 黄诗亮|美国智库New America《数字政府建设路径》报告解析
吴沈括 黄诗亮|美国智库CNAS《开放未来:5G的未来之路》报告解析数字治理全球洞察 | 国别研究系列(欧盟):跨境合规|如何应对外国投资审查?聚焦欧盟和英国
数字治理全球洞察 | 联合国网络犯罪公约系列:吴沈括 胡云|联合国网络犯罪公约特委会工作路线图(中译本)
数字治理全球洞察 | 出口管制与制裁前沿系列:动向|美荷日达成芯片管制协议 对华加大限制数字治理全球洞察 | APP治理前沿系列:重磅|国务院《关于加强数字政府建设的指导意见》(全文)数字治理全球洞察 | 反洗钱治理前沿系列:重磅 | 中国人民银行发布《2021年反洗钱报告》(全文)
图文编辑:北京师范大学 戴立昀
来源:数据学堂

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存