查看原文
其他

数据资产如何进行有效分类? by 大鱼先生

讨厌的大鱼先生 大鱼的数据人生 2022-10-15

数据分类的目的是为了针对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比,不同的企业或组织基于不同的目的,可以从多个角度对数据进行分类,今天就来聊一聊主流的分法。


1、按照结构特征划分


可以分为结构化数据、非结构化数据及半结构化数据。


(1)结构化数据


指数据元素之间具有统一且确定关系的数据,它由明确定义的数据类型组成,结构化数据一般特点是数据以行为单位,一行数据表示一个实体的信息。每一行数据的属性是相同的。结构化数据的分析更为便利,且存在成熟的分析工具。


(2)非结构化数据


指数据元素之间没有统一和确定关系的数据,它是具有内部结构,但不通过预定义的数据模型或模式进行结构化的数据,如各种格式的图片、视频等,直接分析非结构化数据需要很强的专业性。


(3)半结构化数据


指非关系模型的,具有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等。


2、按照数据性质划分


可以分为参考数据、主数据、事务数据(或交易数据)、统计数据、观测数据(又叫时序数据),这在《华为数据之道》和《数据治理-工业企业数字化转型之道》都有提及,当然华为还提了规则数据,但这个跟参考数据有交叉。


(1)参考数据


指对其他数据进行分类和规范的数据,如国家、地区、货币等产业通用的数据及各产业特色基础配置数据,具有相对稳定、静态的数据,基本不会变化,往往通过系统配置文件给予规范并固化在信息管理系统中。


(2)主数据


指满足跨部门业务协同需要的、反映核心业务实体状态属性的基础信息。主数据是用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体,是在整个价值链上被重复或共享应用于多个业务流程、跨越多个业务部门和系统、高价值的基础数据,也是各业务应用和各系统之间进行数据交易的基础。从业务角度看,主数据是相对固定、变化缓慢的,但它是企业信息系统的神经中枢,是业务运行和决策分析的基础。


(3)事务数据


指在业务活动过程中产生的数据,是企业日常经营活动的直接体现,也是围绕主数据实体产生的业务行为和结果型数据,业务活动数据存在于联机事务处理系统中,就有瞬间生成和动态的特点。


(4)统计数据


是组织在经营分析过程中衡量某一个目标或事物的数据,一般由指标名称、时间和数值等组成。


(5)观测数据


指时间序列数据,它是按时间顺序记录的数据列,在同一个数据列中的各个数据必须是同口径的,要求具有可比性。在工业企业中,实时数据是时序数据的一种,如设备运行监测类数据、安全类监测类数据、环境监测类数据。


3、按照数据存储方式划分


可以分为关系型数据库存储数据、键值数据库存储数据、列式数据库存储数据、图数据库存储数据、文档数据库存储数据等。


(1)关系型数据库


采用关系数据模型的数据库系统,关系数据模型实际上是表示各类实体及其之间联系的由行和列构成的二维表结构。一个关系数据库由多个二维表组成。表中的每一行为一个元组,每一列为一个属性,对关系型数据库进行操作通常采用结构化查询语言。


(2)键值数据库


是一种非关系数据库,它使用简单的键值方法来存储数据。键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容。键值数据库是高度可分区的,并且允许以其他类型的数据库无法实现的规模进行水平扩展。


(3)列式数据库


是一种非关系数据库,以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,常用于联机事务型数据处理。


(4)图数据库


是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。最常见例子就是社会网络中人与人之间的关系。


(5)文档数据库


是 NoSQL 中非常重要的一个分支,它主要用来存储、索引并管理面向文档的数据或者类似的半结构化数据。


4、按照数据开放属性划分


可以分为禁止开放类、受限开放类、无条件开放类等。


(1)禁止开放类


开放后涉及国家安全、公共安全、经济安全和社会稳定的;涉及商业秘密、个人隐私的;因数据获取协议或者知识产权保护等禁止开放的;法律、法规规定不得开放的。


(2)受限开放类


涉及商业机密、个人隐私,其指向的特定公民、法人或者其它组织同意开放,且法律、法规未禁止的;开放将严重挤占公共基础设施资源,影响公共数据处理效率的;开放安全风险难以评估的;依法经脱敏、脱密等处理的禁止开放类公共数据,符合受限开放的,应列为受限开放类公共数据。


(3)无条件开放类


除禁止开放类与受限开放类公共数据以外的其他公共数据;已脱敏、脱密等处理的禁止开放类与受限开放类公共数据,符合无条件开放的,可列为无条件开放类公共数据


5、按照主题域划分


主题域是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类,并进行分析利用的抽象,主题域划分的方法有按业务、按系统、按部门等等。


(1)按系统划分,业务系统有几种,就划分为几类



下面是某MSS系统划分蓝图示例:



(2)按业务划分,比如业务系统中有商品、交易、物流等



下面是某证券行业业务主题域示例:



3)按部门规划比如公司内的生产、供应链、研发、销售等



下面某公共数据开放平台的单位目录示例:



数据分类在数据资产管理中的价值很大,但一定要以业务价值为导向,要么提升管理效率,要么能提升客户体验,不要为了分类而分类。



    企业数据治理团队的十大职能 by 大鱼先生
    数据治理,辨析清楚制度、机制、流程等概念的区别很重要 by 大鱼先生
    数据治理,是不是一道“送命”题?
    数据治理,请对oltp开炮!by 大鱼先生
    干货 | 携程度假数据治理之数据标准管理实践
    到底什么样的数据才有资格成为资产?by 大鱼先生
    8000字,详解银行业数据治理架构体系!
    深度剖析:华为数据之道的“不能” by 大鱼先生
    数据治理工具图谱研究报告(2021版)(附下载)
    部门不开放自己的数据,到底在怕什么?
    数据管理和数据治理那个大?

    点击左下角“阅读原文”查看更多精彩文章,后台回复【加群】申请加入万人数据学习社群


    🧐分享、点赞、在看,给个3连击呗!👇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存