数据中台盛行,DataOps兴起,数据架构才是未来
The following article is from DG数据治理 Author 龚菲
在数字化转型的浪潮下,数据架构备受关注。作为企业架构中的关键纽带,数据架构解决了业务与数据的映射,规范了应用架构的数据集成关系,指导了技术架构的技术选型。伴随DataOps等场景的出现,数据架构会逐步走向数据消费端,为企业带来更多的变化和新发现。
小明打算在有生之年买一套北京二环内的房子,相关机构需要分析小明是否有买房资格,这是业务需求;那么为了分析小明的买房资格,最起码需要小明的身份数据、婚姻数据、在京纳税数据、在京缴纳社保数据、在京房产数据,这些是数据需求;为了有效获取并集成这些数据,以实现相关机构分析小明买房资格的业务需求,我们需要下图所示的数据架构 (注:此处只是简单例子,企业真实数据架构含有很多组件,会复杂很多)。
图1 分析买房资格的数据架构
作为连接企业架构中其他三个架构(业务架构、应用架构、技术架构)的关键纽带,数据架构解决了业务与数据间的映射,规范了应用架构中的数据集成关系,指导了技术架构的技术选型。
图2数据架构是企业架构中的纽带
数据架构是对企业当前数据状态的整体性描述,通过数据架构,企业数据状态一目了然,通过分析数据架构中的不足与业界的差距,可以帮助企业定义未来的状态目标,帮助企业快速制定战略数据需求。
数据架构为整个企业提供了一致的数据语言(包括标准业务词汇表、标准技术元数据等),将业务架构中的业务需求转化成为了数据、系统、技术需求,使不同部门和不同身份的技术和业务人员在数据层面达成一致,为数据标准化和数据集成提供了良好的支撑。
数据生命周期中包括了数据的创建、获取、移动、转换、存储、维护、共享、使用、处理等诸多流程,在整个生命周期中数据可以被清理、转换、合并、更新和汇总,涉及到太多的数据流转过程,规范数据在诸多生命周期阶段的流转细节可能会非常复杂,要求不同阶段之间相互理解并随时达成一致,此时数据架构必不可少。
作为企业层面的“主蓝图”,数据架构中包含诸多组件,企业需求的不同可能导致其数据架构包含的组件也不相同,以下是数据架构中的一些常见组件:
概念数据模型:概念数据模型是能表示现实世界的概念化结构,通过概念实体及关系,从业务的角度对信息进行的高层级描述。如在文章最开始的例子中,小明买房的整体建模就可以理解为是一种简单的概念模型,概念模型是为了让业务能明白数据有什么,帮助数据与业务沟通。
逻辑数据模型:逻辑数据模型在概念数据模型的基础上定义了各个实体的属性,是对概念模型的进一步细化,包括所有的实体、实体的属性、实体之间的关系以及每个实体的主键、实体的外键等。逻辑模型帮助数据与应用沟通,比如应用需要小明的身份信息,逻辑模型里就需要有个身份信息的数据实体,并且需要明确身份信息中的各个属性(如身份证号、姓名、年龄等)。
物理数据模型:物理数据模型是在逻辑数据模型的基础上,综合考虑各种存储条件的限制,将逻辑数据模型中的实体、属性以及关系转换成的物理元素(表、字段、索引等)。物理数据模型是帮助数据与技术沟通,明确了数据到底怎么建,存储的位置等。比如小明的身份信息具体存在那个物理表中就是在物理模型中明确的。(注:物理模型虽然属于数据架构的组件,但不是数据架构的产物)
数据流中主要需要设计数据如何流动,如小明需要买房,小明的社保信息需要从社保中心获取,小明的纳税信息需要从税务局获取,这些数据需要从社保中心、税务局流动到买房资格那里供分析使用,这就是数据流。数据流是数据架构很关键的部分,表示了数据从哪个源头来,到哪里去使用的过程。如身份信息就需要从公安获取,而不能从社保中心获取。数据流的设计也是数据架构设计的必备设计。
价值流更容易理解,所有的业务都有业务流程,而业务流程中会产生/使用/销毁数据,这里需要设计,哪些数据会在关键价值流中使用,对业务流程有关键作用,比如小明买房资格中的所需关键信息就是价值流需要设计的部分。
在数据架构中需要规定数据模型的标准规范,包括标准的数据模型定义方式、模型属性的标准规范等,我们通常这个标准规范为数据标准。从理论上讲,所有的数据模型、数据流、数据映射关系的建设都需要参考数据定义和数据标准,从而保证数据在各个环节的拉通。
现在数据中台建设已经成为企业数字化转型的必选件,数据架构需要从模型为导向,走向以服务为导向。传统数据架构更重视内部信息的建模和梳理,为信息化打下了很好的基础。未来数据建模依然是企业数据架构的基础,这点毋庸置疑,但是为了使数据架构真正落地,为数据消费端服务,未来在数据建模的同时需要考虑数据服务需求,提前确定服务水平协议(SLA,Service Level Agreement),这将会成为未来企业数据架构规划的重点。
数据建模与数据集成依然是数据架构的重要任务,但数据集成方式应该参考服务化架构,不应该再单纯关注底层模型,以梳理现状为主,而应该从数据与业务的关联入手,在模型层之上规划需要提供给业务的数据服务,在数据模型设计时就要让业务明白数据服务与底层数据的关系。
(欢迎大家加入数据工匠知识星球获取更多资讯。)
联系我们
扫描二维码关注我们
微信:DaasCai
邮箱:ccjiu@163.com
QQ:2286075659
热门文章
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。