查看原文
其他

我所经历的大数据平台发展史(上篇)-非互联网时代数据模型

松子 ( 李博源 ) 数据工匠俱乐部 2021-10-15

前言

“数据模型”只要是跟数据沾边就会出现的一个词,在数据库设计、数据仓库、数据挖掘上、业务里都存在。聚焦一下,这里提到的是数据平台中的“数据模型”。 这是一个非常的抽象词,个人也很难用简单语言把他描述出来,这一章也是整个系列中较为抽象的一章节,同时这个章节将会回答非互联网数据平台数据模型是什么?如何需要数据模型?如何来建设?

在“我所经历的大数据平台发展史(上篇)-非互联网时代数据平台的发展”曾经提到Bill inmon与 Ralph kilmball两位大师的设计理念,对业务的数据按照某种规则进行有效组织并满足业务需求。在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。


非互联网时代的数据模型是一个高度智慧业务抽象结晶,数据模型是整个系统建设过程的导航图。


图1数据模型示意图


平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为数据加工算法。互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、理清数据与数据之间的关系。(备注:Datacleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。


大家来看一张较为严谨的数据模型关系图:

  •  数据模型是整个数据平台的数据建设过程的导航图。

  • 有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑层角度进行了全面描述,通过数据模型,可以建立业务系统与数据之间的映射与转换关系。排除数据描述的不一致性。如:同名异义、同物异名。

  • 减少多余冗余数据,因为了解数据之间的关系,以及数据的作用。在数据平台中根据需求采集那些用于分析的数据,而不需要那些纯粹用于操作的数据。


在面对企业复杂业务与成千上万的数据项进行设计时,没有几个牛的人能记得住,所以出现了按照某种层次规则去有组织并抽象与管理易用,由此诞生了概念模型、逻辑模型、物理模型。(备注 数据平台数据模型,而非数据挖掘的模型)。


数据模型在数据平台的数据仓库中是一个统称,严格上来讲分为概念模型、逻辑模型、物理模型。(备注:四类模型如何去详细构建文本不深讲,关于非互联网企业的数据模型网上非常多)


图2数据模型类型


在“我所经历的大数据平台发展史(上篇)-非互联网时代数据平台的发展”提到两位大师的架构与争论,进一步聚焦来说,争论点我的认为其实是在数据模型的支持上,Bill Inmon的EDW的原则是准三范式的设计、Ralph kilmbal是星型结构。


Bill Inmon对EDW 的定义是面向事物处理、面向数据管理,从数据的特征上需要坚持维护最细粒度的数据、维护最微观层次的数据关系、保存数据历史。所以在构建完毕的数据平台中可以从中映射并检查业务信息的完整性(同时也是养数据过程中的重要反馈点),这种方式还可以找出多个系统相关和重合的信息,减少多个系统之间数据的重复定义和不一致性,减小了应用集成的难度。


图3数据模型示例1


图4数据模型示例2


该建设方式的要点是首先建立各个数据源业务的实体关系、然后再根据保存的主子实体关系、存储性能做优化。


Ralphkilmball 对DM(备注:数据集市,非挖掘模型)的定义是面向分析过程的(Analytical Process oriented),因为这个模型对业务用户非常容易理解,同时为了查询也是做了专门的性能优化。所以星型、雪花模型很直观比较高性能为用户提供查询分析。



该方式的建模首先确定用户需求问题与业务需求数据粒度,构建分析所需要的维度、与度量值形成星型模型;(备注涉及的复杂维度、退化维度等不在这个讨论范围)。


数据模型的业务建模阶段、领域概念模型阶段、逻辑模型阶段、物理模型阶段是超级学术与复杂的话题,而且在模型领域根据特点又分主数据(MDM)、CIF(企业级统一视图) 、通用模型(IBM 的金融、保险行业通用模型、 Teradata的 金融通用模型、 电信移动通用模型等),锁涉及到术语”扩展“扁平化” 、“裁剪” 等眼花缭乱的建模手法,数据模型不同层次ODS、DWD。DWD、DW、ST的分层目的不同导致模型设计方法又不同。相信业界有很多大牛能讲的清楚的,以后有机会再交流。





本文带大家回忆了历史非互联网的数据平台发展与核心模型特点,当然数据平台的发展不是一步到位的,是经过无数人的智慧、努力反复迭代而逐渐演进的。


非互联网企业的数据平台发展,每一代的平台架构中的结构都是及其复杂的,比如ETL架构、数据模型架构、BD的架构、前端展现、元数据、数据质量等各方面,每一部分展开都是一个很深的话题,有机会再分享给大家。


下篇将会给大家分享互联网时代的数据平台相关内容,互联网的数据平台也就是在07年-08年左右开始迅猛发展的,在发展的初期也是从传统数据平台的第三代架构开始演进的,互联网产品发展特点是“糙、快、猛”,同时数据量的超快速膨胀所带来的技术变革,从数据仓库->海量数据->大数据膨胀必然原有的技术无法支撑高IO吞吐、密集型计算,从而发展了合适互联网大数据平台。


数据平台系列预告

第三篇: 讲述互联网数据平台发展阶段

第四篇: 讲述互联网数据平台的核心-数据模型


作者简介

李博源, 网名松子,个人公众号:songzi2016 从业数据仓库领域工作近20年。

END


热门文章


我所经历的大数据平台发展史(上篇)-非互联网时代数据平台的发展


知识普及(二):标准化基础知识漫谈(1)-咱标准化人的入门“第一课”


智能工厂视角下的能源化工企业数据架构相关思考


战略管控型 (投资) 集团财务域数据治理建设初探


主数据标准化项目阶段划分、实施难点及应对措施经验分享


做数据治理行业的工匠者 ——浅谈物料主数据实施难点、策略及方法步骤


政务数据资产管理之数据架构赏析

长按二维码识别关注我们联系我们

微信:DaasCai

邮箱:ccjiu@163.com

QQ:174856958

我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。

我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。

我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。

了解更多精彩内容

长按,识别二维码,加关注

数据工匠俱乐部

微信号 : zgsjgjjlb

专注数据治理,推动大数据发展。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存