数据中台中的核心概念解析
1、什么是概念模型,逻辑模型,物理模型?
概念模型指的是对某一个领域或系统中的概念、属性、关系等进行抽象和概括的模型,通常用来描述系统中的一些基本概念和它们之间的关系,以帮助人们更好地理解和分析系统。例如,一个零售业务的概念模型可能包括顾客、产品、订单、支付等基本概念及其之间的关系。
逻辑模型指的是对某个系统或过程中流程、决策和控制的逻辑顺序进行建模和分析的模型,通常用于定义和描述系统中的业务流程、决策规则和逻辑控制。例如,在一个订单处理系统中,逻辑模型可能包括订单接收、订单审核、订单分配、交付等步骤及其逻辑顺序和判断条件。
物理模型指的是将概念模型和逻辑模型转换为物理实现的模型,也就是系统的实际架构和部署方式。物理模型包括如何组织和实现系统的数据、应用程序、网络和硬件等方面的设计。例如,在一个订单处理系统中,物理模型可能包括数据存储方式、应用程序部署位置、网络架构和服务器配置等方面的设计。
简单的描述:
概念模型:只有实体名称、没有属性,偏业务
逻辑模型:有实体的名称、也有属性,偏业务
物理模型:标准和规则,偏技术,物理模型可以直接到数据库进行创建表。
数据模型的数据架构的颗粒度要足够小,则灵活性越大,否则越容易返工。
建模的方法: 1)基于关系, 2)基于维度建模 3)基于事实 4)基于时间 5)非关系型
2、什么叫数据的颗粒度?
数据的颗粒度指的是数据记录的粒度大小,即数据记录中所包含的信息的详细程度。数据的颗粒度越细,记录的信息就越详细,反之则越粗略。
以销售数据为例,如果我们记录每一个产品,每一个顾客和每一个交易的详细信息,那么数据的颗粒度就是很细的,可以获得更详细的销售数据和顾客行为信息,但需要记录的数据量也会很大;如果我们只记录每天的总销售额和总交易次数,那么数据的颗粒度就是粗略的,可处理的数据量少但数据处理效率高。
在实际应用中,对于不同的目的和需求,需要选择适当的数据颗粒度进行记录和分析。比如,对于销售数据分析,通常需要记录至少每一个订单或每一个产品的销售信息,以便进行产品销售分析和顾客行为分析等。
3、什么是数据的域,什么是主题域?
数据域指的是某个数据元素可取值的范围或取值限制,它规定了这个数据元素可以取哪些值,以及取值的类型、格式、长度、精度等。
数据域可以理解为数据的“合法取值范围”,它是对数据进行约束和限制的一种方式。例如,一个表示性别的数据元素,它的数据域可能限制只能取“男”或“女”两个值;一个表示年龄的数据元素,它的数据域可能限制取值范围在0-120岁之间等等。
在数据采集、存储、处理和分析过程中,确定数据域非常重要。它可以避免无效数据进入系统,确保数据的准确性和一致性,提高数据处理的效率和正确性,保证数据的质量和可信度。
数据域的作用,可以实现数据库中批量修改一个字段 在不同表中的取值范围,限制等,不需要一个一个的去不同表里面去修改。提高数据处理的效率和正确性,保证数据的质量和可信度。
数据的主题域是业务的概念,数据的主题域指的是一个特定的主题或领域,包含了所有相关的数据和信息。主题域通常是一个特定的数据集合或数据存储,它围绕一个明确定义的主题或领域来组织数据和信息。
例如,一家电商网站的主题域可能包括产品、顾客、订单、物流等方面的数据,这些数据都与电商经营和运营相关。一个医疗保健组织的主题域可能包括患者、疾病、医生、药物、医疗费用等方面的数据,这些数据都与医疗保健业务有关。
数据的主题域定义了一个完整的数据集合,它使得数据可以按照特定领域或业务的要求进行组织、查询、分析和管理。主题域是数据仓库、数据集成和数据分析的基础,通过对主题域的定义和管理,可以使企业或组织更好地利用数据资源,提高业务决策的效率和准确性。
4、数据建模中的正向工程和逆向工程?
数据建模是指使用特定的建模软件和技术,将现实世界中的事物和关系转化为可视化和可操作的数据模型。在数据建模过程中,正向工程和逆向工程是两个重要的概念,分别表示从不同角度对数据建模进行处理的过程。
正向工程指的是从数据模型的图示或文本描述生成目标系统的过程。具体来说,就是将建好的数据模型转化为实际的计算机程序代码,在系统中实现数据的结构和功能。
逆向工程则是指从目标系统中已有的数据模型推导出数据模型的图示或文本描述的过程。它可以用来研究和理解已有系统的结构和功能,以及用于系统重构、升级、优化等目的。
在实际应用中,正向工程和逆向工程是数据建模过程中非常重要的工具和方法。正向工程可以帮助开发人员将数据模型转化为实际可用的系统,加快系统的开发进程;逆向工程则可以帮助开发人员理解旧系统的结构和功能,更好地对其进行维护和优化。同时,这两个工程也可以相互配合使用,例如,针对已有的系统进行逆向工程分析、确认结构,然后再针对分析结果进行正向工程开发,更好地利用已有系统的基础。
5、数据治理的正常的顺序?
1)元数据、数据安全、数据架构设计
2)数据质量、数据标准、数据模型设计
3)主数据,数据仓库建设、数据开发、数据服务
6、冷热数据存储在什么数据库中?
冷热混合数据一般存储在关系型数据库(如MySQL、PostgreSQL、Oracle等)或者文档数据库(如MongoDB、Couchbase等)中,因为这些数据库可以提供高度一致性、事务支持和较好的数据查询性能。 也提供一些新增数据更新数据。
hdfs 趋向于冷数据存储。SPL趋向存储冷数据和分析型数据
热数据则通常存储在内存数据库(如Redis、Memcached等)或者列存储数据库(如HBase、Cassandra等)中,因为这些数据库可以提供更快速的数据访问速度和更好的数据处理性能。
7、什么是业务架构,什么是数据架构,什么是技术架构?
业务架构是指对企业的业务模式、流程、组织结构、管理模式等方面进行分析和设计,以达成业务目标并支持企业的使命和战略。业务架构通常涉及业务流程设计、价值链分析、业务流程重设计、战略规划等方面。
数据架构是指企业采集、管理和使用数据的方式及其组织结构。数据架构包括数据模型、数据存储方式、数据管理流程、数据治理规划等等。
技术架构是指企业在实现业务和数据架构的过程中,所选择的技术方案和技术层次结构,包括软件、硬件和网络等。技术架构通常涉及系统设计原则、技术选型、架构设计、系统集成和部署等方面。 这三种架构相互关联,是企业建设及运营的重要方面,应该被有效地统筹规划和管理。