查看原文
其他

一图展示数据中台的数据流图

ruby ruby的数据漫谈
2024-09-27

摘要:在数据行业,我们经常会提到数据流图,那么如何画数据流图,如何画一个正确的可以快速让人理解的数据流图了,以及我们数据中台的数据流图是怎样的?


  • 数据流图是解决什么问题的‍‍‍
  • 如何画数据流图‍‍
  • 数据中台的数据流图‍‍‍‍‍‍‍


01

数据流图解决什么问题


数据流图主要被分析师、系统设计师、流程优化专家、系统管理员以及与系统开发和维护相关的人员查看和使用。通过数据流图,这些人员可以更好地理解和分析系统中的数据流程,从而能够更好地进行设计、优化、故障排查和系统集成等工作。数据流图的主要目的是说明数据的流动路径和转换过程,以及参与数据流动的实体、进程和存储点,从而提供对系统运作和数据处理过程的视觉化概览。


数据流向图主要用于解决以下问题:

1、需求分析和系统设计:数据流向图可以帮助分析人员理解需求,识别数据的来源、流向和处理过程,从而进行系统的设计和规划。

2、流程优化和改进:通过绘制数据流向图,可以查看和分析数据在系统中的流动路径,找到可能存在的瓶颈、冗余和低效的环节,以便优化和改进业务流程。

3、故障排查和问题定位:当系统出现故障或问题时,数据流向图可以帮助定位问题所在,追踪数据在系统中的流动和处理过程,从而更快地找到问题的根源。

4、系统集成和接口设计:对于需要与其他系统进行集成或交互的系统,数据流向图可以清晰地呈现数据的输入和输出,有助于设计和定义系统间的接口和数据传递方式。

5、系统文档和沟通工具:数据流向图可以作为系统的文档和视觉工具,以便于沟通和交流系统的数据处理过程,帮助各方理解系统的工作原理和数据流动情况。


数据流图一般由系统分析师或业务分析师来绘制。他们负责研究和理解业务流程,并将其转化为可视化的图形表示。这些分析师通常具有对业务流程和系统需求的深入理解,能够捕捉到数据的流动、处理和存储的细节,并将其编写成数据流图。

数据流图可以帮助我们全面、清晰地描述和分析系统中的数据流动和处理过程,从而提高系统分析与设计的效率和质量。

此外,数据流图还具有以下应用:

作为系统文档:数据流图可以作为系统的一部分文档,记录和描述系统中的关键数据流程和组件。

作为沟通工具:数据流图可以用来与不同角色的团队成员、利益相关者或客户交流和共享信息,帮助大家理解系统的运作和设计。

作为培训工具:数据流图可以用于培训新成员或用户,帮助他们了解系统的基本流程和数据传递。

作为审计工具:数据流图可以用于审计系统的安全性和合规性,识别潜在的数据泄漏或违规行为。


既然数据流图重要,那么如何画好数据流图了?‍‍



02

如何画数据流向图‍‍‍‍‍


数据流图的构成‍‍


数据流图(Data Flow Diagram,简称DFD)是一种用于描述信息系统过程的图形工具。它通过图形化的方式展示了数据在信息系统中的流动和处理过程,帮助我们理解和描述系统中的数据流向和交互方式。

数据流图通常由以下几个基本要素构成:

1、实体/角色(Entities):表示与系统进行交互的外部实体,可以是人、组织或其他系统。

2、数据流(Data Flows):表示数据在系统中的流动过程,它们代表着数据从一个地方流向另一个地方。

3、进程/转换(Processes):表示对数据进行处理、转换或计算的功能模块。进程接收输入数据流,并生成输出数据流。

4、数据存储(Data Stores):表示数据在系统中的存储和持久化位置,如数据库、文件或其他存储介质。

5、外部实体(External Entities):表示与系统交互的外部实体,可以是用户、其他系统或外部组织。

数据流图还可以包括其他组成部分,如数据库、系统界面和信号。它们可以用来表示数据的持久化存储、系统之间的数据交互和系统的输入输出。

数据流图通过使用符号和箭头来表示各个要素之间的关系和交互。它可以按层次结构组织,从而提供对系统的不同层面的描述和分析。数据流图通常被用于需求分析、系统设计和系统文档编写等阶段,以帮助设计和理解信息系统的结构和功能。


如何画好数据流图
要画好数据流图,可以按照以下步骤进行:
1、确定系统范围:明确数据流图所描述的系统或过程的边界。确定主要的实体/角色、数据流、进程/转换、数据存储、外部实体等。
2、识别实体/角色:确定系统中的实体或角色,它们是与系统进行交互的外部对象。这些实体可以是人员、组织或其他系统。
3、识别数据流:确定系统中的数据流,它们代表在实体、过程和存储之间流动的信息。标识每个数据流的名称和描述。
4、确定进程/转换:定义系统中的进程或转换,表示数据流的处理过程。标识每个进程的名称和描述,确定进程之间的关系。
5、识别数据存储:确定系统中的数据存储,表示数据流被存储或提供给处理过程的位置。标识每个数据存储的名称和描述。
6、确定外部实体和数据库:识别与系统交互的外部实体和系统的数据库。在数据流图中标识它们,以显示数据流的起点和终点。
7、画图:使用适当的符号和图形来表示实体、数据流、进程、数据存储和外部实体。连接它们以显示数据流的流向和处理过程。
8、评审和改进:与相关人员一起评审数据流图,确保其准确反映了系统或过程的需求和流程。根据反馈进行修改和改进。
请注意,在绘制数据流图时,应使用标准符号和规范,以便他人能够理解和使用图形。可以使用工具或软件来绘制数据流图,例如 Microsoft Visio、Lucidchart 等。

在数据流图中,各元素有一套标准符号和规范,以便更好地理解和解释系统的数据流向。以下是常见的数据流图元素及其标准符号:

1、实体/角色(Entity/Agent):代表系统的外部实体,如用户、部门等。标志为一个简单的方框,可在内部加上实体的名称。

2、数据流(Data Flow):代表数据在不同实体和进程之间流动的路径。标志为一根带箭头的线,箭头指向数据的流向。

3、进程/转换(Process/Transformation):代表对数据的处理或转换过程。标志为一个圆角矩形,内部可以注明进程的名称。

4、数据库(Data Store):代表数据在系统中的持久存储,如数据库、文件等。标志为一个长方形,两条竖线表示存储的位置。

需要注意的是,除了这些基本元素之外,还可以使用注释和说明来更全面地描述数据流向图中的元素和关系。

这些标准符号和规范有助于确保数据流向图的一致性和规范性,同时使读者更容易理解和解释系统的数据流动。



03

数据中台流向图‍‍



以上是从数据中台的整体数据流向来画的数据流图,其中主要的模块包含数据源中的各种数据库,以及同步功能模块,实时计算模块,以及批量计算模块,最后就是数据服务和离线同步数据模块。‍‍

1、数据同步中的实时同步是同步开发人员配置好实时同步作业,其中实时同步作业采用flinkCDC来处理数据,而数据源则采用监听oracle数据库的re dolog和mysql的binlog作为数据源。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

2、数据同步中的实时同步是同步人员配置好离线同步作业,其中离线同步作业采用Data X来处理数据,而数据源则轮询查询数据库和API的方式获取数据。‍‍‍‍‍‍‍‍

3、实时作业是实时开发人员通过写flink流处理作业之后,实时读取kafka数据计算完成之后,如果是中间数据则存储回kafka,如果是最终结果则写回到WinQflow实时数据仓库。在流处理作业有时会读取WinQflow实时数据仓库放入内存作为流式计算使用。同时有些实时数据会实时存储到数据湖中,持久化存储到文件系统或者S3中。‍‍‍‍‍‍‍‍

4、离线作业是离线开发人员通过写SPL离线开发作业之后,经过powerjob调度之后之后,批量从WinQSPL数据仓库中读取数据,经过作业计算之后之后,写回到WinQSPL数据仓库中。同时有些离线数据会实时存储到数据湖中,持久化存储到文件系统或者S3中。‍‍‍‍‍‍‍‍‍‍‍‍‍

5、服务开发人员开发数据服务API之后,报表使用API访问数据,当报表和其它应用需要展示数据则会请求 服务API,服务API则调用各数据仓库的OLAP分析引擎,完成分析后将计算结果返回给报表展示。‍‍‍‍‍‍‍‍‍‍‍‍‍

以上是一个数据中台的数据流向图,不同中台采用的数据处理组件不同,则数据流图不同,本图仅供参考。


欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,商务合作加微信备注商务合作,AIGC应用开发交流入群备注AIGC应用




往期历史热门文章:

基于DataOps的数据开发治理:实现数据流程的自动化和规范化

数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析

数据治理体系该怎么建设?

实时数仓&流批一体技术发展趋势

数据仓库、数据中台、大数据平台的关系?

数字化转型如何促进业务的发展

数据中台中的核心概念解析

数据治理中的数据标准的作用?

全面数字化转型:打造全新营销模式



修改于
继续滑动看下一个
ruby的数据漫谈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存