01 主数据定义与主数据项目
先说说数据的层次模型,根据数据的特征、作用以及管理需求的不同,将数据分为6个层次,即:元数据、引用数据、企业结构数据、业务结构数据、业务活动数据、业务审计数据。
- 元数据(系统中最基础的数据):元数据描述数据定义、数据约束、数据关系等,在物理模型中,元数据定义了表和属性字段的性质。
- 引用数据(属性值域):引用数据定义了元数据的可能的取值范围(月份的引用数据为1-12月)(电商项目中订单状态可划分为待付款、待发货、待收货、已发货、已撤销等,引用数据是对数据分类的重要标准,不同状态的订单将会进入相应的业务流程,死信处理正在付款和未付款)
- 企业/单位结构数据:描述企业数据之间的关系,是多条主数据的集合(组织结构由组织机构、人员、岗位等主数据组成)。
- 业务结构数据:描述业务的直接参与者(典型的业务结构数据包含产品、客户数据),通常由唯一的数据编码以及大量的属性信息构成。
- 业务活动数据:记录运营活动中产生的业务数据,其实质是主数据之间活动产生的数据(客户购买产品的业务记录、工厂生产产品的生产记录)。
- 业务审计数据:记录数据的活动(对客户信息进行修改、对业务进行删除)。
基于上述数据层次模型,一般来说,主数据涵盖了元数据、引用数据、企业结构数据、业务结构数据。业务数据(业务活动数据、业务审计数据)以主数据为基石,衍生出分析数据。主数据项目是一个复杂的项目,表面上仅仅是一个物理载体,实质是管理流程、管理手段的一次变革。信息系统的实施的过程实际是组织、人员、流程及系统融合的过程。传统的软件项目是一个闭环系统,它会不断检验实施是否能达到最初的项目工作范围和业务目标。
(1)项目启动阶段通过进一步明确项目的工作范围与业务目标,奠定项目成功的基础。(3)系统上线启用阶段包括了所有与用户培训、系统初始配置、软件功能验证,以及对设计、开发、应用的使用情况评估分析相关等工作。
根据以往项目经验,主数据项目的实施方法主要分为两个阶段:
第一阶段(体系规划阶段):主要分为3个小阶段,分别是项目启动和需求分析阶段、体系规划与架构设计阶段、标准建立与主数据平台设计阶段,其主要工作任务为现状调研、构建主数据体系规划、主数据管理平台规划,搭建主数据标准体系、管理体系,形成主数据管理方案。第二阶段(平台实施阶段):主要分为3个小阶段,分别是客户化设计&开发&测试&数据清洗阶段、系统上线启用阶段、系统运维与持续优化阶段,其主要工作任务为搭建主数据管理平台,将主数据标准体系在主数据管理平台中实现,并实现与上下游业务系统集成,形成闭环主数据交互。根据成熟度模型 (初始级p0、可重复级p1、已定义级p2、已管理级p3、优化级p4、创新级p5)判断企业或单位所处的级别,对主数据应用现状和管理目标进行精炼,定位主数据应用及管理中存在的问题。了解现行标准体系与编码管理的应用现状,对编码体系进行评估。建立平台技术环境,通过对主数据管理平台的系统原型进行需求差异化分析主数据体系实施规划:对系统实施任务进行分解,明确每期系统建设的阶段目标、功能、内容、范围。
主数据管理体系设计:明确上级和下属单位之间的主数据管理模式,进行主数据管理流程设计。
主数据集成架构设计:明确主数据系统与企业或单位系统的横向数据交换方式,明确主数据系统与二级单位系统的纵向数据交换方式。
主数据安全架构设计:明确主数据安全体系中的安全策略、安全组织、安全技术、安全建设和运行。
建立主数据分类体系,对于企业,划分客户主数据、供应商主数据、通用基础主数据等;建立符合各类标准的描述模板。
提供通用主数据编码库、分类模型、描述模型,在项目实施过程中为主数据的分类及编码库的建立提供相应的设计方案。
明确主数据管理平台在与业务系统进行数据交换时的功能与方式,如Web Service(Web service 就是一个应用程序,它向外界暴露出一个能够通过Web进行调用的API),可查看主数据接收或分发日志,对不能正常处理的主数据进行主动预警,并按照预先设定规则处理。对数据清洗功能进行详细规划:数据清洗模型的建立,实现清洗过程中主数据的唯一性、完整性、一致性、合理性。第二阶段:平台实施阶段
根据客户实际业务需求对主数据管理产品功能模块进行定制化设计并开发。
依据数据标准进行系统内各类主数据标准模型建设,提供清洗工具,依据历史数据分析,制定由历史数据向标准化转化的清洗工作方案。主数据管理平台上线前需要对各类主数据不同类型的用户开展针对性培训,同时上线前还需要将系统初始化数据准备好,进行试运行。系统上线后,厂商实施人员和客户方统筹方要进行运维支持,保障系统平稳运行,为下游系统提供基础数据支撑。主数据管理系统实施阶段的重中之重,主要内容包括数据采集、数据清洗和数据导入。1、数据采集:在数据采集前,项目组为了提高准备数据的质量,应说明关键字段的含义、系统使用原理 以及和原系统数据的对应关系在数据采集的工具方面,一种方法是利用业务系统的数据导出工具,通过人工的方式整理为标准的数据采集格式;另一种是由项目组开发一套数据采集软件2、数据清洗:数据清洗的目的是检测数据中存在的错误和不一致,剔除或者改正它们,将剩余部分转换成数据标准所接受的格式,提高数据质量。(1)清洗原则(保证主数据的唯一性、完整性、一致性、合理性)- 清洗已使用的主数据编码,对于未使用的主数据编码采用停用等方式。
- 对企业统建系统的基础编码数据,可保留原编码规则,不进行编码的改动,仅完善维护相关属性值。
- 属性值不完整的编码数据,按照其主数据规范标准进行补充完善,使其完全符合数据标准化的要求。
- 分类清理:对主数据采用分类清理的策略,首先制定出清理收集模板,按照清理模板要求的属性规范进行填写收集。
- 先分后合:按主数据的条数分工进行清理,将检查无误的主数据提交到主数据项目组,由项目组统一合并汇总,完成数据的导入。
- 分段清理:按照时间分阶段进行清理,逐步将目标系统中的主数据进行清理,完成规范编码库,完成所有的清理工作。
- 检查反馈:定期检查能够保证数据清理的质量,避免盲目的数据清理。
最费时,易造成数据录入错误的数据导入方式,应尽量避免采取这种方式进行数据导入。利用软件模仿人的录入动作,逐条地从系统界面导入数据。DataLoad的工作原理为,先把数据在Excel中整理好,然后打开DataLoad记忆功能,这时手动执行一次从Excel复制数据到系统数据录入界面并保存动作,这时DataLoad软件将记录录入动作;然后进行适当设置,DataLoad软件会模仿用户录入动作对Excel中多条数据进行录入,直到录入完成。其缺点是速度慢,一万条数据可能会运行几个小时。几乎被淘汰。信息系统对各种数据的保存,由统一的函数或者接口调用的。有的是在Web Service服务中,有的是在数据库中由接口函数实现数据的保存。这种方式通过编程的方式实现,方法灵活,使用最为广泛,但是需要关注格式错误,需要对导入过程进行记录部分信息系统产品提供了自己的导入工具,这是导入数据最好的选择。4、数据导入的步骤:数据导入工作的过程包括导入设计、编码、导入测试和正式导入等步骤。确定要导入的数据类型和对应的数据属性,导入目标数据库表中数据类型和元数据类型的对应关系等,形成数据字典对照报告和数据导入设计报告。根据数据导入字典对照报告、数据导入设计报告、程序设计报告编写数据导入程序,并对数据导入程序进行功能测试。如果采用系统专用的导入工具,则可忽略这一步。对备份数据进行导入,进行合理性和正确性校验。对导入完毕的数据通过总体数据对比,关键性数据的逐项对比以及人工抽查等方式校验数据导入的正确性。数据导入实验后,要采用导入后的数据运行新系统,以检查新系统的运行情况。对 数据导入过程中发现的一些有问题的数据,找出批量修改的方法。如果无法应用程序进 行批量处理,则需要人工修正。在原系统的数据经过了导入实验,并且有问题的数据都进行修正处理后,方可开始进行新系统数据的正式导入。正式的数据导入要在旧系统停止办理业务的情况下进行,数据导入工作的时间必须集中,争取一次导入成功,以将新旧系统切换带来的风险降到最低。
系统集成支持SOA架构(将业务模块化,分解出各个业务模块之间的依赖及业务模块之间的边界,按照业务边界及业务之间的依赖顺序进行系统的拆分,沉淀一批稳定的后端服务,通过叠加复用快速响应用户的前端需求)的集成方式,以Web Service 为传输协议,通过数据集成平台中的服务总线与业务系统采用松耦合的方式进行集成。
系统架构具有灵活性和扩展性,以低成本、高效率的方式支持未来系统升级和业务流程变化。集成过程有两种模式,一种是直接通过数据交换平台与业务系统进行集成;另一种是将数据交换平台与ESB(企业服务总线,Enterprise Service Bus 一个ESB是一个预先组装的SOA实现,它包含了实现SOA分层目标所必需的基础功能部件。)进行无缝集成,再通过ESB进行与业务系统的集成。从数据分发方式上,存在主动分发与被动分发的模式
主动分发即为主数据管理系统及时判断数据变动,主动推送数据至业务系统端。主动分发适合于数据获取及时性要求高的系统。被动分发即为数据需要的业务系统在其需要获取数据时,发出数据获取请求,主数据管理系统获取到数据请求后,按照数据请求的条件,将需要数据发送到业务系统端。被动分发适用于数据获取及时性要求不高,可按需进行数据获取的系统。PS:为了便于大家更好的学习和掌握主数据的知识,歪老师把相关历史文章整理如下,赶快加入学习吧:
<END>
数据学堂
欢迎扫码添加歪老师个人微信(data-school),邀请加入数据学堂数据治理专业微信群,与业内大咖一起识数据、存数据、管数据、治数据、用数据!