数据治理平台工具前世今生
The following article is from 数据工匠俱乐部 Author 蔡春久
正文开始
伴随着企事业单位信息化不断的深入、各种技术持续的发展以及人们对数据治理的认知不断加深,数据治理工具在过去的20年也不断的发展,笔者以某世界500集团企业案例为原型,介绍数据治理工具发展及变迁及未来发展趋势和方向,供广大读参考。
一数据治理背景介绍
狭义上讲,数据治理是指对数据质量的管理、专注在数据本身。广义上讲,数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。有的专家干脆把广义的数据治理称为数据资产管理。
数据治理专注于将数据作为企事业单位数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值。
二数据治理管理工具演变历程及各自阶段典型特点
笔者根据20年的从业信息化行业经验,总结了数据治理工具演变历程和在不同阶段典型特征。
图1. 数据治理管理工具演变历程
1)第一代数据治理工具-编码时代(起步期,1994-2004年)
在这个时代里,企事业单位各种MIS系统得到较好的发展和应用,最典型莫过于是物资管理系统、进销存系统、PDM系统等信息系统。为了确保这些MIS系统各种编码好用,好查,避免一物多码情况的发生,一些大型集团企业在早期开发一些名叫“编码系统”“编码网站”等系统,这些系统主要发布主数据代码为主,配合某一单一的MIS系统应用为主,有的甚至在这些单一系统开发一个模块,如编码模块。这是数据治理工具最早期的工具,确保MIS中各种编码唯一性。
以下为编码管理系统功能架构。
图2. 编码管理工具功能结构图
以下以物资编码管理系统为例,列举了物料编码系统功能点。
图3. 物料编码管理系统功能范例
在这个时代,编码系统采用B/S架构、C/S架构都有,采用.net和JAVA技术居多,通过分发和订阅形式发布数据。以下为物资编码系统系统页面。
图4. 物料编码管理系统功能页面范例
2)第二代数据治理工具-主数据管理时代(发展期,2005年-2011年)
这个时代最典型是国内很多大型集团企业流行实施ERP系统,国外主流产品例如SAP ERP和Oracle EBS等产品,国内主流产品例如用友的U8、NC、金蝶的K3等。
最早的是些外国ERP厂商推出MDM产品,例如Informatica、Oracle、IBM、SAP 、微软都采取了自有产品并提供主数据管理解决方案,集中管理单一版本的、完整的和可信任的主数据信息。这些产品具有企业级主数据存储、数据整合、数据共享、数据质量、数据治理5大功能。基于SOA架构的企业级应用。支持两种实施模式:即“推动模式(交易模式)”和“拉动模式(共享模式)”。
主数据分发和交换主要采用企业服务总线(ESB)产品,较多使用国外主流IT厂商产品,例如:微软的BizTalk、IBM WAS 、 Oracle OSB 、SAP XI(后来叫PI/PO)等。采用SOA, B/S架构,主要为ERP等经营管理系统服务。
图5. 某国际厂商 MDM系统的功能结构
某国际厂商主数据管理解决方案涵盖主数据建模、数据导入、数据分发、数据查重、数据校验、数据完善、数据创建流程等企业主数据管理的各个方面。提供基于行业标准的模型建模语言,供客户快速定义主数据创建或审批流程,支持并行和串行流程,并提供强大的流程分析报表,帮助企业提高流程效率。同时提供Java/.Net/Web Service等多种API,满足和企业内其他系统集成的需求。该主数据管理解决方案可通过数据校验、数据查重和数据合并等手段,有效的提高企业主数据的质量。同时提供可选的组件Data Quality,提供深度的数据质量校验功能,如根据中国邮政名址库进行客户地址校验更正,提高地址的质量。
系统集成平台采用总线的方式进行设计和搭建,总线的方式最适合大规模、多系统的场景下系统集成的需求。
图6. 数据服务总线示意图
通过实施主数据管理系统,推动主数据(如:客户、供应商、产品、员工等)管理规范化、标准化,从而实现整个企业范围内主数据的统一管理、集中维护,并且实现这些主数据与各个关联业务系统的协同和分发,保证企业在异构环境中各个信息系统具有统一、准确、高质量的主数据,从而推进业务流程的改进,提高生产力。
3)第三代数据治理工具-数据标准化时代(成熟期2012-2018年)
随着大数据技术应用以及智能工厂(车间)建设,企业的信息信息系统越来越多,尤其生产制造领域系统越来越普及深入,主数据服务不仅仅只是限于以ERP为核心的经营管理层面的系统。在这个时代,最典型的以MES为核心的智能制造系统也提出更高需求。“集中集成,创新提升,共享服务,协同智能”成为主旋律。
数据的集成和共享是其重要的特点,更是强调数据的标准和统一。数据标准化、规范化是实现信息集成和共享的前提,根本上消除各业务系统的“信息孤岛”。
“独立、自主、安全、可控”在某些领域和行业提出国产化的需求,去IOE的浪潮一浪盖过一浪。很多大型集团企业开始采用开源技术独立开发数据治理工具, 采用微服务架构,满足MES、PLM等多个层面数据共享需求, 内容扩展增加了动态建模、移动应用,生产层面的主数据、数据指标、多语言等功能。数据交换平台逐步采用国内自主ESB相关产品。
图7. 信息标准化管理平台功能架构
4)第四代数据治理工具-数据治理时代(展望期,2018年-至今)
近年来,随着大数据平台和工业互联网兴起,数据治理平台主要采用数据中台技术和微服务架构初步替代传统架构、面向大数据架构下,为数据资源中心与外部数据系统提供数据服务。对内和对外系统提供云服务。
数据治理的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享;推进信息资源的整合、对接和共享,从而提升政务单位信息化水平,充分发挥信息化作用。
图8. 数据治理平台技术架构
实现数据打通,业务融合协同,共享、共用的中台工具开发数据治理产品。
三数据治理管理工具功能架构
数据治理管理工具用于落实数据管理体系,实现数据管理自动化,提高数据管理效率,确保数据质量、实现安全数据共享。主要包括数据门户地图、主数据管理、数据指标、元数据管理、数据模型工具、、数据交换与服务工具、数据资产管理、数据开发、数据质量管理、数据安全。
图9. 一体化数据服务&治理平台功能架构
3.1数据门户地图数据门户管理,实现数据分布与地图管理,建立可信源及拥有者管理、数据目录树、数据实体、数据项、数据标签为基础的数据资产目录,打破信息孤岛和部门边界,实现组织范围内的数据关联与分析管理,实现数据的便捷查询、浏览,增强用户体验,提升业务价值,实现数据分级分类,为数据战略、数据管理策略的落地打下基础。
1)数据资产目录管理:可信源及拥有者管理(单位/业务域/信息系统/数据库等);数据目录树构建(自动、手动);数据实体管理(标识、名称、时效性、描述、组成、子实体定义等);标签管理(打标、分类等);敏感数据管理(安全标识、访问权限)。
2)数据关联与分析管理。实体关联管理(表、字段映射等);全文检索(实体、标签、分类等);数据实体展示(实体、逻辑关系、数据集);数据图谱展示(实体、关联、来源等);血缘关系和影响分析;供需关系;数据对账和使用跟踪。
3.2元数据管理工具元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性。元数据管理工具可以了解数据资产分布及产生过程。实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。
图10. 元数据管理功能架构图
1)元数据采集:能够适应异构环境,支持从传统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑;
2)元数据管理:实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。
3)元数据展示:能够根据类别、类型等信息展示各个数据实体的信息及其分布情况,展示数据实体间的组合、依赖关系,以及数据实体加工处理上下游的逻辑关系;
4)元数据应用:元数据的应用一般包括数据地图,数据的血缘、影响分析,全链分析等;
5)元数据搜索:可根据数据源库、类型等搜索元数据信息。
3.3主数据管理工具具备企业级主数据存储、整合、清洗、监管以及分发等五大功能,并保证这些主数据在各个信息系统间的准确性、一致性、完整性。
1)主数据存储、整合:实现主数据整合、清洗、校验、合并等功能,根据企业主数据标准和业务规则和主数据质量标准对收集到的主数据进行加工和处理,用于提取分散在各个支撑系统中的主数据集中到主数据存储库,合并和维护唯一、完整、准确的主数据信息;
2) 主数据管理:支持对企业主数据的操作维护,包括主数据申请与校验、审批、变更、冻结/解冻、发布、归档等全生命周期管理;
3) 主数据分发与共享:实现主数据对外查询和分发服务,前者用于在其它系统发出针对主数据实时响应类查询请求时,返回所需数据,后者则用于提供批量数据分发服务,一般采用企业服务总线(ESB工具)实现方式。
4)主数据分析:实现对主数据的变更情况监控,为主数据系统管理员提供对主数据进行分析、优化、统计、比较等功能;
3.4数据指标工具图11. 数据指标功能架构
1)数据指标定义:包含指标主题分类、各业务域具体指标定义、指标属性及模型管理。包含对指标的批量管理以及主题(即指标树)维护,其中主题维护主要包括对主题、一级主题、二级主题的维护。其中主题含投资、市场分析、财务、资产、人力资源、生产、采购、销售、库存、设备、工程、HSE、能源二十大类现有业务主题。
2)指标维度管理:主要是生产层面设置的时间维度、空间维度、物料维度以及层次维度四个维度的信息和所含具体维度进行管理。
3)指标维护:包括指标新增、修改、删除、审批、冻结、解冻、发布(分发)、导出等部分组成一个有机的整体,不同用户可根据自己的用户权限对数据指标进行申请、修改、查询、审批、冻结、解冻等功能操作。
4)指标的查询:提供对数据指标主题、属性、维度、指标以及导入表的按条件查询、模糊查询、树状查询数据等。
5)指标值的管理:实现对指标数据的集成及存储管理,定期向各系统发布。
3.5数据资产管理数据资产管理着力构建数据资产管理体系,通过数据资产管理可将数据规范管理和数据处理实现有机的融合,实现对具体资源数据的元数据描述,支持利用标准化的数据接口以及形式丰富图表展示工具可快速定制各类数据资产应用,配合数据资产的全面评估,实现数据资产的“三全”管理,实现数据资产的三全管理:全生命周期管理、全流程管理、全景式管理。
数据资产管理主要包括:数据资产注册管理;数据资目录管理;数据视图管理;数据资产统计分析;数据成本管理和数据价值(收益)管理。
1)数据资产注册管理:包括分类管理、注册、审核、发布、授权等,提供数据资产安全管理,包括资产安全等级设置、资产安全角色设置、用户安全设置等。提供数据资产变更监控,可对数据资产的增加、修改、删除等操作进行实时监控。提供数据资产的导入导出。提供了信息资源的导入、导出功能。通过标准Excel、Word等格式进行信息资源的导入和导出操作。提供信息资源的启用、停用、恢复功能,可根据实际需求对信息资源进行启用、停用操作。
2)资源目录的管理:提供资源目录的注册、发布、申请审核等操作。信息资源注册实现了将信息资源注册到资源目录系统的功能。信息资源只有注册到资源目录系统中,才能进行配置、查询等操作。注册到目录系统的信息资源通过部门、业务主题进行分类。
3)数据视图的管理:利用技术数据视图实现基础业务数据的标准、规范及统一管理,包括数据视图的注册、发布、申请、审核等管理。进行分类统一管理,并形成一套规范去注册、发布、申请提供给其他用户使用。
4)资产统计分析工具:提供柱状图、矩形图等多种展现形式,对各部门已注册数据资源的数量、比例进行可视化展现。统计分析工具主要包括数据资源分布盘点、数据资源使用盘点、供需关系分析三部分。数据资源分布盘点可对各部门已注册的数据资源的数量、比例进行直观的展现;数据资源使用盘点可对各部门已申请、已审核的数据资源的数量、比例进行直观展现;供需关系分析可对各部门间的供需关系进行统计分析。
5)数据成本管理:从度量成本的维度出发,通过定义数据成本核算指标、监控数据成本产生等步骤,确定数据成本优化方案,实现数据成本的有效控制。数据价值(收益)主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。
6)数据价值(收益)管理:从度量价值的维度出发,选择各维度下有效的衡量指标,对针对数据连接度的活性评估、数据质量价值评估、数据稀缺性和时效性评估、数据应用场景经济性评估,并优化数据服务应用的方式,最大可能性的提高数据的应用价值。比如可以选择数据热度、广度等作为数据价值的参考指标,通过ROI评估,高效管控和合理应用数据资产。
3.6数据交换和服务工具数据服务交换和服务工具是数据采集服务、数据交换服务、数据加工服务、数据共享服务的统一支撑工具。数据服务工具采用面向服务的架构,提供数据服务实现数据交换、数据整合、数据复制、数据的传输、数据共享等功能。主要包括运行支撑、加工组件、服务组件、数据服务总线等组成。
图12. 数据交换与服务工具
1)数据采集服务:主要负责异构、异地的多源数据到贴源缓存区的采集,实现内外部系统的结构化数据、半结构化数据、非结构化数据等不同类型、不同时效的数据的复制与整合。结构化数据和非结构化数据的复制,将异构、异地的数据库数据、文件数据复制到缓存库中。
2)数据交换服务:支持多用应用场景数据交换,如:企业内部数据交换、企业上下级数据交换、基于前置机数据交换、物流隔离数据交换。支持全量、批量、实时的数据交换;支持大数据量的数据交换;支持复杂网络环境下的可靠数据交换;支持跨网段、跨单位的数据交换;支持基于通道、文件的加密传输;支持多种数据接口和传输协议;提供数据交换日志;支持断点续传功能。
图13. 基于流加工技术的数据交换及整合服务
3)数据加工处理服务:实现数据的转换、逻辑判断、数据质量的检查、异常处理、数据路由、数据的规范化等处理,用于将贴源缓冲区的数据根据需要加工到数据存储与处理层的结构化区、非结构化区,并能给数据主题区、分析服务区、数据实验室提供规范合理的数据。支持全量、增量、实时的数据处理,基于数据流处理技术,处理在数据流引擎中进行,减轻对数据源和目标的影响;提供统一加工服务实现数据库、数据仓库、NoSQL、搜索引擎、文件、XML、We b Service、传输队列、适配器、内存表、JSON 等之间的相互交换,通过工具可视化配置通过拖拉等操作,可视化配置异构数据之间的转换、加工、映射规则。
4)数据共享服务:服务提供方做服务资源的编目,注册到目录中心;中心做服务资源的审核、维护,并将共享的服务发布出去;服务使用方查询到服务后,向中心申请使用该服务;中心审核审批通过后给申请用户授权该服务的使用;服务使用方通过安全可管理的服务总线调用该服务,实现提供方和使用方的数据交换和共享。
5)运行支撑服务: 统一的工具实现可视化配置、任务的管理、安全管理、运维监控及调度管理功能,如上主要包括可视化配置及监控、调度规则的管理及运行监控模块、调度策略模块、流程调度模块、数据总线调度、服务模块等组成。
3.7数据质量工具提供数据质量管理实现数据全生命周期的质量管理,能根据标准规则可视化配置数据质量检查策略,通过调度中心实现数据质量的检查,发现问题数据,将问题数据根据拥有者体系派给相关人员修正,并能根据需要形成数据质量评估报告和问题处理报告等。为减轻对信息系统数据库影响,数据质量检查采用数据流检查技术,数据质量检查方法及计算运行在引擎中而不是依赖数据库的SQL。
数据质量工具主要包括:数据质量初步分析、数据质量精度检查、比对和验证检查、检查结果处理。
图14. 质量管理管控体系
1)数据质量初步分析:提供数据质量初步分析能力,方便对给定库表做数据质量的初步了解。包括全库初步探测、数据库表基本信息分析、表基本信息分析的统计信息等分析。全库初步探测,对库中所有表做初步探测获得库基本信息,每个表初步探测包括表名、主键字段数、外键字段数、字段数、必填字段数、记录数、空值率、空值比等。并以表的方式提供。
2)数据质量精度检查:提供数据质量精度检查,方便对给定表做精细化的数据质量分析。提供数据质量检查服务对数据库表做指定规则检查,提供逻辑表达式检查,提供相似重复记录检查,提供复合检查,提供可视化定义界面,提供数据质量检查方法接口、相似度检查方法接口,方便增加数据质量检查方法。
3)数据质量检查服务:对数据库表做指定规则检查,包括格式检查、范围检查、缺失记录检查、相似重复记录检查、精度检查、逻辑表达式检查、复合规则检查等。在数据质量检查服务可视化配置出单字段多规则检查,也可以配置出多字段同规则检查,还可以配置出多字段之间的关联检查。
4)相似重复记录检查:包括完全重复记录检查、相似记录检查。完全重复记录检查可以根据一个字段或者多个字段的比对,得到重复记录,能可视化配置;相似记录检查是指先检查一个或者多个字段相似度,然后得到记录相似度,根据记录相似度的值得到相似记录,可视化选择多种字段相似算法和可视化定义记录相似算法及属性。
5)比对和验证检查:提供比对和验证功能,对于数据目标和数据源做一致性检查,发现其差异。主要包括数据库表的比对、数据文件的比对。对源库表和目标库表做一致性比对检查,包括表结构比对、数据一致性比对,能发现并展示不一样的结构、不一致的数据(包括增加、修改、减少的数据)对源和目标文件夹下的文件做比对和验证检查,能发现并展示不一致的文件,包括增加、修改的文件。支持数据源和数据目标位于不同网段的一致性检查。
6)检查结果处理:数据质量检查服务部署运行完成后,会生成检查结果,数据质量检查结果存储到指定数据库中,每个数据质量检查服务的存储表结构根据选择的检查字段、定义的检查规则自动生成,并提供可视化界面,方便修改信息配置。
7)系统提供问题数据统计:针对每个数据质量检查服务提供数据质量检查结果报告,包括异常数据、异常数据检查的规则描述,并能做问题数据统计、修改情况统计、检查规则统计。
3.8数据模型管理工具数据模型管理工具可对关系型、NoSQL、ERP数据源的数据模型自动抽取,可视化画ER图的方式设计数据库,跨部门共享数据模型。负责对企业数据模型的管理、比对、分析、展示提供技术支撑,提供统一、多系统、基于多团队并行协作的数据模型管理。解决企业数据模型管理分散,无统一的企业数据模型视图、数据模型无有效的管控过程,数据模型标准设计无法有效落地、数据模型设计与系统实现出现偏差等多种问题。
图15. 数据模型管理工具功能架构
1)数据模型设计:支持对于新建系统的正向建模能力,还应支持对原有系统的逆向工程能力,通过对数据模型进行标准化设计,能够将数据模型与整个企业架构保持一致,从源头上提高企业数据的一致性;
2)模型差异稽核:提供数据模型与应用数据库之间自动数据模型审核、稽核对比能力,解决数据模型设计与实现不一致而产生的“两张皮”现象,针对数据库表结构、关系等差别形成差异报告,辅助数据模型管理人员监控数据模型质量问题;提升数据模型设计和实施质量;
3)数据模型变更管控:支持数据模型变更管控过程,提供数据模型从设计、提交、评审、发布、实施到消亡的在线、全过程、流程化变更管理。同时,实现各系统数据模型版本化管理,自动生成版本号、版本变更明细信息,可以辅助数据模型管理人员管理不同版本的数据模型。通过工具可以简单回溯任意时间点的数据模型设计状态以及数据模型设计变更的需求来由,实现各系统数据模型的有效管控和管治,强化用户对其数据模型的掌控能力;
4)模型可视化:支持将管理的数据模型E-R图(实体关系图)转换为图片、数据建模脚本(DDL)等可视化展示形式,方便数据模型管理人员以全局视角监控系统中各类数据实体结构及实体间关系。
3.9数据安全工具数据安全管理的目标是建立完善的体系化的安全策略措施,全方位进行安全管控,通过多种手段确保数据资产在“存、管、用”等各个环节中的安全,做到“事前可管、事中可控、事后可查”。通过数据安全管理,规划、开发和执行安全政策与措施,提供适当的身份以确认、授权、访问与审计等功能。数据安全共享实现,数据安全需从数据采集、数据传输、数据存储、数据处理、数据共享和数据销毁6个方面进行全方位的管能力。
图16. 数据安全管理体系框架
在数据生命周期节点上应用不同安全技术组合,保障数据安全。
图17. 数据安全的工具集
除了以上安全工具集外,数据治理工具提供安全共享管控机制,保证数据资源的安全管理及共享。主要包括数据的授权、数据脱敏、数据访问安全、数据服务的发布/申请/审核管理、服务的接入控制等。
图18. 数据安全管理工具
1)数据授权。数据授权给不同的用户提供数据结构、数据库数据、文件等的数据的安全授权,包括对数据结构模型的授权、数据库表和字段的访问授权、数据文件的访问授权等。可以对要授权的对象分别设置允许访问、不允许访问等权限。
2)数据脱敏。对来源于文件、数据库表等数据中的敏感内容设置数据脱敏处理。可以对不同的字段内容设置不同的数据脱敏规则,包括数据加密、数据的模糊化处理等。
3)数据访问安全。数据共享是通过数据服务的方式对外提供,通过数据服务屏蔽数据源,数据访问者不知道数据的存储位置、数据的物理结构等敏感信息。通过工具可视化定义数据服务共享的数据字段、数据内容、转换策略、数据加密、数据查询条件等,进而保证了数据的安全,使用者调用数据服务时,只有通过身份鉴定、访问控制的用户才能使用授权的数据。
4)数据服务的发布/申请/审核管理。具有描述属性的数据服务是以目录的方式对外发布,使用者可以查询到相应的数据服务,申请使用,经过审核审批管理后,使用者才能使用数据提供者的数据服务。
5)数据服务的接入控制。数据使用者通过数据提供者提供的用户名、密码、安全授权等信息访问数据提供者提供的数据服务,数据提供者将对数据的访问实施身份鉴定和访问控制等安全策略。
3.10数据开发工具提供数据开发功能方便数据服务开发、数据流程加工建模,按流程和应用确定数据流,提供数据流程清册,为应用和流程集成提供唯一数据源,实现数据全流程一次录入多次共享,支持端对端的业务流程的优化,提供部署和调度功能方便数据流程和数据服务的使用。
1)实现数据预处理。对原始数据进行分类或分组前所做的审核、筛选、排序等处理。主要包括:数据清理、数据集成、数据变换等。
2)建立数据加工流程。
3)基于数据流实现单个业务主题在多个业务系统之间数据变化过程和数据加工开发,每个业务主题具有一个由数据源模型、数据加工节点组成的数据流式加工模型,上一个加工节点的目标源模型是下一个加工节点的数据源模型。
4)数据加工模型管理:提供数据加工模型目录树管理,方便按照业务域分类管理。提供主题数据加工模型的部署、调度运行、监控管理。
四数据治理平台技术发展5种能力
4.1微服务插座式架构能力微服务是一种架构风格,一个大型复杂软件应用由多个微服务组成。系统中的各个微服务可被独立部署,各个微服务之间是松耦合的。每个微服务仅关注于完成一件任务并很好地完成该任务。在所有情况下,每个任务代表着一个小的业务能力。各种类型的数据交换及其处理都是服务的方式存在,并作为插件插入到架构上。提供统一建模工具快速生成服务模型(交换、传输、整合、数据质量、共享等), 服务松耦合,可以编排形成满足不同需要的服务组合、可重用;可以调度使用、安全调用,使用方便、安全。
图19. 微服务架构下数据服务架构图
4.2跨网段的数据交换能力基于统一的数据交换服务实现了端对端的数据交换。通过事务处理机制保证交换的数据一致性。状态传感器技术解决了分布式传输过程的状态感知,避免了需要长时间处理情况下的通讯挂起现象,保证了传输的畅通。跨网段情况下的大数据量的交换能力强。配置、部署、运维简单。
4.3一体化数据交换和治理能力基于统一工具、统一的架构、统一的运行支撑、统一元数据管理实现数据采集、交换、加工、共享、治理(含元数据管理、数据模型管理、数据质量、数据图谱、数据安全)等功能。可以根据项目特点选择不同的模块组合,形成不同的数据服务和治理解决方案。
4.4强调交换过程中的数据处理能力数据交换过程中的数据处理能力。需提供交换过程中的数据转换(包括代码的统一、格式转换,数据脱敏处理等)、逻辑判断(包括格式检查、逻辑判断、范围检查、组合检查等)、数据路由等处理。
提供交换过程中的数据质量检查,设置检查规则,并将交换过程中的异常数据记录下来供处理。
4.5全方位的数据治理支持能力1)数据模型管理,包括元数据管理、数据建模等。
2)数据质量检查(包括数据比对、数据重复相似检查、常规数据质量检查)、数据质量报告、问题数据处理等。
3)数据资产可视化,包括数据图谱、血缘关系、数据地图等。
4)数据安全管理,包括数据模型授权管理、数据服务授权管理、数据脱敏处理、安全审计等。
五数据治理管理工具与数据中心及信息系统关系
1) 更丰富数据治理平台是企业数据规划、数据标准落地的载体,实现数据治理统一标准、统一规则的支撑
2)数据治理平台包含数据门户地图、主数据管理、数据指标、元数据管理、数据模型、数据交换与服务、数据资产管理、数据开发、数据质量管理、数据安全等工具,提供规范统一的数据治理和服务的平台
3) 数据治理平台是实现数据从产生到应用,分层协同、全面治理的核心
五数据治理管理工具与数据中心及信息系统关系
1) 更丰富数据治理平台是企业数据规划、数据标准落地的载体,实现数据治理统一标准、统一规则的支撑
2)数据治理平台包含数据门户地图、主数据管理、数据指标、元数据管理、数据模型、数据交换与服务、数据资产管理、数据开发、数据质量管理、数据安全等工具,提供规范统一的数据治理和服务的平台
3) 数据治理平台是实现数据从产生到应用,分层协同、全面治理的核心
图20. 数据治理平台与目标系统及数据资源中心的关系
数据治理平台是信息化架构中是基础性平台,为数据汇聚平台和数据存储平台提供基础层面数据标准化保障,进而为数据分析应用平台提供服务。 数据治理平台的架构需要确保敏捷、轻巧,不宜太厚重。
数据处理层属于数据集中存储处理中心,负责将底层标准化数据源汇集之后供给上层应用使用。
数据存储层属于数据集中存储处理中心,负责按照数据标准规范存储,适应分析与共享需求。
图21. 一体化数据治理与服务平台与数据资源中心的关系
结束语数据治理的目标是提高数据的质量(准确性、及时性、完整性、唯一性、一致性,有效性),确保数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享,推进数据资源的整合、服务和共享,从而提升企事业单位信息化水平,充分发挥数据资产作用。
通过实施数据治理工具,可以让数据质量变得更好,发掘数据资产的商业价值,实现如下目标:对业务的支撑;降低经营风险、安全保障;对决策进行支持;满足风险控制和外部监管要求;可企业持续发展。(鸣谢:在编写该篇文章过程中,得到数语科技创始人兼CEO王琤和北京睿智欣泰创始人兼CEO侯庆刚大力支持和帮助。)
参考文献
1.国家标准GB/T 36073-2018《数据管理能力成熟度评估模型》
2.中国信息通信研究院云计算与大数据研究所CCSA TC601大数据技术标准推进委员会《数据资产管理实践白皮书(3.0)》
3.中国信息通信研究院云计算与大数据研究所CCSA TC601大数据技术标准推进委员会《主数据管理实践白皮书(1.0)》
4.中国电子技术标准化研究院 全国信息技术标准化技术委员会大数据标准工作组《工业大数据白皮书(2019版)》
5.The DAMA Guide to the Data Management Body of Knowledge
—————— / END / ——————
大鱼先生,给你提供最新的数据思想,欢迎关注!