【案例】山东某城商行——全域数据治理智能服务平台建设项目
“本项目案例由 网智天元 投递并参与由数据猿&上海大数据联盟联合推出的“行业盘点季之数智化转型升级”大型主题策划活动之《2021中国企业数智化转型升级创新服务企业》榜单/奖项的评选。
数据智能产业创新服务媒体
——聚焦数智 · 改变商业
本项目银行把数据治理作为重要的制度性建设和基础性工作,加强组织保障、制度保障与流程保障,有序推进、重点强化;统一数据标准,提高数据质量,深化数据应用,有效支撑银行业务发展,有效提升银行管理水平。
精细化管理要求逐步提高,在业务决策、风险分析、营销和财务的精细化管理中,数据将发挥更加重要的作用。
通过数据治理平台的建设,可实现数据标准化管理、统一的元数据管理、标准流程的自动化管理,提高数据标准管理的工作效率和执行力度,降低数据的集成成本,促进数据质量的提升,实现银行数据资产应用的价值最大化。
●实施时间
开始时间:2021年1月11日
测试时间:2021年4月12日-2021年5月9日
上线试运行时间:2021年5月10日-2021年6月30日
截止时间:2021年7月9日
全域数据治理智能服务平台可实现元数据管理、数据标准管理、数据质量管理、资产管理、数据安全管理、共享服务管理、主数据管理以及全生命周期管理等,为本项目银行提供一套完整的数据治理解决方案。
全域数据治理智能服务平台是高效的数据管理平台。本平台具备统一的连接性、元数据和操作管理功能,加快了大数据管理项目的开发和部署速度,同本平台基于SOA整体架构进行开发。软件采用层次化结构,支持分布式系统部署。
数据治理平台:提供数据治理的基础能力,主要包括用户管理、元数据智能管理、任务调度中心、数据源管理、建模设计、日志管理。
服务能力:主要涉及数据治理和共享门户两方面。数据治理服务能力包括数据标准、数据质量、数据资产、数据服务、数据安全;共享门户主要提供数据服务查询、申请能力。
用户群体:数据治理平台面向的用户群体主要包括数据开发人员、数据分析师、业务用户、数据科学家、数据管理员、数据操作员。
一、元数据管理
元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性。平台提供元数据采集模版管理、采集任务配置、元数据维护、版本维护、影响分析、血缘分析、表关联度分析、数据元拓扑分析等功能。
元数据维护:提供元数据查询和元数据信息维护功能。
版本维护:提供元数据的版本查询、发布、比较功能。主要是管理采集的数据字典的版本,即库、表及字段的版本,提供每个版本的查询能力,版本之间的比较能力,数据字典对象的变更历史、变更发布能力。
影响分析:基于元数据存储的数据定义、去向、转换关系、依赖关系等,提供影响分析管理(向上分析)功能。
血缘分析:基于元数据存储的数据定义、来源、转换关系、依赖关系等,提供血缘分析管理(向下分析)功能。
表关联度分析:提供表级关联关系分析功能,实现对数据流向分析,通过选定指定表操作对指定表进行数据流向分析,以实现对数据源数据具体流向的分析与统计。
拓扑分析:基于数据元,获得数据元对应的数据拓扑图以及引用情况。
二、数据质量管理
数据质量管理实现对数据全生命周期的质量管理,提供完善的数据质量管理方法和措施,对数据质量进行完整性、一致性、精度性、合理性、有效性、准确性等全方位的检查,保障政务大数据中心归集数据的质量。主要包括质量检核规则管理、检核执行配置、质量问题管理、数据质量分析等功能。
检核规则管理:提供数据质量检核规则新增、修改、删除、查询等功能。需支持几类规则的自动生成:唯一性检查、字段非空检查、代码值域检查(应能对接数据元获取代码枚举值)、字段长度检查、字段取值范围的检查。
检核执行配置:提供对数据质量的调度执行管理,包括自动执行及手工执行配置管理。
质量问题管理:提供问题数据详情信息查看及跟踪管理的相关功能,记录异常数据、异常原因,进行问题数据统计、检查规则统计,将问题数据分配给相关人员;将异常数据修改到数据存储表中,便于将确认的修改数据发送到数据源方。
数据质量分析:根据质量检核规则在一定时间内形成的问题趋势,提供基于检核规则的问题趋势分析功能;根据单表在一定时间内形成的问题趋势,提供表级的问题趋势分析功能;根据质量检测情况形成数据质量检查结果校验报告,实现对数据质量报告的维护管理等相关功能。
三、调度管理系统
调度管理系统是对数据采集、传输、数据汇聚等一系列数据处理任务进行发布、编排,并进行统一的执行调度和管理。包括的功能有:
调度配置:可以对作业根据业务需求,进行定时触发配置和条件触发配置;作业跑批周期可以按需进行分、时、日、月、季、年等设置;可以根据业务需要对作业进行优先级设置。
调度运维:可对作业进行并发控制;可对作业进行手工干预,包括重跑,暂停,通过等;作业出错,可根据设定的重试次数和时间间隔进行出错重试和发送错误信息;可进行断点续跑。
调度监控:可以展示作业的运行情况;可以输出作业日志,根据需求开发各种调度监控指标。
资源管理:根据资源使用情况,自动分配作业执行节点;根据设置的阈值,对调度资源进行监控,超值告警。
参数管理:可以对调度的各种参数进行统一管理、修改。
接口:提供各类接口满足接入其他平台或批量生产作业。
随着银行信息化程度的逐年提高,数据的积累使得其使用与价值创造成为了可能,但是由于系统建设缺乏统筹能力,导致了系统之间存在孤岛现象,从而引发数据不一致、业务指标口径不一致等问题,数据质量堪忧。基于这些问题,需要统一的数据资产监控平台,通过数据标准梳理和建设、元数据管理、数据地图建设,进而提升数据质量。
由于银行系统承建单位不同,各系统存在许多基础数据标准不统一、业务指标口径不一致,造成数据质量低下,数据应用分析结果错误,进而导致决策失误,需要通过数据标准管理平台为银行数据建立标准,消除数据的不一致性。
另外,当前银行还缺少以下数据治理各领域的管理体系:
1、缺少企业级数据标准管理体系
虽然银行拥有了大量的数据资源,但是,也经常面临重要数据缺失,系统间数据不一致,统计口径和加工方法不一致,导致数据可信度降低的问题。深入分析后发现,出现这种现象的原因为缺乏有效的数据标准化。
2、缺少企业级元数据管理体系
目前,我国大多数银行的元数据管理仅限于少数系统和少数用户,尚未达到体系化的程度,也存在完备性不足的情况。
3、缺少企业级数据质量管理体系
数据的质量对银行业发展尤为重要,并且银行对数据质量的治理重视程度会直接影响数据治理的成效。银行的数据质量管理应当涵盖数据质量问题的防范、识别、度量、分析、监控、清洗等管理活动,以满足对数据质量的要求。
4、缺少完备的数据生命周期管理体系
当前银行大部分在系统无法支撑时才考虑数据清理备份的工作,难以做到对数据生命周期的统筹管理,并且对支付数据生命周期管理的系统和工具建设力度不够,不能很好的支撑全行数据生命周期管理工作。
5、缺乏完善的系统支撑和技术手段
银行存在的系统数据量庞大,各式系统多种多样,如果不依赖技术手段,没有相应的支撑平台和工具,就不可能理解如此庞大的数据量和看到其潜在价值。
本项目是对银行全域数据资产进行治理,主要包括业务系统数据资产(CRM、数整平台、积分商城、总行信贷、村镇贷等)和内部管理系统数据资产(人力资源、ERP财务等),共3350多个数据表。
本项目实施般总体为三个阶段:一是对银行方的数据资产进行现状梳理分析与评估;二是进行数据治理体系设计与规划;三是数据治理平台的建设。
一、全域系统的标准合规评估
数据标准落地工作首先要从对现有系统的合规情况了解为起点。通过数据标准映射和差异分析,对银行方各类业务系统以及其他重要系统中的业务数据与山东城商行联盟数据治理相关标准进行对标,并得出系统数据诊断和梳理分析。
二、进行数据治理体系的设计与规划
根据《山东城商行联盟数据治理管理办法》及相关标准,建立覆盖数据产生、存储、交换、加工、归档和应用等全生命周期的管理流程,规范全流程数据标准审核、内部数据服务申请、外部监管数据报送、外部数据安全合作等控制流程,通过全流程管控方式保障数据的准确性、一致性、完整性、及时性,促进数据资产发挥价值。
如元数据实施体系方面,目前仅覆盖仅限数据仓库相关系统,未入仓的业务系统和其他下游应用系统使用的源系统的数据字典、注释、接口等元数据内容未纳入管理范围,本项目将元数据管理的范围应扩展到银行全域的所有系统。 元数据管理对象的类型待扩充:元数据管理的内容应扩充数据模型、TEL脚本之外其他信息,例如业务术语、数据分布、数据存储等。
对各系统数据的数据关系、数据质量、ETL作业、等内容进行管理,具有一定的数据调度、数据质量检核、数据的传输与下发以及元数据的采集功能。元数据管理的范围主要围绕数据仓库以及其上下游的元数据对象,具体数据接口文件定义、数据库分层物理模型定义、ETL作业定义、业务报表定义。元数据平台包含了元数据查询、元数据统计、实体级的血缘分析和影响性分析,以及统计报表的“查询时间”、“平均耗时”和“最大耗时”功能。
三、进行数据治理平台的建设
根据前两个阶段的成果进行全域数据治理智能服务平台的设计、开发和测试、上线试运行等工作。
1、平台总体结构和技术架构
全域数据治理智能服务平台采用前后端完全分离技术,整体技术框架以自主研发的WISEWEB-MVC技术作为基础,同时整合了面向服务的架构(SOA)。
平台集成了前端展示技术,包括VUE、three.js、echarts、d3等。
基于HTTP、Webservice接口技术,可零编码封装数据接口,对外进行服务接口的发布。
平台集成了elasticsearch、fastdfs等存储技术,用于存储服务数据以及非结构化数据。
平台集成统一的调度中心:支持HA集群模式调度,多种任务路由策略。
系统部署:
(1)支持主服务的HA高可用部署,避免单点故障即使主管理服务 server无法正常工作,也不影响整个作业平台的自动化调度运行;
(2)支持代理节点的负载均衡调度,避免代理因负荷过载而导致调度效率下降;
(3)支持分布式集群部署,可实现高可用性与负载均衡的企业级;
(4)提供多种机制保证批量敏捷调度7*24小时高可用运行。
系统安全:
提供访问控制,可参数化配置多层次安全控制,可按照用户组定义安全策略。数据传输过程中,应根据安全等级要求,对有保密需求的数据进行加密传输。
2、系统主要功能的研发实现
2.1 工作台
通过工作台,当前登录用户可以查看与其相关的数据治理相关工作。
2.2 数据地图
支持根据分层分域的关系自动显示数据驾驶舱,可以通过点击分层或者主题域下钻查看具体数据表。
2.3 元数据
元数据管理包括原模型、元数据采集、元数据维护、元数据订阅和版本管理。
2.3.1 元模型
元模型用于定义元数据采集的范围和具体采集的属性,本版本元模型均为内置,不允许进行新增,修改,删除
2.3.2 元数据采集
提供对技术元数据的定时采集任务的配置。
主要的采集范围包括:关系型数据库的元数据, 大数据的Hive元数据,HDFS的元数据,HBASE的元数据 ,shell脚本元数据
2.3.3 元数据稽核
2.3.4 元数据管理
提供元数据的维护,订阅,和版本管理功能。
2.3.5 元数据分析
输入任意字符,搜索元数据。
2.3.6 元数据安全
按照表的维度,对表进行授权到部门,用户,角色。
2.4 数据标准
2.4.1 数据元
数据元作为数据的最小单元,包括本地标准,国家标准和行业标准的维护和引用,包括名称,规则的配置。
2.4.2 代码集
提供对代码集的查询,新增,修改功能。
2.4.3 数据集
提供数据集的新增,修改,查询,详情查看功能。
2.4.4 编码标准
提供用户对部门或者系统进行编码的能力,“命名规则”为业务编码规则中的其中一个能力,主要应用于数据库表的命名规则;
2.4.5 标签管理
提供对编码标准的查询和查看功能。
2.5 数据模型
2.5.1 逻辑模型
设计数据库逻辑模型。
2.5.2 物理模型
提供对数据库生成相应的模型并可在数据库中新建表、查看数据库表的功能。
2.6 数据质量管理
2.6.1 质量规则
以表的维度计算及展示每个表的所有字段的规则。
2.6.2 质量设计
质量设计实现对表的校验流程配置,同时可依据质量规则自动生成质量任务。支持选择数据源、删除数据源、质量设计、变更通知等功能。
2.6.3 问题数据
输出质量任务的数据校验结果。
2.6.4 质量评估
配置质量分类及计算权重。
2.6.5 质量报告
根据问题数据计算数据质量情况。
2.7 调度中心
2.7.1 任务管理
维护数据质量,元数据采集,服务数据同步,订阅数据同步,元数据稽核,生命周期任务。
2.7.2 任务监控
监控所有注册到调度中心的任务列表。
2.7.3 告警配置
配置元数据稽核,数据质量校验,调度任务的告警规则。
2.7.4 告警通知
展示告警通知结果列表。
2.7.5 服务治理
展示共享服务管理列表,以及发布服务。
2.8 资产管理
2.8.1 生命周期
维护数据的生命周期,以策略方式来配置数据的删除策略。
2.8.2 主数据管理
维护主数据的新增,编辑,删除以及发布。
2.8.3 资产目录
数据资源编目,维护资源目录的新增,修改,删除,发布,下载功能。
2.8.4 数据查询
以sql方式编写查询语句,查询结果,并且可根据结果发布成共享服务。
3、使用的核心技术
网络智能机器人是网智天元公司独创的先进技术,在全域数据治理智能服务平台中进行很多数据治理操作流程的模拟和智能自动化处理。该技术设计实现的软件,提供图形化界面,内置一个网页浏览器,用户只需点击鼠标进行选择,不但可以灵活定义网页中要采集的任意内容(如文字、图片),而且可以完全模拟用户浏览操作网页的所有步骤(如输入登录信息、循环、翻页等),并自动形成一个非侵入的数据治理网络智能机器人,实现网页信息的自动感知、分析、处理等。数据治理网络智能机器人可以批量运行于分布式环境下,数据治理的结果可以存放在任何类型的数据库中。
网络智能机器人软件的体系结构如下:
图中各个子系统的功能如下:
数据模型构建系统
——帮助用户建立要处理数据的数据模型属性。
可视化机器人生成系统
——帮助用户建立数据治理机器人。
机器人服务器
——负责调度运行机器人进行服务。
机器人管理工具
——帮助用户查看机器人状态和管理机器人。
控制中心
——帮助用户管理分布式环境下的机器人服务器。
机器人客户端
——提供远程访问控制机器人状态的界面。
其中,机器人制作子系统辅助用户根据不同的信息智能络服务需求,灵活定义制作生成不同的网络智能机器人。网络智能机器人:即实现某种网络智能服务任务的程序,一般每一个网络智能机器人对应一个网络系统的一项任务,例如既可以一个创建网络智能机器人在内部系统中浏览人力资源数据,也可以创建一个网络智能机器人在财务系统中统计相关数据。利用可视化网络智能机器人制作系统,每次可以创建一个网络智能机器人。一旦设计完毕被赋予网络智能服务任务后,可以自动地模拟人在网络系统中的操作和数据分析处理动作。
机器人制作系统包括这么几个部分:机器人步骤管理器,当前状态管理器,动作管理器,输入输出对象管理器。
机器人步骤管理器:机器人步骤管理器中可以查看机器人的动作步骤和步骤之间的关系。用户可以设定步骤执行的顺序,包括顺序执行,循环执行,分支执行等多种执行循序。在每个步骤上点右键,可以更改每个步骤的动作。
机器人状态管理器:机器人状态管理器实现显示、管理和设定机器人在某个步骤的状态,包括当前页面浏览,当前页面源码浏览,当前页面DOM树图浏览,当前标签路径浏览与设定。
机器人动作管理器:机器人动作管理器实现显示、管理和设定机器人的当前步骤,包括查找标签路径,定义当前动作,定义动作的输入输出对象,设定错误处理方法。
机器人调试子系统实现调试执行机器人动作的过程,查看执行状态和结果。调试的方法包括单步执行调试,断点执行调试,调试过程中可直接查看执行的输出结果和执行日志。
网络智能机器人是通过模拟一系列真人使用浏览器时所作出的各种动作来完成的,由于每个网络系统的界面设计不一样,人做出的一个发帖动作在每个系统上都是有不同的浏览器操作动作组成,因此网络智能机器人制作子系统采用组件化的方式设计实现了机器人在浏览器中可以模拟的各种基本动作,总共10类60个动作,是数据治理智能服务平台不可或缺的重要组成部分。
整个项目完成后,全域数据治理智能服务平台实现了元数据管理、数据标准管理、数据质量管理、资产管理、数据安全管理、共享服务管理、主数据管理以及全生命周期管理等,为本项目银行提供一套完整的数据治理解决方案。
全域数据治理智能服务平台是高效的数据管理平台。本平台具备统一的连接性、元数据和操作管理功能,加快了大数据管理项目的开发和部署速度,同本平台基于SOA整体架构进行开发。软件采用层次化结构,支持分布式系统部署。
数据治理平台:提供数据治理的基础能力,主要包括用户管理、元数据智能管理、任务调度中心、数据源管理、建模设计、日志管理。
服务能力:主要涉及数据治理和共享门户两方面。数据治理服务能力包括数据标准、数据质量、数据资产、数据服务、数据安全;共享门户主要提供数据服务查询、申请能力。
用户群体:数据治理平台面向的用户群体主要包括数据开发人员、数据分析师、业务用户、数据科学家、数据管理员、数据操作员。
一、节省人力成本,自动形成数据资产
梳理银行方全域数据,根据流程和标准智能、自动形成数据资产,节省人工成本和计算资源,提升60%以上的数据治理效率和40%以上的智能自动化率,。
二、提升了数据应用效率
查询、维护处理响应时间:单一条件查询≤3秒;组合条件查询≤5秒;关联复杂查询≤8 秒。
三、实现了全域数据治理能力
为银行方提供数据治理环境,包括数据元管理、元数据管理、数据质量管理、ETL开发系统、调度管理系统,实现对数据元的规范化管理,提升了元数据管理效率和服务水平,为金融数据质量管控的落实提供技术平台支撑,提供数据的采集、整合、调度环境。
四、构建了全域数据的多方面服务能力
常规服务能力:主要涉及数据治理和共享门户两方面。数据治理服务能力包括数据标准、数据质量、数据资产、数据服务、数据安全;共享门户主要提供数据服务查询、申请能力。
解决方案能力:基于数据治理能力,根据不同产品功能组合提供不同的解决方案,主要包括共享交换、数据仓库、资源目录、数据资产管理、主数据管理、数据治理。
智能化处理信息:平台可通过网络智能机器人自动进行数据分析,并根据分级分类进行扫描,扫描后方可自动化进行数据处理,一次配置,多次定时处理。
全方位监控审计:数据处理中做到“有据可循”原则,无论是人员操作处理,还是系统操作出现的情况,都能够实时记录,并实时监控机器配置情况。
●网智天元
网智天元科技集团股份有限公司成立于2007年,是中关村高新技术企业、国家双软认证企业和国家高新技术企业,中关村大数据产业联盟和中国大数据产业生态联盟理事单位。
发展至今,已成长为一家具有完全自主知识产权的网络智能核心技术领军企业,在政府舆情与企业声誉风险、大数据风控、文化大数据应用领域处于细分领军地位,致力于利用网络智能技术为客户提供大数据智能处理与价值变现的整体价值链解决方案,辅助决策,防控风险,优化运营,提升客户核心竞争力。
●某新型商业银行
某新型商业银行是一家依靠数据和技术来驱动业务运营,实现金融和科技的融合的新一代银行,致力于通过互联网技术为广大消费者和小微企业提供定制化的金融服务。银行秉持“用户导向、技术驱动”的理念,以及“单点突破、快速迭代”的打法,把金融科技和大数据风控视为自身的核心能力来建设和创新,运用云计算、大数据、人工智能等新一代互联网技术,为“二八定律”中那80%没有享受到完善金融服务的小微群体,提供更安全、更便捷和更高效的金融服务,用技术的力量做好普惠金融的补位者和探索者。
❷ 创新服务企业榜
❸ 创新服务产品榜
❹ 最具投资价值榜
❺ 创新技术突破榜
☆条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》
联系数据猿
北京区负责人:Summer
电话:18500447861(微信)
邮箱:summer@datayuan.cn
全国区总负责人:Yaphet
电话:18600591561(微信)
邮箱:yaphet@datayuan.cn