查看原文
其他

数字经济时代的智能化大数据治理

焦烈焱 EAWorld 2022-09-05

转载本文需注明出处:微信公众号EAWorld,违者必究。



当今,数字化转型正在各行业快速发展,以数据、流量、知识为主的的数字经济时代到来,数据在其中的重要性不言而喻。


在企业内部,数据团队正逐渐变成一个专业、独立的部门,未来数据部门的肩上要扛起包括保证数据质量、管理数据架构、提供平台与工具等在内的各种数据相关的职责,来支持各方对数据的使用、形成企业的数据资产。做为支撑数字化转型的基础设施,数据治理已经成为数据团队履行数据职责的重要手段。

我们正在尝试通过一些智能化的技术来实现数据治理,建立企业统一的数据工作环境。本文主要介绍了通过智能化的手段来实现大数据治理的一些技巧,以及其中的核心技术。


目录:


一、治理数据,从发现数据问题开始

二、三个智能化大数据治理的案例

三、大数据治理的十大智能化能力

四、总结


一、治理数据,从发现数据问题开始


科学探究的过程一般是从发现问题开始的,数据治理也是如此。先发现问题,再寻找解决方法,最后提供相应的技术支撑,这是做数据治理的一般思路。


1.企业中常见的四类数据问题


在颠覆企业业务的数据经济时代,数据无疑成为企业拥抱变化的基础,数据跟实体一样变成了生产资料的一部分。但是我们仔细观察之后,会发现企业存在着各种各样的数据问题:


第一类问题就是数据资产不清晰。现在很多企业都不了解自己的数据,企业中到底有多少数据?数据都是什么样的?这些数据到底可以发挥什么作用?很少有人能准确回答出这些问题。


第二类问题是数据质量不高。现在因为数据质量不高而影响企业业务的例子有很多,在这里就不多说了。


第三类问题是业务和开发的协作问题。数字经济时代,业务对数据的需求和以前不同了,以前在数据仓库的模式下,开发是先把一些工具归并出来,再做成一个整合提供给业务,现在业务需要进一步明晰数据是什么,要自己看有哪些数据可以发挥出想要的价值。


还有一类问题是知识和数据难以关联。比如我们发现拿给业务看的数据和业务概念之间往往不能很好地匹配。举一个金融行业的例子:业务想要一个头寸的数据,但是到底在哪个地方,哪一种头寸说不清楚,像这种数据和知识的关联是很难建立的。


2.通过大数据治理提供多种数据服务,从根本上解决数据问题


传统数据治理更多是在强调通过一些流程和制度把数据质量提高,并不能很好地解决以上种种数据问题。现在做数据治理,更多是为大家提供统一的数据服务的能力,从而让数据问题得以解决。



这样的环境应该包括哪些东西?需要能解决一些什么样的问题?简单总结就是四个字:管(Manage)、看(Browse)、找(Discover)、用(Apply)。



  • 管。这部分不用多说,也是之前做数据治理的重点。


 把海量的数据管起来,需要建立元数据的模型,比如说我们做客户画像的时候,可能根据客户信息建一些元数据,做服务数据的时候,可能会根据交易接口做一些元数据,做数据仓库的时候,可能会根据这个数据仓库建立一些元数据。我们管的时候,需要建立整个企业层面的元数据以及跟合作伙伴打交道的元数据,这样才能把所有的数据和数据之间的关系统一整合起来,而这些元数据不是手工录入进去,而是采进去的。后面会讲到我们元数据的智能化采集,这是能体现数据治理智能化的概念之一。


  • 看。管理层面的人都比较关心企业数据的总体情况,如何才能让领导和员工都能了解到企业数据资产的情况?让企业数据以360度的方式呈现在大家面前?


很多人都说过数据治理太技术化了,做完之后领导看不到效果,业务价值难以体现。能否“看”得到,是我们在做数据治理时能否拉到同盟军,建立统一战线的一个非常重要的手段,如果到最后连效果都看不到,很难把数据治理推行下去,也很难得到领导的支持。“看”的部分是能展现数据治理效果、决定数据治理成败的主要部分。



  • 找。如何才能在海量数据中把数据和其中的关系找出来?如何让业务像Google搜索一样来查找需要的数据,而不是还像之前一样只能接收经过开发整理好的数据?如何才能找到汇总数据之外的数据,比如指标数据、明细数据?


要想实现“找”,要建立业务元数据跟技术元数据的匹配,后面会讲到我们用到的知识图谱技术,其中的难点是如何通过业务含义来查找数据,如果从技术含义找这些数据其实问题不是很大。恰恰我们做数据分析做使用都是从业务含义上来找,需要找到语义以及语义的上下级的关系,并且做一个延伸的搜索。



  • 用。找到数据之后,如何快速有效地用起来?


很多人可能会问,找都找到了,“用”还不简单吗?其实没有那么简单,脱敏怎么做?大家出现争执的时候怎么做?供数部门说我已经给了你5个G的数据,需求部门说我怎么没有发现?这时候就需要一个裁判,来判断究竟是谁的问题,这5个G的数据是没有取走,还是提供的数据有问题,这是用的问题。



以前把数据清洗完进仓库,到集市里面去,时间非常长。现在我们通过数据治理这个统一的工作环境来干这件事情。在这个工作环境里面把管、看、找、用四件事全解决了。而如果仅仅站在传统数据治理的角度看这个事情,很难把这个事情做好,必须把这个事情放大,提供这样一个统一的数据工作环境,让大家用这个数据。这是我们做数据治理十多年来总结出来的一些经验。


3.智能化还是纯手工?


通过手工的方式,也可以基本满足提供多种数据服务的要求,但是我们知道手工方式的代价和成本太高了,需要选择更智能化方式来实现大数据治理的工作。如果不能做到100%的自动化,那就尽可能追求最大程度的自动化,只要做到一部分就有非常大的帮助了。



二、三个智能化大数据治理的案例


与传统数据治理相比,智能化大数据治理需要在四个方面有所突破:


  • 转变目前数据团队的目标与组织架构,明确面向数据自服务的数据管理职能;

  • 梳理现有全业务系统的数据架构,形成可逐步演进的企业元数据;

  • 为数据的使用方提供数据生产线,为数据的收集/转换/存储/探索/可视化等提供方便的工具和研发过程;

  • 建设有别于数据仓库的数据湖,在此之上形成企业数据资产。


下面用几个例子跟大家分享一下我们今年在做智能化数据治理上做出的一些成果:


1.提升数据共享的航空业智能化数据治理


现在有很多数据,该航空公司希望通过数据分析出春运的表现,这些数据一定是有的,但是这些数据在哪里?这个公司有100多个系统,有很多需要的数据分布在好几个系统里面,甚至某些数据之间还存在冲突。


这种情况下先要提供“摸家底”的能力,先通过自动化的方式找到现在有哪些数据,企业的主数据,数据主题都有哪些,映射关系是什么样,只有自动化采集的方式才把这些元信息尽可能多地采集出来,并把数据从业务系统到仓库、集市、报表之间的流转关系打通。



对于我们来说说简单也简单,说复杂也复杂,通过源代码的分析建立关系,而不是完全通过手工的操作建立这样一个关系,最后形成下图这样一个数据体系,在这个数据地图里面知道主辅系统是什么样子,知道在哪里能找到需要的数据。自动化把家底摸清楚,这其实是解决了我们第一个阶段的问题。


最终,是要做到提供数据服务的能力,这些年的数据治理实践中我们发现不能把数据治理做成高高在上的,一定要把它做到日常工作中,这样才能起到治理的作用,要把这个东西作为一个底层提供出来,让应用开发、数据开发都可以用,这是我们做数据治理的一个目标。



2.提升风险管理能力的证券行业大数据治理


大家知道这两年证券行业有一些变化,监管的要求比以前高了,如果大家对资本市场有关注,就会发现证监会对证券公司有很多监管上的数据要求,也就是说提供证券公司监管报送的时候,数据要保证是正确的,在这种情况下就需要建立数据治理以及质量管理的机制,知道怎么样通过风险控制的指标做这样精细化的管理,这需要把现在的一整个IP系统建立数据治理的流程:从评估分析开始,到体系规划,到数据梳理,最后把它落到上文讲到的统一的数据工作环境中来。



从监管报送的角度来说,数据标准的建立非常重要,数据标准不完善,给监管报送的报表一定是不对的。


通常数据标准的建立有两种方法。传统的方法是人工梳理的方式,其实还有一种方式是先拿到数据模型,在这个模型上做修改,再衍生出数据标准。我认为用第二种方式更好,这种方式能够根据企业实际情况形成数据标准,这样出来的数据标准更容易和企业的实际情况建立联系。虽然通过第一种方式可以理出很多Word文档,整理出很多数据含义,但是映射在IT里面到底是什么样子就搞不清楚了。有很多数据标准跟现在的系统现状有可能差距是非常之大的。如果把现有的东西理出来再把这个门类整合,再跟信息项做关联,其实做出来的数据标准跟你现在的系统映射做的非常好。我们更推崇这种自下而上为主,自上而下为辅的数据标准建立方式。通过这种自下而上的方式把从数据仓库,到数据集市的应用整个关联建立起来,通过这个数据链路关系,数据加工关系,再用这些方式来帮助大家更好的建立数据标准。



3.提升运行监控能力的电力行业大数据治理


电力行业有它的特点,有一个部门叫做运监,运监部门就是从现有的数据里面看出来现在运营监管的情况,最关心的还是有哪些数据。实际上是国家电网的CIM模型已经提供了一个语义的标准,这个标准和现有的信息数据关联是什么,通过各种各样的手段,是否能够建立更多的自动关联的方式?其实往往在界面上,在政策法规里面一定会提到已经建立的模型。我们是可以通过分析源代码,分析数据模型,分析数据架构关系,把其中的链条做出来,通过这种方式可以自动建立出来一种体系,并把修整的版本管理起来,用服务的方式把这种能力提供出来。



三、大数据治理的十大智能化能力


如何让大数据治理变得智能化?我觉得可以从十个方面入手。



1.智能化支撑数据标准构建


刚刚大家也看到了,在证券的案例里,传统的数据标准梳理是自上而下来做的,而我们是自下而上做的,通过数据治理平台可以自动采集一些技术元数据,再通过这些数据的特征跟数据的业务元信息建立关联关系,这个技术相对复杂,需要通过业务属性、技术属性的特征建立数据标准。


2.智能化规范系统数据模型


我刚刚举了某大型全国商业银行的例子,在该银行,我们把数据模型的设计、维护等日常的工作和数据标准建立了关联,让大家在日常的工作的时候就能够用到数据标准。当然,在这里面需要一些数据标准的变通流程和模型处理的流程来支撑。2011年,全行有17万数据标准,现在全行有8万个数据标准,可以看出做了很多的规避,这就是跟日常数据应用开发做关联的好处。



3.智能化梳理企业数据资产


在这个自动化梳理企业数据资产的过程中,有很多需要实现的技术点,报表可能用开源做的,ETL可能是用存储过程写的,需要分析不同类型的数据库,分析不同代码的结构。


我们曾经给一个物流公司做资产梳理的过程中得到了一个他们自己都觉得很吃惊的结论,梳理形成地图之后发现300张报表在地图里没有跟任何源系统有关系,也就是说这300张报表已经没用了,但是他们还在花成本维护。通过自动梳理经常能发现很多意想不到的情况,这也是我对整个数据架构的整理过程。



4.智能化实现数据协同变更


我们在做应用的时候上线都很频繁,如何尽量保证上线不出错就是我们希望的协同。要想协同,至少做到两件事:在某个数据发生变更的时候通知该数据的上下游是其中的一个方面,还有一方面是在上线的时候都要和元数据系统做比对,上线之前会把生产系统里的元数据和开发系统元数据做一个比对,比对出二者的不同,然后审批这种差异是否OK,审批通过之后可以上。如果有问题。可以把设计模型也采出来,看看和设计是不是一致,是就OK。大家知道变更是很麻烦的事情,如何尽可能让变更不出错其实就是一个协同的过程。 



5.智能化形成大数据生产线


这是整个数据处理的自动化,我们发现其实大多数数据处理、数据清洗的过程都是简单重复性劳动,我们知道机器最擅长做的事情就是重复性工作。举个例子,加字段是一种最常见的数据变更,手工的方式一般是先做一个临时表,把新字段和数据放到临时表里面,再把新表和老表之间做一个关联。数据生产线里面,像这种操作可以直接由系统完成,大家需要做的就是在系统里面做选择题,选择具体由哪种方式来实现想要的操作。 



6.智能化企业元数据服务


企业元数据其实有很多,有技术模型、业务模型、服务模型等。把这些元数据采过来的目的应该不只是形成企业地图,实际上是要通过数据服务的方式对外提供元数据,简单来说可以通过接口从我这里拿到想要的东西,把接口嵌到你的工具里,而不是跑到我的系统查,遇到数据质量问题的时候也能直接定位到问题所在,而不等是再进入到元数据系统里才能判定出血缘关系,整个过程不需要去登录元数据系统。这是智能化数据服务必须要做到的。 



7.智能化业务知识图谱构建


数据间的流向关系在企业信息系统是真实存在的,很容易获取到,但数据和知识之间的关联关系一般是逻辑上的,而这种逻辑关系一般都要跨部门或跨系统才能获取到,所以在做数据分析的时候需要一种智能化的手段来给这些数据建立关系。


我们基于知识图谱技术构建企业数据间的关联关系,首先基于企业元数据信息,通过自然语言处理、模式识别等算法,以及业务规则过滤,实现实体对象提取;然后以本体的形式表示和存储;最后利用智能搜索、关联查询手段,为最终用户推荐数据关联关系。有了知识图谱的支持,基于元数据的自助数据服务开发就变得很简单了。



8.智能化数据业务标签发现


我们都是实操性的东西,通过下图这样一些使用习惯,在联合外界系统的情况下,用智能化的方式自动化为系统中的数据建立标签。



9.智能化数据业务实体发现


拿表格举个例子,当表格中每一列数据被定义之后,通过智能化的手段自动将每一列数据的定义聚合成更高层的业务实体,在文件中也是类似的做法,这样就自动识别出系统中存在的业务实体,作为数据转换为知识的基础。


10.智能化数细粒度敏感信控制


上文中我强调企业需要建立一个企业的元数据模型,其中应该注意敏感信息的控制。比如说可能某人的某一笔贷款不准别人看,或者所有贷款中某一个信息项不准别人看,像这种细化到具体某一行和某一列上的信息控制是需要专门花功夫来做的。我们元数据产品里面就能建立这种敏感信息的审计,我们给某政策性银行做的时候就和上面的例子很相似,这是一个很高的权限,需要在元数据里做好。


四、总结


与之前只需要做好数据管控的传统数据治理不同,在数字经济时代下,为了快速响应业务需求,支撑业务创新,现在数据治理的目标是要建立一个大数据的工作环境,用智能化的方式建好各种数据服务是关键,如果大家有兴趣也可以扫描我们的微信公众号,里面有很多数据治理相关的文章、课程和经典案例。 






关于作者:焦烈焱,普元信息CTO,全面负责研发、产品与市场工作,是公司技术发展战略的重要决策人。焦烈焱专注于企业技术架构领域,对分布式环境的企业计算、 企业信息架构的规划与实践有着丰厚经验,带领普元技术团队相继在云计算、大数据及移动开发领域取得多项突破,并主持中国工商银行、中国建设银行等多家大型企业技术平台的规划与研发。



关于EAWorld:微服务,DevOps,数据治理,移动架构原创技术分享,长按二维码关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存