查看原文
其他

在构建数据中台之前,你需要知道的几个趋势

筱愚她爸 凯哥讲故事系列 2021-08-09

    近期数据中台的概念很火,如何将数据能力变成企业的核心竞争力,构建数据中台,用数据去驱动企业的决策,运营,成了大家都在谈的事情。


    凯哥总结了2018年在多个不同行业的大型企业进行数字化转型架构和落地的实践,发现了几个在数据领域(请注意,这里没有用大数据这个概念)的趋势级的现象。

    

    在大家讨论,研究如何构建数据中台之前,先了解这几个现象,会对你构建数据中台有一些借鉴。



下面,我们来一一解读:


1.从流程优先(Process First) 到数据优先(Data First)


    数据从软件诞生的那一天开始就存在,但是,数据并不是第一天就被存储和利用的。在信息化时代,数据是流程的副产品,流程是预先设计好的,然后在设计好的流程中产生了数据。整个数据从不被存储,不被分析到逐渐被统计分析,到越来越多的维度,进行跨业务领域的集成分析,再到现在成为描述数字化世界的原子级元素,成为企业核心的资产,被挖掘利用的金山,这是经历了一个漫长的过程的,这个过程请参考《Rise of Data Native Architecture 第一篇》。


    总结一句话,在数字化时代,业务流程应用软件(流程的显形载体)是随着市场的变化快速而不断动态迭代,产生消亡(这就是敏捷前端的概念),而只有数据本身是对物理世界的最终落地的载体,是会持续存在,增量增加的,数据是构建物理世界对等的数字化世界的原子。


    企业的信息化,经过这么多年的建设,从原来缺少流程建设流程到用流程来拉通驱动整个企业的运转,这个过程中产生了众多的数据,而这些数据最后成了超越管理者和业务人员经验的宝藏,大家都希望通过数据发现一些自己不知道的东西,来指导自己的运营和决策。但是,当大家希望把不同系统的数据拉通来看的时候,发现完全对不起,口径不一致,代码不一致,层次不一致,逻辑不一致。这就是每一个项目都会碰到的所谓的数据孤岛的痛点。

    

    大家都知道数据是最重要的,希望从数据中发现价值和创新,但是历史遗留的数据质量问题,让大家对数据的利用和产生价值又产生了质疑。2018年,凯哥经常听到的一句话就是,“我们现在还没有到利用数据这一步,因为(应用系统中的)数据质量太差”。


    每次听到这句话,凯哥脑子里就好像听到了另外一句话,“还没到培养孩子的时候啊,孩子太小了”。


    数据质量的问题,根本上是在构建应用之初,缺乏整体数据规划,数据思维的问题。原来的流程类应用构建之初,只考虑了如何让流程跑起来,缺乏对这个应用在整个企业的数据全景图(Data Landscape)中的定位的分析,没有从源头上优化数据的存储,流转,从而更好地与其他的系统中的数据去对齐口径,统一语言,将流程问题抽象成领域模型问题,再将领域模型抽象成数据模型。


    在凯哥看来,数据是先于系统就可以被识别和定义的。举个例子,对于一个业务来讲,不论你是否依托于信息化系统,是否将数据存储了,只要你的业务模式确定了,那么这个业务模式所能够产生的,所能够消费的数据是比较清晰的,这个不依赖于你使用什么系统,你的流程是如何设计。

    因为数据本身是物理世界在数字化世界的一个投影,是描述数字化世界的原子。


    当然,凯哥在2018年也看到越来越多的企业高管,在业务问题提出的开始阶段,就能够意识到数据的重要性,从数据视角出发去,用数据思维来指导问题的解决。

    这就是凯哥所说的,从流程优先(Process First)到数据优先(Data First),更加本质的解读是,从流程思维优先到数据思维优先。



2.OLTP和OLAP在逐渐融合


    十几年前,数据处理的流程分成两类,在线交易处理类和在线分析处理类。这是因为软件的计算能力有限,生产系统无法容纳历史数据的查询统计功能,否则就会导致海量数据的查询,拖垮生产系统的正常交易。所以硬生生的把一个业务系统分成了交易型系统和分析型系统。


    

https://www.marklogic.com/blog/relational-databases-are-not-designed-for-mixed-workloads/

    

    这里引用一个比较典型的图片来解释这两类系统的区别,见上图。


    数字化走到今天,我们需要更多的历史数据,跨应用的数据来支撑我们的交易模式,支撑我们前端的业务运营,这种情况下,OLTP和OLAP分开的这种模式就不能满足我们的高速变化,个性化的业务需求了,我们不能回复客户,“你等我一天,给你一个价格”。


    同时,随着大容量,高速存储的技术的发展,随着计算能力的提升,更随着微服务,大数据架构的出现,OLTP和OLAP在逐渐融合:

    应用系统能够实时的基于多维、多渠道、历史数据的分析来定制化交易流程和和行为。


    从平行的关系,变成垂直的关系:


      未来的交易型系统,都会变成分析型交易系统,具有跨域历史数据分析的支持能力,用数据分析来支持交易的动态敏捷变化,高速响应市场和用户的需求。

    

    从传统的流程产生数据,数据产生报告,报告产生洞察,洞察驱动流程的慢速重构,到数据分析实时驱动的流程快速自演进。

    

    这也是凯哥在提的一个概念,BDAI(Build Data-Analysis In),所有的业务系统都要内建数据分析能力

3.大而全的数据平台的尴尬


    2018年,企业对于数据越来越重视,所以有越来越多的企业在做数据平台,做数据湖,很热闹。但是,当凯哥进行深入沟通的时候,大部分的企业都在问同一个问题,“这些数据,这些平台对我的业务价值是什么?”。


    的确,数据是有价值的;的确,作为企业的基础设施,数据平台是有价值的。这是毋庸置疑的,但是在有限的投资的情况下,在业务需求痛点都还没有被及时响应的情况下,有的企业就一次性投资购买了大而全的数据平台,并且把各种数据一股脑的往数据湖里灌,然后统计这数据存储量的增长,作为数据资产来展示价值。

    但是,逐渐就会发现以下的问题:

1.不同系统的数据进来的越来越多,数据越来越不一致,口径越来越对不齐,要用的时候不知道取哪个,怎么取

2.数据质量是解决不完的问题,随着数据量(纵向的,横向的)的增加,数据质量感觉治理起来没有止境

3.有些数据找不到应用场景,成为了空占存储的成本中心,但是又不敢删除


    当然,会有很多同学说,“凯哥,你第一个趋势就讲到,要数据优先,那么我们先把数据能力建立起来,数据存储起来,有什么问题呢?”

    

    凯哥所讲的数据优先,指的是数据思维优先,而不一定非要在业务场景还没有明确,优先级还不清晰,价值度量体系尚未建立起来的时候,就建立大而全的数据平台,并且把所有的数据都存起来,毕竟企业都是追求投入产出比的。


    所以,大而全的数据平台在不少企业面临了尴尬的局面,一堆功能看上去很有用,应该都能用上,但是缺乏应用场景,真的有了场景,发现也不能开箱即用,还需要众多的定制化。

所以,凯哥不建议在建立了数据战略,识别了价值场景前就建立大而全的数据平台。


4.不与业务结合的数据治理项目将被淘汰


    凯哥在十几年前就做了多个数据治理的项目,数据架构,数据标准,元数据,一堆的高大上的名词,产生很多报告和文档,然后一般来讲最后会落地几个东西:

1.一堆新的虚拟组织和岗位角色

2.一堆标准和流程文档

3.一些主数据管理、数据治理应用


    但是,坦率的讲,从来没有一个企业的数据治理达到了最初期望的完美效果。

    

    凯哥2018年一直在思考,试图通过企业级的数据治理毕其功于一役,本身可能就是一个伪命题。


    数据是映射业务的,数据是物理世界在数字化世界的投影,是数字化世界的构成原子,那么物理世界的业务是变化的,是动态的,那么数据本身也是动态变化的。数据的类型,数据的形式,格式,规则,本身就不是固定的,我们如何能够试图用一个静态的标准来管理一个动态的世界呢?


    所以,传统的那种脱离了业务场景的纯粹从标准层面的数据治理项目,如果要产生业务价值,具有生命力,那必须与业务结合,从业务场景出发去解决数据质量问题,而不仅仅是出标准,出规范。


5.主数据的概念和管理方式发生了本质的变化


    主数据管理是原来数据治理中的一个重要的范畴,但是根据凯哥的观察和思考,在现在的数据边界被打破的趋势下,主数据的概念和管理方式正在发生本质的变化。

    

    传统意义的主数据是指非交易型的,持续型,共享使用的数据,一般来讲具有相对静态的特点,典型的主数据包括客户数据,供应商数据,组织结构数据等。所以原来的主数据管理一般是中心式的管理方式,比如要修改一个供应商数据要经过主数据修改的流程,然后分发同步给其他系统。

    

    但是,随着业务的不断发展,特别是对于用户数据,产品数据的不断细分,多样化,主数据的范畴在延伸。举个例子,原来的客户主数据主要是指客户的基本信息,相对比较静态,但是到了互联网的今天,用户画像,标签,这些动态的,根据场景会有所变化,不断演进的数据也是会被频繁调用,并且是描述一个用户的很重要的维度,这些数据按照过去的主数据的管理方法是无法被高效管理的。

    

    所以,传统的中心化的,流程式的主数据管理的方法也正在发生本质的变化,取而代之的是以微服务和元数据驱动的主数据管理的架构(凯哥将另外撰文阐述)。


6.数据和人工智能价值蓝图和演进路线诉求的紧迫


    2018年,凯哥服务过的所有的企业,都面临同一个问题的挑战,那就是“数据和人工智能的应用场景有哪些?如何区分优先级,制定演进路线”。

    

    所有的企业对于数据驱动,对于数据的价值,对于人工智能可能带来的颠覆性的趋势,都是从心底里认同的,甚至是“不明而同”的。

    

    所以,很多企业都在焦虑之下紧迫的上马各种数据和人工智能类的项目,只要是跟数据和人工智能相关的项目优先级都很高,都很高大上。似乎不包装成一个智慧的样子,都不好意思立项一样,于是,做了一点数据分析,就成了智慧零售,加了一些专家系统的规则,就成了智能客服。


    很多的结果是,钱也投了,系统也建了,但是并没有从根本上产生很大的业务帮助和价值,而且由于早期缺乏统一的规划,顶层设计,又变成了一个个的数据、算法孤岛。不同的应用系统,从不同的数据源取数,同样的分析场景,利用了不同的算法模型,出来的结果不一致,准确度对不齐。

眼下,大部分企业都需要一个数据和人工智能的价值蓝图,都有哪些价值场景,哪些业务价值最高,哪些具有可实现性,哪些应该先做,哪些应该缓一缓,这样的一个演进路线是众多企业所需要的非常紧迫的需求。

    

    通过过去的实践和总结,我们抽象了一个数据创新场景的蓝图模型,从业务场景、数据蓝图、技术能力(包括人工智能技术)三个维度来阐述业务场景的价值优先级:

    


每一个企业都需要制定出属于自己的数据创新蓝图。


7.企业私有人工智能平台将是大型企业的标配


    2018年,我们很荣幸的为两个不同领域的大型行业头部企业交付了私有机器学习平台,这样的机器学习平台正在持续的解放业务分析人员的工作量,提高他们的生产效率,将业务处理从流程化,自动化,转型成智能化。

    

    结合2018年多个行业的数字化转型的实践分析和总结,凯哥有一个发现,“未来的企业都会是采集、加工、生产数据产品的数据工厂,企业物理世界中生产销售的产品只是这个数据工厂的生产线上的不同的原材料组合出来的不同型号”。那么人工智能技术是这个数据工厂的重要的生产线,所以未来每个大型的企业,都会拥有私有的人工智能平台。


    这里的人工智能平台,在现阶段,主要是指机器学习平台,就是数据的采集,标注,分析,训练,产生业务洞察模型的平台。而这里很重要的一个点,就是哪些算法和智能的技术是应该内建在企业内部,哪些是可以利用公有的人工智能云服务,从而私有云和公有云结合,获得最高的投入产出比。


基于趋势对于数据中台建设的启发

  1. 业务价值优先,识别业务场景

  2. 数据思维优先,构建数据全景图

  3. 基于场景来构建数据中台

  4. 数据中台要考虑AI能力

  5. 数据总台建设的同时要包含数据治理

  6. 数据中台不能仅从分析出发,也要考虑交易


在2018年,凯哥实施了有典型意义的大型企业的数据中台,总结了如何在3个月构建一个能够被验证业务价值的数据中台MVP的落地方法,随后推送


请长按扫描二维码,关注凯哥公众号


本文作者凯哥,保留本文一切权利,未经许可请勿转载。


相关链接:

凯哥讲数据原生架构:Rise of Data Native Architecture(一)


Data First的时代,利用数据产生商业模式创新的五种方法


凯哥讲人工智能:人工智能的四个层次


一张图看懂信息化和数字化的本质区别



加凯哥微信交流



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存