数据中台建设成功的三个阶段
The following article is from 凯哥讲故事系列 Author 筱愚她爸
正文开始
前言:
自从数据中台爆火以后,天天有人问如何度量数据中台建设的效果,怎么证明数据中台建设就成功了。
这是一个很复杂的问题,就好像问,如何证明企业数字化转型成功了一样。
ThoughtWorks数据智能团队认为,让企业的数据“用起来,跑起来,转起来”是企业数据中台构建成功的标准。
一个典型的B2B2C企业的数据中台案例
下面 这个案例是一个典型的企业构建数据中台利用数据,挖掘数据价值的过程,利用这个案例,我们来看一下如何从无到有构建一个数据中台。
数据应用的挑战
这个企业是一个传统行业,他们的业务模式是典型的品牌商,经销商,门店,消费者四层结构,是典型的产品加服务的模式,对于门店(客户端)的依赖较大。
以前,该企业靠产品的差异化有极强的竞争力,是典型的卖方市场,运营方式相当传统。
市场大撒钱,活动广告是粗犷式管理。
销售常压货,对经销商是控制型管理。
但是,近几年,该企业所在产业升级,客户的需求越来越多元化,门店对于单个产品的依赖越来越低,经销商压力越来越大,传统的压货模式已经不能够应对现有的模式。为了应对这样的挑战,该企业也做了很多尝试,建立自己的电商平台,打造线下直营店,希望和客户,消费者建立更加直接的联系,应用建的不少,但是依旧面临很大的挑战。
主要包括如下5点:
市场费用花了不少,不知道都带来了什么效果
没有客户端端数据,只有Sale In没有Sale Out,不知道谁在用自己的产品
线上流量无法导到线下产生订单
线下经销商数据不能回到线上形成闭环
企业花钱买了流量,但是转化率低
如何解决这些问题呢?
应对挑战的冰山模型
以上的业务现象,从数据的视角都能找到相关的原因:
市场费用花了不少,不知道都带来了什么效果
市场的广告,活动等投资,没有与阅读量,传播量,转化量,销量数据直接关联起来,所以,无法度量和评估效果。
只掌握Sale In(销售给经销商的订单)没有Sale Out(销售给客户和消费者的订单),不知道谁在用自己的产品
传统的经销商代理模式,品牌商获取不到Sale Out数据,所以无法准确的知道市场的真实库存情况,也就无法更准确的做销量预测,更不清楚自己的商品卖给了哪些门店和消费者,这是数据缺失的问题。
线上流量无法导到线下产生订单
由于该行业的特殊性,需要服务的支撑,所以线上直接下单的几率较小,很大程度上依赖线下的沟通。但是线上有用户访问,但是哪些是高潜意向用户,应该如何跟进,分配给那个门店或者经销商比较合适,这些决策缺乏数据支撑,导致线上流量导入线下生成订单的成功率低。
线下经销商数据不能回到线上形成闭环
线下经销商的订单数据,缺乏有效的手段采集回品牌商,从而能够匹配到对应的Sale in数据,无法形成闭环,这样会导致对市场预测,库存,经销商行为,销售能力的不掌握,就无法对于后续的经营做出更加准确的指导。
整个市场竞争越来越激烈,品牌商还是按照抽成的方式在挣钱,并且对中国市场的利润要求还保持一定的增长,这种情况下品牌商的销售部门为了完成任务各种压货,杀鸡取卵,经销商不挣钱,疲于奔命,而经销商的数字化水平普遍比较低,人员流失率大,陷入恶性循环。
企业花钱买了流量,但是转化率低
有些企业意识到了流量的重要性,所以花了大投资在流量上,流量的质量越来越差,转化率很低,归根到底是这些流量的数据与内部的营销数据没有整合起来,导致有质量的流量没有被识别出来。
在这样的情况下,该企业与ThoughtWorks合作,采用精益的方法,从很小的投资做起,分四步走,识别数据场景,将数据先利用起来,构建了企业的数据中台,拉通了企业数据,提高了数据利用的效率,并且一个个的在中台上快速又生长出了数据应用,赋能了更多的企业的业务,最后形成了持续的数据运营体系。
整个这个过程,可以用三个阶段来总结:
让数据,“用起来”,“跑起来”,“转起来”
一、让数据用起来
该企业并没有一上来就做技术平台,而是做了一个轻咨询,首先,从业务价值的角度全面的发散了各种有价值的数据利用场景清单,然后对这些场景进行了价值优先级的排序,选出优先级比较高的场景进行深度分析。探索这些场景需要的数据,验证技术可行性,做一个可行性优先级的排序,最后从这个场景清单中选出最有价值,数据基础最好,技术可行的场景,作为最小可行性产品(MVP)立刻启动交付开发,从而最快的将数据利用起来。
让数据用起来,产生业务价值是数据中台建设的第一优先级。至于这个用起来的过程是否是自动化的,是否有大数据平台的支撑,是否用到了先进的技术,这些都是第二位的事情。
举个例子,作为该企业的经销商,经常会需要产品参数数据,过去这些数据都是通过邮件发出来,所以,很不及时,而且还需要收到后进行手工的处理才能用起来。这个场景在轻咨询中被识别出来,后来,做了一个数据API,让经销商们能够通过这个API去很方便的调用最新的参数数据,而不需要打电话再发邮件了,这就把这个参数数据用了起来。
但是,其实这个需求的技术实现是非常简单的,并不复杂,而且在最早期,甚至还有一些落后,为了快速响应业务的需要,这后台并没有用到多么高深的开发,也不是自动的,而是人工查询、采集、处理好参数数据放到一个文件夹下面,然后在用程序去读取这个文件,连数据库都没有用到。
让数据能够以服务的形式被业务调用,哪怕是手工配置的数据,这就是数据中台的第一个阶段,让数据用起来。
回看企业信息化,很多企业都做了一些第一个阶段的工作,局部的将数据利用了起来,比如,管理驾驶舱,固定报表,多维分析,动态查询,还有一些以数据科学项目形式出现的,比如做一个预测模型,做一个优化算法等。这个阶段的特点是,利用局部的数据,不连续的利用数据,当数据发生变化的时候,要重新执行一遍这个流程。
如何能够自动,按需的让数据为业务提供价值呢?就像软件工程中CD/CI那样,在源数据和数据利用场景之间构建一个自动价值流,让它跑起来。
二、让数据跑起来
数据中台是企业的数据产品工厂,它的作用就是在源数据和数据产品之间构建一个自动的数据处理链,从而让源数据自动的经过采集、处理、转换、集成形成一个个的数据产品(服务),在被相关业务系统所调用。整个这个过程都是在数据中台中的数据价值链中流转的,数据中台让所有的数据产品从生产到消费的过程自动化,形成自动的流,从而让数据跑起来。ThoughtWorks给这个过程起了个名字叫CD4ML,Continuous Delivery for Machine Learning,就是机器学习的持续交付。对应到数据建模,我们也可以叫它CD4DM,也就是Continuous Delivery for Data Modeling。
这里的让数据跑起来,包括几层特定的含义:
一、让数据随时都在跑动
在数据仓库时代,每天晚上要跑一边数据,跑完了数据才是最新的,准确的,是靠定时任务做到的。而在数据中台时代,结合流数据的技术,能做到让数据随时都在跑,保证实时性。数据是真实业务与数字化世界的链接,让数据随时都在跑动,意味着数据实时反应这业务,这也是数字孪生的概念的本质。
二、让数据跑到正确的地方
数据仓库时代,数据可视化报表时数据利用的主要形式,各种数据报表层出不穷。而这些报表是否有人看,使用频率如何,业务用户使用报表的反馈是什么,这些很少被实时的采集和分析。而在这个企业的案例中,数据是按需提供给对应的用户的,并且谁访问了这些数据,都会被记录下来,从而供运营分析使用。所以,让数据跑起来,还包括按需提供个性化的数据给到业务用户,让数据跑到正确的地方,按需产生价值,避免浪费。
让数据跑起来,是数据平台,数据运营平台的功能,通过数据处理链(Data Pipeline)让数据自动的在源系统和数据产品之间快速流动,这是价值流的体现。
三、让数据转起来
当数据能够自动的跑起来,有了持续交付价值的能力后,下一步是什么呢?
形成自学习,自驱动,自演进的价值闭环,通过一个生态体系,让数据价值在这个体系中转起来。
具体体现在如下几点:
数据形成闭环
二次生产加工的数据和源数据是一个体系,相互连接,相互打通,所以能够形成数据闭环。
价值被验证
数据产品的价值在这个闭环中被验证,如果价值不被体现或者达不到预期的效果,则需要优化算法或数据,否则就要被淘汰。
持续运营体系
企业的业务在不断变化,数据是业务在数字化世界里的投影,所以数据也是时刻更新的,所以数据的利用要形成常态机制,能够持续有人负责,有人去挖掘,有人去验证,这就是建立持续数据运营体系的概念。
小结
让数据“用起来,跑起来,转起来”,对应的就是数据应用体系,数据技术体系和数据运营体系。
企业必须建立起这三个体系,才能构建数据驱动的能力。
阿里彻底拆中台了!