数据中台,数据产品的自动化生产线
==内容摘要==
直到数据产品的出现,才真正让“数据是企业资产”这句口号赋予真正含义,让数据资产变现。
既然有数据产品,那就应该有数据供应链。数据中台作为数据供应链的中间环节,也是最核心的环节,负责数据产品的“制造加工”。
数据加工包含:“初加工”、“深加工”。
数据产品研发,需要建设业务、数据、IT一体化的数据中台团队。这也是数据中台有别于数据仓库、大数据技术平台最核心的一点。
“数字化是碎片化,智能化才能做到系统性。 ”
1
数据中台的起源
2011年,阿里马老师在第八届网商大会表示,阿里巴巴要做21世纪数据分享的平台,要向全社会共享数据。2015年,阿里提出中台战略,建立“大中台,小前台”,其中包括数据中台。
接下来,阿里通过云栖大会等宣传途径,以及成功的市场营销策略,让“数据中台”一词几乎成了阿里的发明专利,更是让业界人士捧为企业数字化转型的制胜法宝,IT届几乎趋之若鹜。
眼花缭乱的新技术、新概念层出不穷。因此,只有从基本原理出发,理清事物的本质才是王道。
2
数据产品
不过,阿里最终并没有按原定的计划向社会“共享”数据。我们也无法猜测,当初按照马老师的规划,如何向社会分享数据,分享什么样的数据。
根据了解,数据中台事业部通过技术手段从阿里各业务板块抓取业务系统产生的原始数据,经过数据中台处理加工,回过来向阿里妈妈、淘宝等前台业务事业部提供诸如商品推荐等数据增值服务。从实质来讲,数据中台就是向外提供一种数据形态的产品。即使是“出口转内销”,改变不了产品的特质。就好比,华为海思生产的手机芯片、网络芯片,并不对外销售,但已经具备产品的实质了。
什么是数据产品呢?举个老百姓熟悉的例子,各地方城市的天气预报,就是通过地面、高空探测站收集各地的气象数据,再经过大型计算进行处理,输出预测的结果,即未来的天气预报数据,最终由网站、APP等向老百姓发布。
其实,数据产品,也早已不是什么新鲜事物了。米国的邓白氏集团,2018年世界500强排名第303,成立于1841年,是世界著名的商业信息服务机构。说白了,就是做数据的生意,从外面采购数据,经过加工之后再销售给其他企业。感兴趣的话,可以去网上深入了解细节。
数据已经作为一项相对独立的产品,具有其独特的用户价值。
3
数据中台的本质
记得IBM CEO最早提出“数据是新世纪石油”的概念。一种理解,说明数据非常有价值;另一种理解:
没有经过加工的原始数据几乎是“一滩浑水”。
“数据孤岛”、“烟囱系统”等等,这几乎是上个世纪(一点都不夸张)与信息化相生相伴的老生常谈。似乎数据整合不仅仅是世界难题,还是世纪难题。当然有些言过其实,不是解决不了,而是压根没往这方面真正发力。
信息化时代,绝大部分IT系统都是以功能为中心的。什么意思呢?例如招聘系统、开票系统、发货系统等等,IT系统是辅助业务完成一项业务操作。某种意义来讲,数据是功能的附庸,被功能的设计“撕扯”得四分五裂了。碎片化的数据又是如何支撑业务的呢?还靠IT系统的程序代码来完成,但这部分除了IT程序员来还原。一旦系统升级换代,碎片化的数据也就几乎很难复原了。
一地鸡毛,用这个词来形容还觉得太过含蓄。
同时,让看看我们面对什么样的数据碎片,并且还将在将来很长一段时间继续产生着数据碎片(毕竟ERP、CRM等系统不会很快消亡)。根据不完全统计,某大型企业IT系统后台数据库有170+万张数据表,5000万+字段。什么概念?打个比喻,就是我们有170+万个excel文件,每个文件平均有30列,数据量大的数亿行记录。在这“海量”的数据中,真正有价值的信息,根据本人的工作经验判断,不会超过5万个字段(属性),约占总数据的1/1000。
因此,企业内部普遍的现象是,一方面企业数据中心的数据不断“爆仓”,另一方面,业务用户方怨声载道,经营分析与决策中,无数据“下锅”。
埃森哲在《2014年技术展望》中提出:
“数据供应链,让信息流动起来。”
“数据生态系统错综复杂,数据孤岛遍布其中,由于所需数据获取难度较高,企业的能力也受到限制,难以从自身数据中充分挖掘价值潜力。要想真正释放其价值,企业就必须将数据视为供应链,使其在整个组织内部便利而有效的流通起来”“打造数据供应链具有非凡的意义。”
“首先,企业有机会获取新的数据源。其次,借助新的数据探索方法操控数据,实现价值增值。这一阶段的未来发展将是消除数据复杂性,利用认知计算实现商业价值。最后,企业能够通过全新的方法发掘外部数据的价值。”
“利用数据服务平台强化数据供应链:数据供应链必须促进数据流动。为了数据能够真正流动起来,使用者必须能够随时获取并访问数据。为此,首先需要创建一个数据服务平台或统一的数据访问层,为用户提供标准化的访问方式,以便及时获取企业的大量可靠数据。目前,只有五分之一的企业真正实现了数据整合,但其中能从中真正获益的企业却寥寥无几。”
与传统的“物”的供应链相类似,数据供应链包含以下几个环节:
原始数据产生->数据获取(采购)->数据存储(仓储)->数据增值加工->数据应用(消费)。
在这个数据供应链中,前面三个环节分别由数据源、数据湖负责,最后的数据应用环节就场景非常多,例如各类监控大屏、以及融入到业务作业的数据分析等等。数据中台主要负责数据增值加工这一核心的环节,数据中台也因此而得名。如果把数据比作成大自然的水,那数据湖负责汇聚各个江川河流的水,围绕数据湖,那数据中台就是我们建设自来水加工厂、直饮水厂,根据用途差异提供不同质量的数据服务。
从数据供应链的视角来看,数据中台的本质是:数据产品的生产线。
随着“生产技术”不断的进步,也将越来越自动化、智能化。
4
数据产品生产过程
几乎和石油等传统的自然资源一样,数据产品加工过程一样可以分为“初加工“、”深加工”。
一、数据初加工:还原世界本来的样子
面对上面提到的“一地鸡毛”似的碎片化数据,唯有首先完成数据整合,还原成世界本来的样子,完成从数据到信息的加工过程。同时,也千万不要忽视数据整合本身带来的价值。
记得2013年,“淘宝十周年时光机”发布,可查询10年支付宝消费状况,当时很多人看完不禁感叹,“我原本也是个有钱人;可惜,我偏偏选择做了个‘剁手族’”。
你看到的逝去的时光、花掉的钱;
阿里看到的是你的消费能力、消费习惯。
当然 ,这是基于时间的纵向整合,还有不同场景下的横向整合。以员工为例,某种意义来讲,目前公司内一切经营活动都需要员工的参与(工厂自动化等是特例)。我们是不是就按员工工号把所有的信息都抓过来,包括他拜访的客户,他签的合同,他经手开的发票,他每天考勤打卡的信息,甚至上厕所的记录(当然是开玩笑啦),依次排开,堆放在一张表里呢?不是,也是。说不是,因为要讲究效率。例如他的客户拜访记录,一定包含客户是谁,是不是在整合该客户的信息时,还得重新来一次。因此,我们按照5W2H的原则,整理清楚各个数据要素,其中也包括是哪个员工拜访的,拜访的客户是谁。要用的时候,就各取所需了。
当然,现实情况不是如此简单,但基本遵从上面的逻辑。在这个过程中,核心的作用是通过数据的联接,相对客观的“还原”现实世界。在阿里数据中台中,由于场景不同,还采用了ID Mapping的技术手段来实现这个过程。
另外,还有一个相对新兴的领域,就是非结构化数据处理,例如文本、影视频等等,本质上是通过技术手段抓取我们所需要的特征信息。过程很复杂,但基本道理想想也就明白了,不必深究。
何况,《未来简史》的作者尤瓦尔·赫拉利说过,人类最大的优点就是把别人懂得的知识当做自己的知识,因为只有只有这样,人们才能坚强、幸福快乐的活下去(否则会被自己的无知气晕过去)。
数据整合,只是数据中台加工的第一个阶段,也是让数据发挥更加的价值的必经之路。。
二、数据深加工:挖掘被隐藏的真相和规律
如果数据中台只是完成数据的“初加工”,就号称可以对外提供数据产品的话,那和当今那些无良的奸商倒卖我们消费者的个人信息几乎没有差别。
数据深加工的手段很多,根据消费方的使用场景,差异非常之大了。下面举一些常见的例子供大家参考:
(一)数据统计汇总
根据各种条件进行数据统计是企业最常见的需求,毕竟常规情况下,超市并不需要关心每一件商品究竟被谁买走了,只需要知道当天总的销售收入,再细化一点,按照时间段、分商品大类小类等等进行统计。也许会说,太小儿科了。
在算法主宰的年代,请不要不把加减乘除当算法。
(二)用户画像
随着互联网经济的井喷式的发展,用户(消费者)画像早已成了另一个热门话题。用一个大家感兴趣的例子,根据你过去一年的工作中的有效输出,给出一个A\B+\B\C的绩效结果评价,HRer再根据你过去几年的绩效结果,悄悄的在HR系统给你贴个标签,诸如:火车头、扎实贡献者等等。这个过程,以前是你的主管或者AT来完成的。
随着数据湖的数据越来越丰富,未来这个过程可以通过分析算法来自动完成。那问题来了,利用算法来给你评价绩效,给你打标签,并决定了你的收入、升值,会更公平吗?这据说是下一个人广泛职场人士困惑的难题。
给用户、员工、消费者从不同角度打的标签越来越多,用一个形象的说法,就是数字化特征的“画像”。
除了上面两种比较常见的深加工以外,还有机器学习、深度学习、数据挖掘等技术手段。总之还有很多,只是其他的我也说不出来。
“数字化是碎片化,智能化才能做到系统性。 ”未经证实,出自任老板某次市场大会上的讲话。想用在这里,形象的体现了数据中台的价值。任老板所指的人工智能,非技术上的意义,而是商业上的意义,也就是一切通过技术取代人工的应用都是人工智能。
5
数据中台的核心能力
既然没有打算把本文写成数据中台设计指南,那下面的内容就显得有点多余。那就简单陈述一些自己的见解。
一、数据产品研发
从技术上来讲,数据中台并不是什么革命性的创新。为了支撑企业内部各种类型的数据报表、统计分析,需要从ERP、CRM等各个业务系统集成大量数据,于是一般中大型企业都在很多年前开始建设企业级数据仓库(EDW)。不过,数据仓库是IT后台,是IT部门的事情,业务部门除了知道需要大量投资,并不关心它是干啥用的。
在数据产品“投产”之前,需要大量研发和创新。在数据产品研发过程中,除了我们熟悉的数据工程师、IT工程师、数据科学家,我要特别强调一下业务领域专家的参与,主要包括两方面:1)提出业务规则。例如,前面提到的员工画像案例中,业务专家要定义什么是“火车头”等等;2)提供业务领域知识。目前的数据分析建模是业务领域知识与数据逻辑相结合的,并且是迭代式进行的。模型优化需要业务领域专家做出相应的判断,而不是简单提出需求后,由数据科学家或者IT工程师实现的串行过程。
因此,对于数据中台来讲,最核心的能力是建立业务、数据、IT一体化的数据产品研发团队。这也无疑是数据中台有别于传统数据仓库、大数据技术平台最核心的思想。
遗憾的是,目前大部分跟风的企业,并没有意识到这一点。
2、技术平台与工具
我从来就不是一个狂热的技术分子。但我要说,过去那套“技术不行,人来凑”的思路,很快就行不通了。
让我们看看数据中台面临的挑战:1)随着业务数字化的深入,数据种类越来越多,管理越来越复杂;2)数据“生产工艺”(规则、算法等)是一个不断迭代升级的过程,没有好的设计开发工具,无法持续发展;3)数据人才稀缺,人才流动频繁。
无法明确指出,什么是数据中台最好的技术和工具。唯有现在开始,转变思想观念,不断改变和提升生产技术。
后记:
作为一个从业多年的“数据矿工”,看着数据中台几乎成了大数据时代风口浪尖上的猪,一方面,似乎有了重建天日的希望,另一方面,更希望即使风头过后,猪已经插上翅膀。
为此,我们需要看到数据中台的本质,不是跟风,而是踏踏实实的建设自己企业的数据产品生产线。
不为名利,只因情怀。