凯哥讲数据原生架构:Rise of Data Native Architecture(一)
我一直在思考信息化时代和数字化时代的区别,从流程驱动到数据驱动的数字化转型,无数的现象告诉我,这个世界是由无数的数据模型构成的,万物互联,所有的一切都可以用数据来描述,用数据来建模,在数字化时代,最高效的沟通方式是数据化的沟通。
而企业数字化转型的过程,就是企业的物理模型数据化的过程,所有的资产、行为、关联、实体都被数据化,然后在数据的世界里可以被训练,被学习,被预测,被优化,被推导,被模拟。
作为一个从推广单机税务系统的信息化老兵,我见证了数据在整个企业信息化过程中的地位的变迁,特别是当我从电信领域数字化一线实战体验后,我发现,电信领域的业务过程,其实就是一个数据加工的过程,一切的工作,大部分都是在对数据进行加工处理,所有的一切问题的表现都是数据不拉通,数据不一致,无法被解读,无法被识别,无法被集成。
如何解决这样的问题呢?
从EAI到SOA到微服务,都是拆解业务到服务化,从业务层去建立连接。
而,如果数据的视角看,如果从业务需求伊始就导入数据架构,构建数据全景,那么是不是有可能从另外一个维度有一些新的发现呢?
这就是我在思考的问题,套用一个很火的组词方式(Cloud Native),暂且我叫它“Data Native Architecture”,数据原生架构。
下面我会用多篇文章来阐述这个架构是什么,它如何构成,对于数据驱动的创新,数据驱动的数字化转型有什么样的意义和作用。
一、"Data Native Architecture" is Coming
数据原生架构的起源
数据在软件历史上经历了多个历程,并不是从一开始就受到今天这样的重视的,我总结了一下,可以分为五个阶段。
第一个阶-单机工具软件时代
“数据并不是一开始就存在的”,最早的应用软件,是单机版的,是用来解决某一个单点问题的。就像最早的软件工具之一的计算器一样,计算器是不会存储用户在计算过程中的所有的数据的,当你计算完一个结果后,再重新计算,它就会清空过去的数据,数据本身只是一个过程。而用游戏来说明是更加记忆深刻的,最早的红白机,魂斗罗,双截龙,这样的软件,是不存储数据的,每个玩家费了半天劲最后只在结束的时候能看到自己的排名就不错了。而对于企业应用来说,那个时候的软件,更多的是为了弥补人脑的计算能力的不足,用软件工具处理完了以后,人们还是会拿出一个本子,把结果数据记录在本子上。
总而言之,这个时代“数据不被保存”。
第二个阶段-OA系统时代
不知道从什么时候开始,我们在做软件设计的时候,大部分情况下都会有非功能性需求的两个模块,“系统设置”和“统计查询”。而这个统计查询,就是最早的数据应用。那个时候最典型的例子就是OA系统(Office Automation),办公自动化系统。把一些线下的审批流搬到线上,从签字盖章,变成表单提交,点击按钮确认,各种复杂的业务流程,表单,流转规则被设计出来。那个时候最关键的数据流转,是下一个节点能够看到上一个节点的处理结果,那个时候由于客户端、服务器、数据库的性能都有限,所以要尽可能避免多个数据的同时读写,所以,保存到数据库里的结构化数据是能少就少,很多时候审批结果就是一个字段,像我这样的严谨的程序员,会通过写日志文件的方式把所有的数据操作都记录下来。这个时候的系统,会存储少量结果性数据,主要用来作为追溯性的统计和查询。
总而言之,这个时代“结果性数据被少量保存,用来做追溯性查询”。
第三个阶段-ERP/数据仓库系统时代
现代企业管理制度引入国内后,大部分企业都在实施ERP/MES这样的大型集成类业务系统。这个时候,进销存这样的单一业务系统已经不能满足需求,企业的组织结构也越来越复杂,企业的业务分为市场、销售、生产、采购、财务、人力等多个维度,这种情况下,如何从历史数据中进行统计分析,从不同的口径来分析经营数据,如何拉通不同业务口径的数据的关系成了很重要的痛点,这也就是企业数据仓库的来源,这个时候,由于存储和算力的局限,为了解决大量历史数据的查询分析的问题,出现了OLTP/OLAP两种数据处理架构。
这个时候,EIM(企业信息管理)成为了一个独立的技术领域,数据治理、主数据管理这些名词也逐渐涌现出来,数据也真正成为了企业信息化过程中的一个重要的领域。
但是,这个时候的数据分析,依然是流程驱动的,先有业务洞察,有了业务设计,然后再根据业务需求来抽取、转换、存储局部主题数据的方法。
总而言之,这个时代“核心数据被保存,让管理层看到他想看的报表”
第四个阶段-数据挖掘时代
这也是从企业的信息化走向数字化的过程。是企业完成了后端(内部生产、管理范畴)系统建设走向用户端数字化的过程。企业的后端管理相对是流程化、可预测的,所以统计分析格式报表基本上就能满足管理层的需求了。但是外部市场和用户,是高度变化,动态,不可预测的。这时,传统的数据仓库就不能够满足业务需求了。为了更多的了解市场,洞察用户,随着社交网络、电子商务的兴起,很多企业都开始对用户数据,市场数据整合企业后端数据进行了数据挖掘,从数据中发现规律,发现洞察。这个阶段是一个里程碑式,因为这是第一次不是业务指挥数据,而是朝着业务的目标,以数据作为起点,发现数据中隐藏的规律,模式和洞见。
总而言之,这个时候“跨域的数据被集成,管理层希望从数据中发现规律”
第五个阶段-数据智能时代
以大数据存储技术的成熟为起点,随着机器学习,深度学习算法的广泛应用,数据智能的时代到来了。在这个时代,数据是物理世界在数字化世界里的投影,万物互联,一切的规律、洞见、联系、因果都深藏在数据中,谁掌握了数据和处理数据的方法,谁就能洞见事物的本质,谁就能预测市场的变化,谁就能获得用户的真相。在这个时代,数据就是生产一切的原材料,是新时代的石油。
而这个时候的企业应用系统,越来越庞大,越来越复杂,面临的需求变化越来越快,一边是需要快速响应的变化,一边是牵一发而动全身的数据网络,很多时候,企业为了业务的敏捷,在旧的数据架构的基础上快速上线产品,上线流程,一边享受着业务的快速发展,一遍加班加点,熬红双眼的在处理由于数据架构、标准、口径、规则不一致带来的数据孤岛的问题。很多时候,业务应用或者业务流程都已经停用了,下线了,但是由于这个应用/流程带来的数据的不一致,数据的问题还没有消除。
这个时候,数据与应用的关系也发生了颠覆性的变化,软件与应用成为了建立连接,采集数据、分析数据、利用数据的工具,软件和应用本身会随着业务不断迭代,消亡,而数据本身则成为了最宝贵的资产。
总而言之,这个时候“数据智能驱动一切,得数据者得天下”
而,这个时代,每个企业需要建立自己的“数据原生架构”。
原创思考,欢迎转载,请务必带上#凯哥讲故事#标签,欢迎同行使劲的拍砖,使劲拍
转发推动争论,拍砖促进思考