【金猿人物展】天云数据雷涛:从数据湖到湖仓一体再到数据编织,完成的是燃油车到油电混再到纯电技术的改造
雷涛
数据智能产业创新服务媒体
——聚焦数智 · 改变商业
这一两年,北美以Facebook、谷歌为驱动的存算分离的虚拟数仓架构,正在非常快速的洗牌现代的数据融合市场。其大的背景驱动是市场正在经历从数字化转向信息互联网和产业互联网阶次性的台阶变化。在这种变化之下,其实背后的技术驱动还是非常清晰很明显的,就是以Java、SQL为核心的流程驱动业务转向了AI和分布式这些技术框架的数字驱动业务。产业互联网带来了数据使用方式上的一次革命性升级。
1、第一个变化,就是数据新鲜度的变化。我们在使用什么时间的数据,是在消费以天、小时级、分钟级、秒级还是百毫秒级的数据?
俄乌战争,两个相同工业体系相同装备体系的国家,用不同的军事思想和技术手段打了一场令人瞠目结舌的仗。信息技术已经改变战争模式, 如果不能支撑实时性的战情数据流,不能确保数据的鲜活度,从本质上来讲双方打得就不是同一场战争了,因此市场需要高度重视HTAP系统提供新鲜分析的重要性。
今年一篇论文《我的HTAP系统有多好?》,谈到的第一个技术指标就是Freshness(新鲜度)。就你在消费什么时间的数据?用什么样的一个方式?如果基于传统BI架构的话,我们需要从Oracle、MySQL这些交易型的生产系统里把数据同步出来,用ETL的方式或者是批处理的方式加工到数据仓库里头。所以在数据仓库里,待分析的原材料已经是以天为时间的信息了。
你是在消费以天、小时级、分钟级、秒级还是百毫秒级的数据?我们怎么去把一些从最早的Storm、Spark Streaming这些流计算的框架到现在比较成熟的像Kafka、Flink的框架来驱动一个流数据作业?比如量化交易里,我们怎么去对冲击成本?对实时的挂单数据去做一个预测?这个肯定要基于3秒之内的挂单数据来完成。
现在的一些开源框架,通过工程化的手段能够被市场接受了。把TP和AP做融合,成为湖仓一体的概念;然后把MPP数据库与湖仓一体融合,成为新技术趋势。实际上就是将MPP数据库加Hadoop开源。
这种现象会带来什么风险?MPP数据库不能单独支持湖仓一体,它需要 Hbase 和 ES 来配合,本质还是属于数据集。在某大型股份制银行,为了支持手机银行端的个性化数仓,实现手机端对大屏小屏化的趋势,传统 MPP 结构根本没法满足刚才说的这种服务价值,还要配套数百个节点,所以现在市场上湖仓一体的本质还是一个集成方案,需要在传统MPP数据库和开源Hadoop之间做大量的数据同步和一致性校验。既然要有数据同步,就必然有时间窗口、数据的不及时性、不一致性。
HTAP现在作为一种主流的技术框架,已经开始进入到核心数据驱动业务的前端,支撑我们消费最新鲜的数据。我们怎么用数据,流的形式跟库发生关系HTAP就是Hybrid Transaction and Analytical Process就是混合负载架构。
2、第二个变化,我们面向谁在提供数据服务?互联网的数据产销合一方式带动了流程驱动向数据驱动的数据库架构转型,数据从服务决策者转向服务一线人员,HTAP系统才能保障每个人都能实时看到同样高质量的数据。
乌克兰的反攻又是如此之快,虽然俄方用上了核武器却依旧久攻不胜,核心是少了一样“杀手锏”:通过实时高并发数据基础设施构建最短秒杀伤链。俄乌军事行动,进一步验证了马赛克理论的分布式作战思想,分布式调度的核心是N条实时高并发的数据链,战场下沉式服务要支撑每一个士兵的作战请求,数据库必须能支撑高并发。乌军化整为零,将作战体系分解为数量更多、规模更小、功能更少、更容易组合的作战模块,从而夺取战场的综合制权。20秒杀伤链替代了集中指挥调度中心,让前线的士兵可以像使用滴滴打车一样匹配作战目标、火力资源。
我们在面前谁提供数据服务?这个问题是非常关键。
传统BI以报表、可视化更多是面向C-Level的决策,所以是宏观的、共性的、统计趋势性的问题。但互联网带来的金融服务的业务化,越来越多地把数据驱动业务推到了理财经理,推到了营业厅一线,甚至推到了C端客户。从大屏演示转向了C端客户的小屏操作,这种个性化的数据驱动和要求对后台的技术设施提出了一个非常关键的、很难逾越的技术指标就是:高并发。
我们以前在数据消费的时候更多的都是在数据仓库里完成。数据仓库是OLAP分析型业务,通过侵占更多的资源来完成一个大IO操作。所以MPP数据库有一个很大的挑战就是它不能够支持高并发,它的作业是排队机制。当遇到个性化服务下沉时,它就碰到了一个瓶颈。
市场提出了一个新概念Lakehouse(湖仓一体),就是把数据仓库处理结果再同步到一个大数据平台,比较受欢迎的方式就是MPP再加上Hbase。我曾经看到一个国产化项目,真的把MPP数据库给替代了。但是面向1亿多用户的小屏服务的时,它不得已还要同步到一个大规模的Hbase里头,Hbase来支撑MPP数据库的个性化的驾驶舱与提交,又变回开源且复杂的工程。就这个项目大概300多个节点Hbase、600多个运维开发人员,每年的运维费用、开发服务费用大概3个多亿的人力成本。
所以用产品级基础设施架构去替代开源工程和大规模人力外包服务是一个很典型的一个技术平台趋势。无疑又是HTAP混布型数据库,可以支撑替代MPP加Hbase这个结构来实现服务下沉。
3、最后一个变化,基于存算分离、联邦计算的数据编织架构,带来了一次去ETL、去主数据MDM,数据处理的逻辑开始被渐渐从传统的指标加工转向数据特征加工,支撑AI智能服务应用。
一、合适的数据在哪里?
这是传统数据治理的一些范畴和问题,传统的数据治理都是以主数据、数据字典这些方法去做数据标准,通过对Delta体系里规定的关键指标分解到库这个实体,从主题、视图一层一层展开去做。
去年Delta2.0、Gartner均提出了Data Fabric,这是一个全新的数据组织结构,也是自下而上通过对IT信息化系统还原进而对存储过程、SQL语句的还原。数据编织把IT反馈的数据依赖逻辑用一个更高维的数据结构表达,就是知识图谱、复杂网络,通过把字段和库、表之间的关系,还有主键外链的这种业务逻辑,表达到一个点和边高维的可计算的元数据网络里头,通过元数据网络的计算来承担。因此新兴的方式开始从传统的数据治理走向了Data Fabric数据编织。
在数据编织架构里,很多我们耳熟能详的ETL、MDM主数据处理的逻辑渐渐被洗牌掉,我们开始用一种新兴的‘不动Data’而‘动Code(代码)’的方式来完成大规模数据在分布式环境下的融合、处理和计算。
新兴的数据编织技术有两个核心,帮助他在工具箱里头获得的能力。第一个是2016年Google提的Query Federation,可以将一个SQL在逻辑计划拆解粉碎以后通过联邦计算的方式推送到被融合的数据库的节点上执行,也就是通过一个大的HTAP数据库去连接不同的Oracle、MySQL,或者是Hbase、Hive这些数据库,然后将统一的SQL透明化的执行在边缘侧。第二个是数据编织Data Fabric,可以通过抽象语义层来完成存算分离的架构。存算分离架构带来的好处就是数据存储还在各个Oracle、MySQL里头,因此在统一的HTAP系统里面只有计算节点,通过内存的计算,它获取的数据并不是把整个库同步到目标层,而是只是针对这个SQL语句,所涉及到的字段级别在计算场景这一时刻同步到内存里完成计算。
二、如何实现有效的数据编织呢?
赫伯特·西蒙在数据驱动业务里曾经设计过,也是我们在工程里面经常对外讲的“符号主义”。面向确定性流程的数据管道我们可以把它描述出来,在一个免代码的中台环境里面把它描述成一个数据流,然后把这个数据流封装成一个容器,服务发布到任何一个分布式的Hadoop集群、大数据平台之上去执行,这样我们就可以弹性的定义不同的数据管道。
数据管道一旦定义出来就可以发布成一个云原生的Docker服务镜像,给数据使用者。数据使用者可以订阅,每天像数据API一样去使用。如果加上AI专家系统,就可以编排很多个管道。AI的专家系统其实是由业务人员、数据驱动的业务人员去使用,通过拖拉拽的形式完成数据的服务流的定义,它就可以去SQL化甚至去ID化的来生成这种服务定义的接口。
这整个过程,也就是从数据湖到湖仓一体再到数据编织,完成的是燃油车到油电混到纯电技术的改造。激光雷达、无人驾驶、电池重组技术这些内容在以前的燃油车时代是不用看的,这也也意味着我们现在的信息化市场、IT市场经历一次结构性的变化。
今天IT向DT的迁移,流程驱动转向数据驱动,并不仅仅是一个概念的迭代。而更多的是,很多基础的核心组件发生一些变化。这些组件从严谨的执行人类指令的这些系统架构、代码程序,转向了由数据驱动的供给和消费。
这不是简单的替代逻辑,是产业链升级逻辑。作为一个科技产业从业者,我对“2023年大数据产业”也做两点趋势判断:
1、信创是一项非常清晰的国家战略
所有支撑市场服务的开源工程必将转向原创产品,国产数据库必须摒弃利用开源封装的伪软壳技术,才能掌握硬核技术核心突破外部限制,实现技术创新科技创新。
国产数据库起步晚,在信息、人才、技术等多重窘境之下,很多企业采用“拿来主义”的手段弥补国产技术的空白。要么基于开源系统改进,要么从厂商购买源码授权,我前面也提了很多开源工程,也完成了服务且暂时被市场接受,但其产品架构几乎不可能调整,想掌握其核心技术更是难上加难。
数据库作为一个具有国家属性的产品,必然与属国命运与共。国产数据库必须走自主创新的道路,摒弃利用开源封装的伪软壳技术,掌握硬核技术核心,突破外部限制,实现技术创新科技创新。才能有机会实现追赶甚至超越,才能接得住面临第三波数字红利。
2、产业互联网时代更多是机器生产/消费数据
逻辑计划升级是数据库面向机器数据必然要走的路径,不再仅局限于数据可视化这种服务为目标的 SQL 操作,而是面向机器学习算法、内置ML能力。支撑数据供给和消费的一体化,AI-Native数据库是最后的归宿。
随着IT向DT迁移,就像燃油车和电车的区别一样,IT市场正在被一些新兴的技术组件所替代,这些组件的核心就是供给和消费的一个数据闭环。任何一个新事物的落地,都不会立竿见影的有结果,也不可能直接对号入座到旧世界,它肯定是要完成一个最小级闭环。数据库作为供给侧,AI 作为消费侧,这是我们相信的一个最小级的闭环。
互联网带来了个性化服务,淘宝推荐引擎、千人千面个性化结果,要跑的是贝业斯网络、是协同过滤算法,是这些算法再替代SQL的可视化服务。怎么能够在同一个计算的库体上,面向机器学习的操作面向新兴的数据驱动业务的算法?AI内生数据库是一个必然要走的路径。尤其是应对产业互联网,第三波的机器数据生产,更多的物联网的机器生产、传感器,他的机器数据物理意义人理解越来越难,比如油压、温度、结蜡、工况都是一些科学属性。这些数据它很难用决策,因为它对人类来说需要更强的科学知识才能去理解。所以将会是机器生产数据,机器消费数据,数据供给和消费一体化。
·关于雷涛:
雷涛 天云融创数据科技(北京)有限公司 CEO,博士后工作站企业导师,中关村高聚人才,国家人工智能最高奖项“吴文俊人工智能科学技术奖”获得者。
拥有30余年北美信息科技公司从业经验,主导并参与中国移动、中国联通、工商银行总部等多个亿级大型信息化项目规划建设;
2005年入席SNIA存储工业协会中国区技术委员会联合主席,2013年首批CCF中国计算机学会大数据专委会委员,长江商学院特聘讲师。
《2022中国企业数智化转型升级服务全景图/产业图谱2.0版》
❷ 创新服务企业榜
❸ 创新服务产品榜
❸ 最具投资价值榜
❺ 创新技术突破榜
联系数据猿