甲方彻底蚌埠住了:吃完数仓的亏,又上数据湖的当?
The following article is from 特大号 Author 小黑羊
傅一平评语:
这篇文章几句话就能总结:有一家数据编织(Data Fabric)的公司Aloudata提出了一个NoETL的解决方案,可以直接对数据湖或数据仓库的数据进行访问探索,完全跳过了ETL这个中间环节,速度快的溜起。
看完文章我的第一反应是这个东西应该是个自助取数工具,封装了对异构数据的透明访问能力,然后用伪SQL来动态访问。
有2个技术点比较感兴趣,第一、关系投影物化加速技术,这是什么技术的马甲?不打Cube能很快吗?第二,基于用户行为的数据链路的全局智能编排,这个指调度的优化吗?
希望有人解惑!
正文开始
最近几年,很多大甲方们,在“搞数据”这件事上,都特别上心。大家都看到了数据的价值。
可是,越上心往往就越伤心。
大家搞数据的过程,都很不顺。
比如,最开始用“数仓”的那波人,逐渐觉得数仓太传统,尤其现在非结构化数据量上来了,于是大家纷纷开建数据湖,搞中心存储库。
挖好湖,囤上数据,却发现泥沙俱下,数据治理和分析又是新问题,一不留神容易搞成数据沼泽。
然后又有人说,“湖仓一体”才是新方向呀,鱼和熊掌可以兼得。于是大家又开始跟风站队LakeHouse。
接着又刮起风来说,数仓、湖仓什么的,都只不过是工具,要想成事儿,还得有一套“搞数据”的方法论来指导和统筹,数据中台就是这套方法论。
后面的事你们都知道了,数据中台建得热火朝天。
“建仓、挖湖、搭台”,一顿操作猛如虎,数据囤了千千万,预算花了万万千,可急等的分析结果还是慢吞吞,想要的数据还是拿不到。
比如,老板突然提了个临时的分析需求,现在立刻马上,说要就要~
喵工手忙脚乱,牺牲大量摸鱼时间,累了个半死,出来的结果分分钟把老板惹毛。
老板常感慨花了这么多钱,建仓修湖搭台,换来的却是效率低、运维累、成本高,空有一堆数据,一大半需求都满足不了。
Why?大家都忙着追逐各种新技术了,背后的道理却始终没参透↓
其实,“湖、仓、台”都是数据基础设施,也都各有先进性和适用场景,但要把他们用好,离不开一系列关键的“管道”系统,来保障流畅地取数、汇数和用数。
这些“管道”,以前靠的是ETL相关技术。可是现在的业务场景和数据规模,ETL却成了最大的瓶颈,大甲方们“吃亏上当”的核心,就是ETL没理顺。
这锅,ETL必须要背。
一、 为啥ETL成了大冤种?
我们先来简要了解下,ETL到底是个啥,锅是怎么背上的。
ETL不是啥新事物,早在数仓流行的时代,这个概念就有了,它指的是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的流程。
在“远古数仓”时代,这流程没啥毛病,满足大部分BI需求绰绰有余,一切岁月静好。
可是这几年,数据量大爆发,尤其非结构化数据噌噌噌地上来了,同时数据分析的需求和应用场景,也变得极其复杂。
此时的ETL,无论管道的源头,还是终点,都发生了翻天覆地的变化。
数据类型更复杂、数据源更多、数据量更大。为了应对各种高频的、随机的海量数据联合分析需求,数据需要在仓、湖、OLAP数据库之间来回搬运…
ETL“管道”越建越复杂,成本高昂,工作量巨大。
负责整个流程的ETL工程师,就像管道工,每天忙着:设计管道、搭建管道,维护管道。
以前他们很轻松,现在完全被颠覆了,你来感受下管道工们的日常↓
看完喵工的遭遇你明白了吧。
现实的状况就是这样:数据管道不断增长治理困难,搭建管道人手不足心力交瘁,查询性能无法追赶业务变化。
传统ETL链路因此被贴上了“浪费大,交付慢”的标签,导致用数方和供数方彼此都不满,互相甩锅。
而这其中,背锅压力最大的,自然是负责ETL工作的水管工们,不是他们不努力,而是工具不给力!
二、 不用ETL行不行?
既然我们破案了,知道真正拉胯的是ETL,那么不用ETL行不行?
我们不妨来瞅瞅,一种新的技术理念——NoETL是怎么玩的。
所谓“NoETL”,是指在数据处理和分析环节,无需搭建复杂ETL链路即可灵活分析所有数据,以更低的成本、更迅速地做出更好的业务决策。
通过NoETL,分析师无需掌握ETL技能,不必等待漫长排期,随时可以对全域数据开启自助分析与洞察。
乍一听有点扯,这么复杂的ETL流程,咋能说没就没了呢?
其实细想也不奇怪,ETL本来就是“上古数仓时代”的东西,在新技术横行的当下,光与时俱进是不够的,的确需要来点颠覆性的改变了。
而NoETL的横空出世,正是要将传统ETL的繁杂流程逐一击破,由系统自动完成管道编排与链路优化,分析师能够自助用数。
对于广大数据使用者和数字化决策者来说,NoETL可以满足大家的三个愿望。
去管道,无需关心数据位置,再多的数据源也不怕。
免运维,无需操心任务运维,再多的需求也能从容处理。
自优化,无需手工设计加速方案,再大的数据量也能获得良好的查询响应。
怎么样,如此变革性的数据分析链路,是不是令人振奋....且有点假?
ETL毕竟用了这么多年,NoETL真能夺了权?听我慢慢道来
NoETL究竟能不能落地?
有一家公司,叫做Aloudata,他们在国内首推NoETL湖仓平台,仔细看看,很有意思。
Aloudata的这套神器,包含两个重要的组件:AIR和BIG。
AIR是全场景自适应的弹性SQL引擎,而BIG则是基于行为智能的主动元数据管理平台。
两大引擎相互配合,就能让ETL链路整一个脱胎换骨,easy到亲妈都不敢认。
那么,这套从数据连接、数据整合再到数据消费的新路径,到底靠谱么?我这里准备了灵魂三问↓↓↓
Aloudata通过湖仓查询引擎和数据虚拟化技术,实现多源异构数据查询和透明数据集成,也就是无管道化(No Pipelines)。
说白了,大部分数据不用搬,用AIR引擎可以直接查,控制了数据管道的无序增长。
BI分析师和AI数据科学家们,终于摆脱了对ETL数据工程师(管道工)的单向依赖。
他们不需要再关心数据实际存放位置,直接通过SQL定义弹性数据集,就能够自助对全域数据进行获取和分析。
Aloudata实现了透明的数据集成和数据更新,可基于上游数据变化和数据集定义,智能推断业务日期并生成数据更新任务,完成数据自动更新。
此外,Aloudata通过对用数行为的收集和观察,实现了数据链路的全局智能编排,能够对重复、相似计算进行自动合并,对无效、低频、低价值的数据生产任务进行降权或下线,以"销"定产,极大地降低了成本浪费。
从此,无需人工任务运维(No Tasks),省就一个字!
Aloudata基于独创的关系投影物化加速技术,实现了全场景、算子级的查询加速,无论是在数据探索、数据准备、多维分析还是在指标服务或是报表访问阶段,任何查询都可被系统透明加速。
不仅如此,基于BIG对用户查询行为的观察和挖掘,AIR还实现了自适应的关系投影构建。
这样,用户无需设计诸如Cube等加速方案,也无需为不断变化的数据需求而疲于调整,即可获得最佳查询性能体验。
这样一来,分析师无需再担心查询性能,只管专心去整业务分析与洞察。
No pipelines 零等待全域分析;
No Tasks 全自动数据更新;
No Cubes 自动化查询加速。
一切都是为治愈ETL之痛而来,一切都是刚刚好,咱就是说,一No到底~
对了,Aloudata已经帮助多家国内顶级金融机构完成了向NoETL的稳步过渡,将业务取数、用数、看数效率从周级缩短到了天级,并实现了高性能、低时延的报表看数体验,实现了数据交付效率10倍提升,获得了一半以上综合成本节约,真正做到“又快又省”。
NoETL后浪推前浪,后浪站在塔尖上!
点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶!