查看原文
其他

甲方彻底蚌埠住了:吃完数仓的亏,又上数据湖的当?

The following article is from 特大号 Author 小黑羊

傅一平评语:


这篇文章几句话就能总结:有一家数据编织(Data Fabric)的公司Aloudata提出了一个NoETL的解决方案,可以直接对数据湖或数据仓库的数据进行访问探索,完全跳过了ETL这个中间环节,速度快的溜起。


看完文章我的第一反应是这个东西应该是个自助取数工具,封装了对异构数据的透明访问能力,然后用伪SQL来动态访问。


有2个技术点比较感兴趣,第一、关系投影物化加速技术,这是什么技术的马甲?不打Cube能很快吗?第二,基于用户行为的数据链路的全局智能编排,这个指调度的优化吗?


希望有人解惑!


正文开始


最近几年,很多大甲方们,在“搞数据”这件事上,都特别上心。大家都看到了数据的价值。


可是,越上心往往就越伤心。



大家搞数据的过程,都很不顺。


比如,最开始用“数仓”的那波人,逐渐觉得数仓太传统,尤其现在非结构化数据量上来了,于是大家纷纷开建数据湖,搞中心存储库。



挖好湖,囤上数据,却发现泥沙俱下,数据治理和分析又是新问题,一不留神容易搞成数据沼泽。


然后又有人说,湖仓一体”才是新方向呀,鱼和熊掌可以兼得。于是大家又开始跟风站队LakeHouse



接着又刮起风来说,数仓、湖仓什么的,都只不过是工具,要想成事儿,还得有一套“搞数据”的方法论来指导和统筹,数据中台就是这套方法论。


后面的事你们都知道了,数据中台建得热火朝天。



建仓、挖湖、搭台”,一顿操作猛如虎,数据囤了千千万,预算花了万万千,可急等的分析结果还是慢吞吞,想要的数据还是拿不到。


比如,老板突然提了个临时的分析需求,现在立刻马上,说要就要~



喵工手忙脚乱,牺牲大量摸鱼时间,累了个半死,出来的结果分分钟把老板惹毛。


老板常感慨花了这么多钱,建仓修湖搭台,换来的却是效率低、运维累、成本高,空有一堆数据,一大半需求都满足不了。




Why?大家都忙着追逐各种新技术了,背后的道理却始终没参透↓


其实,“湖、仓、台”都是数据基础设施,也都各有先进性和适用场景,但要把他们用好,离不开一系列关键的“管道”系统,来保障流畅地取数、汇数和用数


这些“管道”,以前靠的是ETL相关技术。可是现在的业务场景和数据规模,ETL却成了最大的瓶颈,大甲方们“吃亏上当”的核心,就是ETL没理顺。


这锅,ETL必须要背。





一、 为啥ETL成了大冤种?





我们先来简要了解下,ETL到底是个啥,锅是怎么背上的


ETL不是啥新事物,早在数仓流行的时代,这个概念就有了,它指的是将业务系统的数据经过抽取清洗转换之后加载到数据仓库的流程。



在“远古数仓”时代,这流程没啥毛病,满足大部分BI需求绰绰有余,一切岁月静好。


可是这几年,数据量大爆发,尤其非结构化数据噌噌噌地上来了,同时数据分析的需求和应用场景,也变得极其复杂。


此时的ETL,无论管道的源头,还是终点,都发生了翻天覆地的变化。



数据类型更复杂、数据源更多、数据量更大。为了应对各种高频的、随机的海量数据联合分析需求,数据需要在仓、湖、OLAP数据库之间来回搬运…


ETL“管道”越建越复杂,成本高昂,工作量巨大。



负责整个流程的ETL工程师,就像管道工,每天忙着:设计管道、搭建管道,维护管道。


以前他们很轻松,现在完全被颠覆了,你来感受下管道工们的日常↓



看完喵工的遭遇你明白了吧。


现实的状况就是这样:数据管道不断增长治理困难,搭建管道人手不足心力交瘁,查询性能无法追赶业务变化。


传统ETL链路因此被贴上了“浪费大,交付慢”的标签,导致用数方供数方彼此都不满,互相甩锅。


而这其中,背锅压力最大的,自然是负责ETL工作的水管工们,不是他们不努力,而是工具不给力!



二、 不用ETL行不行?





既然我们破案了,知道真正拉胯的是ETL,那么不用ETL行不行?


我们不妨来瞅瞅,一种新的技术理念——NoETL是怎么玩的。


所谓“NoETL”,是指在数据处理和分析环节,无需搭建复杂ETL链路即可灵活分析所有数据,以更低的成本、更迅速地做出更好的业务决策。


通过NoETL,分析师无需掌握ETL技能,不必等待漫长排期,随时可以对全域数据开启自助分析与洞察。



乍一听有点扯,这么复杂的ETL流程,咋能说没就没了呢?


其实细想也不奇怪,ETL本来就是“上古数仓时代”的东西,在新技术横行的当下,光与时俱进是不够的,的确需要来点颠覆性的改变了。


NoETL的横空出世,正是要将传统ETL的繁杂流程逐一击破,由系统自动完成管道编排与链路优化,分析师能够自助用数。


对于广大数据使用者和数字化决策者来说,NoETL可以满足大家的三个愿望。


1、No Pipelines。

去管道,无需关心数据位置,再多的数据源也不怕。



2、No Tasks。

免运维,无需操心任务运维,再多的需求也能从容处理。



3、No Cubes。

自优化,无需手工设计加速方案,再大的数据量也能获得良好的查询响应。



怎么样,如此变革性的数据分析链路,是不是令人振奋....且有点假?


ETL毕竟用了这么多年,NoETL真能夺了权?听我慢慢道来




NoETL究竟能不能落地?





有一家公司,叫做Aloudata,他们在国内首推NoETL湖仓平台,仔细看看,很有意思。


Aloudata的这套神器,包含两个重要的组件:AIRBIG


AIR是全场景自适应的弹性SQL引擎,而BIG则是基于行为智能的主动元数据管理平台。



两大引擎相互配合,就能让ETL链路整一个脱胎换骨,easy到亲妈都不敢认。



那么,这套从数据连接、数据整合再到数据消费的新路径,到底靠谱么?我这里准备了灵魂三问↓↓↓


“无需关心数据位置”咋做到?


Aloudata通过湖仓查询引擎数据虚拟化技术,实现多源异构数据查询和透明数据集成,也就是无管道化(No Pipelines)。


说白了,大部分数据不用搬,用AIR引擎可以直接查,控制了数据管道的无序增长。




BI分析师和AI数据科学家们,终于摆脱了对ETL数据工程师(管道工)的单向依赖。


他们不需要再关心数据实际存放位置,直接通过SQL定义弹性数据集,就能够自助对全域数据进行获取和分析。



“无需操心任务运维”咋做到?


Aloudata实现了透明的数据集成和数据更新,可基于上游数据变化和数据集定义,智能推断业务日期并生成数据更新任务,完成数据自动更新。



此外,Aloudata通过对用数行为的收集和观察,实现了数据链路的全局智能编排,能够重复、相似计算进行自动合并,对无效、低频、低价值的数据生产任务进行降权或下线,以"销"定产,极大地降低了成本浪费。



从此,无需人工任务运维(No Tasks),省就一个字!



“无需担心查询性能”咋做到?


Aloudata基于独创的关系投影物化加速技术,实现了全场景、算子级的查询加速,无论是在数据探索、数据准备、多维分析还是在指标服务或是报表访问阶段,任何查询都可被系统透明加速。


不仅如此,基于BIG对用户查询行为的观察和挖掘,AIR还实现了自适应的关系投影构建。


这样,用户无需设计诸如Cube等加速方案,也无需为不断变化的数据需求而疲于调整,即可获得最佳查询性能体验。



这样一来,分析师无需再担心查询性能,只管专心去整业务分析与洞察。


一起来总结下,Aloudata实现NoETL的关键就是这仨No:


No pipelines 零等待全域分析;

No Tasks 全自动数据更新;

No Cubes 自动化查询加速。




一切都是为治愈ETL之痛而来,一切都是刚刚好,咱就是说,一No到底~


对了,Aloudata已经帮助多家国内顶级金融机构完成了向NoETL的稳步过渡,将业务取数、用数、看数效率从周级缩短到了天级,并实现了高性能、低时延的报表看数体验,实现了数据交付效率10倍提升,获得了一半以上综合成本节约,真正做到“又快又省”。


NoETL后浪推前浪,后浪站在塔尖上!




    数仓建模分层理论

    阿里大淘系模型治理阶段性分享

    数仓建模—宽表的设计

    5000字详解数据模型设计方法

    数仓建设 | ODS、DWD、DWM等理论实战(好文收藏)

    8000字,详解数据建模的方法、模型、规范和工具!

    图文详解ElasticSearch技术,看这一篇就够了!

    速度提升10倍,腾讯基于Iceberg的数据治理优化实践

    怎么理解数据湖?(深度长文)

    数据仓库建模全解


    点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存