查看原文
其他

【漫画】为啥客户都喜欢聊大数据?

The following article is from 特大号 Author 小黑羊

拜访客户时,发现个有趣的现象

客户一般都喜欢聊大数据

而且是越大的领导越喜欢聊大数据

大数据就像饭局中的小酒

有种奇怪的”魔力“

往往能瞬间撬开客户的话匣子


为啥呢?

因为大数据紧贴上层业务

客户能够强烈感知到

很多切肤之痛,就藏在数据中

数据资产化/数据变现才是决策层关心的

如果你聊”交换机有多快,云主机有多猛

客户多半无感



但是吧

大数据经常是聊得很嗨

可到了最终到项目落地时

却没那么顺利或甚至令人失望

这,又是为啥呢?

说一千,道一万

是我们使用大数据的姿势

一直都没搞对



第一:“聚数”的姿势不对。

所谓“聚数”,就是企业把各个业务系统中使用的数据、产生的数据、历史数据,以及第三方相关数据,“倒腾”到一起,变成“数据资产”。


但这个倒腾的过程,一点都不愉快。


首先,数据又“多”又“散”,东一坨,西一堆,格式又不统一,还在不断增长和更新。想要把它们收拾到一起,想想就头大。



拾掇好各种数据源之后,想整合数据就更“里根楞”了,这需要经历一个复杂的抽取、清洗、转换、加载的过程,这套流程,被称为ETLELT


先T(Transfrom)还是先L(Load)不重要,总之都很麻烦。你想想不同的数据源,有多少种接口就头大了。折腾半天,数据质量还未必达到业务要求。



今天就有人来问我,能不能给介绍个ETL专家。其实光有专家还不够,还得有工具、花时间、可持续。企业把原始数据变成数据资产,绝不是一锤子买卖。



第二:“用数”的姿势不对。

即便一顿操作猛如虎,把数据变成了资产,想把这些资产真正用起来,又是难上加难。


企业往往会追逐各种大数据平台、数仓、数据湖等概念,大数据基础设施建了千千万,冤枉钱花了万万千,却迟迟不见效果。


搭了台,修了仓,挖了湖,付出了巨大的建设、运维成本,却迟迟享用不了传说中的“大数据盛宴”。


久而久之,人见人爱的“小甜甜”被磨成了不受待见的“牛夫人”。


其实,“牛夫人”也不必太沮丧,从当下趋势看,大数据正在逐步走出幻灭低谷,开始“稳健爬坡”了!


但是,但是——

大数据业务是与业务场景密切相关的渐进式创新,并不适合“基建狂魔”式的突击性建设。


一掷千金“建库修仓挖湖”,往往都是打水漂。


正确的套路应该是:深入场景、逐步投入、按需使用、渐入佳境,省时省力省钱见效快。


看到这几个“装B”小词儿,是不是想到点啥了?


没错,企业应该用“云”的模式,高效率、渐进式的进行大数据实践,云上数仓、云上湖仓、云上数据集成……


讲到这里,我们就不难理解以“云上数仓”为卖点的大数据SaaS公司Snowflake,在IPO后被资本热捧,市值一度摸高到7300亿RMB。


可见,无论资本圈还是产业界,都一致认同,用云SaaS/PaaS的模式,才是玩大数据的正确姿势。


姿势定了,接下来的问题就是,云上大数据方案看着也挺多,究竟该怎么选?


我们不妨来瞅瞅,云上大数据的顶级玩家——Azure是怎么玩的。


Azure如何“聚数”?




首先,看Azure如何帮助企业“聚数”,把千奇百怪的数据源联接起来,并完成抽取、转换和加载。


Azure用于聚数的神器,叫做DataFactory,数据工厂。对于这个工具,我准备了灵魂三问↓


企业的数据源太多太散怎么破?

Azure 数据工厂内置了90 +免维护的连接器,可以轻松整合各类数据源。

云上的、云下的,结构化的、非结构化的,传统的、新潮的,本云的、外云的,统统照单全收。


E.T.L.的流程太复杂怎么破?

Azure数据工厂可用零代码构建ETL/ELT进程,拖拖拽拽,如同搭积木一般,就把这套流程搞定了。



云上搞事情,会不会很贵?

完全不用担心,Azure数据工厂是无服务器(Serverless)架构,你不需要为转换数据购置或租用大量云资产,更不必担心资源空转。



Serverless模式呼之则来挥之则去,根据用量弹性缩放,按业务流程的运行次数来收费,比如,每运行1000次,收费1刀。


多用多收,少用少收,不用不收!


如果遇到跟线下的微软系数据整合,比如SSIS服务,还可以享受Azure混合权益优惠,节约高达88%的成本。


所以,用云服务来做数据集成,是最经济实惠的。



Azure如何“用数”?




企业完成聚数以后,下一步就是用数了,这是个因人而异、循序渐进的过程,一般分为两大类典型需求↓


BI型:对海量数据进行关联分析,为企业经营,提供直接的决策指导和商业洞察。


AI型:用数据做训练,通过机器学习等方法得到模型,用于人工智能和数据科学研究,驱动业务创新。


针对这两大类“用数”需求,Azure各有一套神器,并且可以互相配合、双剑合璧。



我们先从“商业洞察”起步,看看Azure Synapse Analytics

“Synapse”是以数据仓库为核心的一站式“无限分析平台”,糅合了数据集成、企业数仓、大数据分析能力。既可以满足BI应用,也可以用于机器学习。



通过Azure Synapse Link,还可以直接操作Azure Cosmos DB中的数据,实时获得分析结果。


作为全球第一个云原生聚合分析平台,它可以支持近乎无限的数据规模,不怕你数据太多,就怕你数据不够。



“Synapse云数仓”中,既有标准SQL池,也有无服务器SQL池,还有用于大数据分析的无服务器Spark池,多快好省满足各类分析需要。


Azure这个“云数仓”有多实惠?根据官方对比,Azure Synapse Analytics比其他云上数仓快14倍,节省94%成本。


所以,如果你有构建云数仓的需求,不妨来薅一薅Azure的羊毛



如果企业的核心诉求是“数据科学”,就适合翻Azure Databricks的牌子了。

这是个全托管式大数据分析平台:数据湖底座+Spark流分析引擎,AI、ML、科学计算全能整。


你可以认为Azure Databricks是个集成了Spark引擎的数据湖,同时,它又不止于数据湖,可以与Azure云上一大票数据工具和服务紧密集成。


更有意思的是,Azure Databricks采用了Delta Lake技术来加强数据湖的存储层,比如提供ACID事务性、流批统一化等等。同时,还可以对数据逻辑分层,提高湖内的数据质量。


这种机制,可以为上层业务供应“质量”更好的数据,让AI的训练更有效率,让BI的洞察更加犀利。


Delta Lake的加持下,数据湖拥有了一部分数仓的特性,成为当下炙手可热的Lakehouse,湖仓一体





在企业“用数”的实际过程中,如果侧重BI,辅助AI,可先尝鲜Azure Synapse Analytics,如果AI为主,BI为辅,则可优选Azure Databricks。


Azure的两大数据服务,也是你中有无、我中有你,最终殊途同归,无论可选择那条路入手,都能享用大数据盛宴。




从“聚数”到“用数”,Azure提供了三大服务:Azure DataFactory数据工厂、Azure Synapse Analytics无限分析、Azure Databricks湖仓一体。


但这只是Azure大数据能力的冰山一角,三大服务可以与更多Azure服务无缝集成,提供“湖、仓、库、AI、BI”五位一体的大数据服务。


这些服务,开箱即用,跨越云端混合、多云混合、新旧混合,跨越任何数据格式,并且拥抱开源不锁定,再由微软多年的安全与合规执念加持,稳得一匹。


这场大数据盛宴,交给微软厨子操盘,妥了!


    从十四五规划看企业数字化转型(PPT分享)

    安筱鹏:数据要素如何创造价值|深度解读

    数据驱动的数字化转型:从流程驱动到数据驱动

    一张图看懂信息化和数字化的本质区别

    我们有多少机会将数据、信息、知识转化为智慧?

    有一种信息化的死敌,叫数据打通!

    数据中的商机


    点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶


      
    🧐分享、点赞、在看,给个3连击吧!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存