Single Engine · All Data回顾|把数据平台像水和电一样,交给客户
导读
2023年7月20日,云器科技 Single Engine · All Data 产品发布会正式推出云器Lakehouse。云器科技创始人&CEO喻思成发表主题演讲,以下内容根据演讲整理:
首先想跟大家分享经过这两年的发展,云器科技从哪里来,以及未来要往哪里去。
当我们看今天的企业的时候,我相信所有的企业都知道,在过去几年世界发展如此之快,可以说我们经过了很魔幻的几年。所有的CEO都在考虑,在过去几年疫情,在经济巨大的浪潮改变之下,甚至今年年初AGI大模型的出现,AIGC如此浪潮的席卷之下,企业该如何往下走?所有的企业都在考虑说,我们在现在的生态链里面如何才能够更好地生存与发展?
我们谈了很多CEO,几乎所有的CEO都提出来:我们要向科技型企业转型。为什么说科技型企业无论是投资人看到的市值也好,还是我们员工看到的自我价值创造也好,尤其是对客户的价值创造来说是最高的。
原因在于说这样一个企业,它是以数据作为主要生产资料。我们说为什么特斯拉是一个科技型企业?但是很多传统车企就不是科技型企业?其中最核心的差别在于说这个企业它是把数据、把信息作为它最主要的生产资料。因为数据作为生产资料,它是最容易复制,它的边际毛利率是最高的,所以才能得到价值的最大化发挥。所以它的估值是最高的,它的生存也是最好的。因为它的边际毛利率非常的高,因为它的附加值也非常的高,所以所有的企业都在朝科技型企业转型。
根据政治经济学的关系,有生产资料,就必须有它的生产力。云器科技在过去的两年里面一直在思考,我们怎么样做一个数据平台,能够最大程度地解放数据的生产力?这就是我们云器科技的初衷与使命,我们怎么样能够帮助我们的企业客户,能够实现他们向科技型企业,让数据成为最主要生产资料的重要转型。我们提出来一个理念:云器科技要改变数据的使用方式。
我们看了一下数据平台整个的发展历史。从我最开始毕业的Oracle公司开始,三四十年前随着RDBMS的出现,数据的处理就已经开始出现。数仓其实并不是一个新的概念,Oracle、Teradata在三四十年前就已经开始为中国的企业建造(大数据分析系统),比如电信也好、银行也好都在建设自己的大数据分析系统。在建设自己的经营分析系统、数仓系统,那时候基本上都是千万级的项目,它是一个On Promise,是一个License Driven的一个模式。
但是在2000年过后,随着Google的几篇论文,Hadoop成为接下来一个很大的提升,终于可以用一个分布式架构LargeScale,解决大量数据在很便宜的廉价机器上并行处理的问题,从而使大数据处理进入了一个新的时代。但是它不是云原生的。
在2010年左右,随着AWS、中国阿里云的出现,云逐渐成为处理下一代数据或者说下一代数据平台的一个最重要基础。这时候大数据处理平台进入云原生的时代。这时候我们看到有几乎所有的云都有自己当家云的产品,我们叫当家的云的Cloud Native Data Warehouse,或者说Data Lake的这种产品。AWS有Redshift ,阿里云有自己的数据平台。
再往后发展,在最近这几年可能大家看得比较多,出现了像Snowflake、Databricks这样的数据平台,它们肯定是Cloud-Native,但是它们是Cloud Neutral,国外叫Cloud Agnostic。也就是说它们是云中立、多云的这样一个平台。
于是今天我们在思考,如果要再去建造下一步的数据平台,该往哪里去?当我们走在今天的时候,在分析当下数据平台所面临的问题的时候,我们走访了很多企业,也看到了很多的问题。我经常举一个例子,如果说把大数据平台举例作为一个数据厨房的话,数据就是食材,业务人员就是食客。今天这样的一个大数据平台,里面有很多人在为业务来创造数据处理的过程的时候,就像一个厨师。
我们明显地看到中国是数据大国,随着IoT的出现,随着SaaS的出现,其实数据的产生是越来越多的,也就是说厨房里有越来越多的食材。当企业纷纷地朝着科技型企业转型的时候,它的食客,也就是要吃饭的人是越来越多的。如果说在以前,业务人员还能够等一天、一周甚至一个月出报表的话,今天要吃饭的人已经等不起那么多时间,每个人都希望秒级、分钟级地拿到实时的数据,换句话说等待的时间在降低。
这里面有个问题,就是厨师的人才越来越少。在座有很多是企业级的领导们,你们可以看到,真正在中国能够把数据用起来的技术人才、数据型人才,其实大部分都来自于中国的几个互联网大厂。因为厨师在一个非数据驱动型的企业里面,往往找不到自己的地位,那么他就会被大厂所吸引。当然也有很多企业,今天在向科技型企业转型的时候,也有很多非常好的数据型人才在里面,但是不管怎么样,我们还是面临着前后夹击的这样一个困难:企业的食材越来越多,食客越来越多,等待时间越来越少,但是厨师却越来越少。
这时候就面临一个选择,在这个瓶颈的时候,云器科技能够为我们的企业做一些什么?答案很简单,我们希望能够帮我们的客户提供最好的数据平台,能够帮他最快地去处理食材,能够让更多的人更快地吃上饭。
我们走访了很多的客户,跟很多CEO聊过,当他来看他的大数据平台的时候,可能会有很多种反应。这里面有我们叫 Digital Native 的客户,比如说做电商的,做游戏的,互联网出身的,很多属于 Digital Native客户,他们从成立第一天就没有使用过任何IDC机房的任何一台机器,在过去十几年里面已经建立起来了自己大数据体系。另外还有一些我们叫Enterprise,他们很多是从线下企业出身,比如说银行、证券、电信、保险等,他们在过去的十几年里面也建立起来了自己的很多体系,比如说Hadoop开源然后搭建。也有一些是新兴的企业,一些新晋的企业,刚刚把业务拉起来,但是产生的数据量非常的快,他们也在寻找一个平台能够处理他的数据。
这时候他们给我的回答,答案都是不一样的。有一些企业是说,因为有自己历史的问题,所以需要一个平缓的发展节奏。也有一些企业是说,从第一天开始,我就希望这个平台是5年之内选择不会后悔的一个平台,换句话说是希望它开箱即用,招之即来,呼之即去,希望是一个纯SaaS的应用,一个非常一体化的应用,这样简单易用的平台,使得我们没有必要再去花人才在大数据运维上面。也有一些企业说,在今天我还是希望一个慢慢推进的过程。
但是不管怎么样,我们看到大部分的CEO都在开始重新审视企业的数据资产。换句话说,如果企业是一个餐馆的话,什么才是最核心的资产?最大的资产可能是你的数据,以及数据的使用方式,能够最好、最快的把数据cook出来,能够为你的客户,或者为你的内部客户提供最好的饭菜。换句话说它是菜谱,而不是自起炉灶去搭的那一套平台。
有很多CEO跟我说,在今天来看十几年前我们花了大力气用开源搭的一个平台,看起来是一个重资产投入,以前以为它是我的核心资产,但是如今看来,隔壁老王家搭的大数据平台,其实也差不多;隔壁老周家的说不定搭得更好,而且还得维护,一帮人不停地追赶这些开源技术。换句话说,这些开源平台搭起来的自起炉灶的数据平台,在今天已经成为一个负资产。
前面讲到所有的高科技企业,今天都在朝着轻资产、高毛利率、高附加值的科技企业转型的时候,就要开始要重新地审视,作为一个企业什么才是真正的核心的数据类的资产?很显然不是自己建的数据平台。
在这样的一个背景之下,云器科技就在思考,希望为那些企业(尤其是在今天想做Future Looking的企业,想做科技型转型的企业)赋能,给他们提供下一代的平台。我们得出的答案,或者说我们提出的回答是多云一体化的数据平台,帮助企业提高数据这个主要生产资料处理的生产力。我们在做这个事情之前也考虑过,我们是不是云原生?显然我们肯定是Claud Native的,这不属于科技创新。我们是不是要做存算分离?显然这也不属于技术创新,这是肯定是要做的。
我们认为我们最主要的技术创新来自于一体化,今天我们说一体化的数据平台其实包括几个点:
第一个就是我们做到了实时离线一体化,能够把Cost、Throughput、DataFreshness、QueryLatency、QueryPerformance做到一个很好的平衡,并且在平衡之间能够自由地调节。把以前几个引擎才能做到的事情合在一起,通过一道强大的自研引擎给控制起来。
第二点在于说我们做到了湖仓一体,无论是结构化的数据、非结构化的数据,通过Lakehouse把Data Lake和Data Warehouse连接在一起,从而形成下一代的Lakehouse,能支持AI和BI。
第三个就是在我们自己湖仓(Lakehouse)平台之上,不仅有引擎,有存储,还提供了一整套Studio。也就是说我们提供了一个All in One的数据集成、数据开发、数据管理、监控的一整套流程,从而没有必要再去组装各种工具,比如开源工具把所有数据cooking的过程分散到不同数据源、不同的工具里面。
通过做到这些我们才真正做到一个普惠的、极致简单的、极致弹性的云原生数据平台。
我们为什么要这么做?从业务的角度上来说,它真正给我们带来的价值是什么?
首先我们会看到企业要做实时化的数据洞察。数据加工过程一般分成数据采集、数据加工、数据分析三个环节。在数据加工的环节里面往往占50%以上的成本。因为过去不同的计算范式,使得在搭实时化平台时为了做到实时化,要把离线和实时通过不同引擎做到,至少是两套引擎,有的时候需要三套。这几套引擎之间的元数据不统一,存储不统一,最关键的是不同的SQL,不同的计算语言,所以学习维护成本都是完全不一样的。
这样就会带来很多数据资产的管理问题,带来数据质量的问题,治理的问题,规范化的问题,实际上很多企业都是花了大量的人力和成本在上面的。而这个就是后台炉灶的大问题,自起炉灶的时候,往往要一帮人来盯着这个炉灶的炉火、炉头是不是还在,是很复杂的维护关系。这样的话也就自然没有办法为前台那么多客户,那么多食客,最快的提供他们需要的饭菜。
今天我们通过Single-Engine的理念,把所有的语言统一起来,把所有的开发体验统一起来、统一的存储、统一的计算,因为我们把几个引擎合在一个引擎里面,并且在我们前面说的几点之间,能够做到快速地Balance,灵活地切换。如此我们给企业带来的不仅是企业实时化的数据洞察,而是通过Single-Engine做的实时化的洞察。这样的话客户才能够得到最好的服务,企业才能够真正朝着科技化企业转型。
我相信最近这半年最火的可能都是AI,所有的企业都被大模型给燃发起来,都开始在考虑怎么样能够把AI赋能自己的企业?我们知道其实在对AI和BI来说,底层都是数据驱动,因为AI下面其实也是一个很大的数据平台。在做AI驱动的过程当中,会发现它实际上更多的是Future Looking;但是做BI时更多的是往回看,是看Past。历史上来说,AI的数据平台和以前做BI的数仓往往是两套体系架构。
今天我们通过湖仓一体的平台,实际上是通过One Copy of Data,同样可以处理结构化数据、半结构化数据和非结构化数据,在一个湖仓一体的体系架构之下,通过One Copy of Data同时跑BI的Query和AI的运算。这样才把真正把一个企业里面整个数据的管理体系结构,在同样的元数据管理,同样的授权管理之下管理起来,这是我们做出的另外一个很重要的一体化创新。
最后还有一点,就是我们的所带来的业务价值,提高数据使用员工的比例。换句话说,一个企业里面多少人是靠数据吃饭的?有多少人没有数据就开不了工?这个是判断科技型企业重要的核心指标。
在以前可能只有老板看报表,这个就是传统的Oracle时代或者Teradata时代,所谓的数据平台以及数据厨房所起的作用。但是在今天,随着成本的极大降低,随着我们Single-Engine对企业数据平台的极致简化,不仅是数据人员能使用它,业务人员或者说仅仅是稍微懂一点技术的业务分析师,都可以使用我们的数据平台。在这种情况之下,我们就可以把企业里数据使用员工的比例大大提高。
在很多大型的互联网企业,比如说阿里可能有几万人在使用数据平台,这是一个科技型企业重要的核心指标。今天我们能够帮助企业真的做到开门是数据,关门也是数据,什么东西从BI进,什么东西都从BI出,这就是我们对企业来说提供的最核心业务价值之一。
讲到这做一个总结是说,我们认为什么样的数据平台能够真正能够最大程度地解放数据生产力?其实很简单,我们认为今天有那么多业务人员在消费企业数据的时候,有那么多客户在消费企业数据的时候,一个强壮的数据平台是一个科技企业必备的,这个强壮的数据平台必须是极致简单的。当我们在这样一个商业化社会里面,分工成为必然的时候,任何分工都是从极致简单开始。在我们设计整个云器产品的第一天就决定,把复杂留给云器,把简单留给客户。对我们来说,要把数据平台像水和电一样,交给我们的客户。
对水和电来说,大家都知道最简单的是它们易用,最重要的是它们的成本极大地降低,但是我们并不是特别的Emphasize成本的降低,原因在于说虽然电是很便宜的,比如给一个手机充电,一年电费加起来可能不到几块钱,这是自然的,是应该的,但最核心的在于它使得你能用手机做到以前在非电力时代不可想象的事情。它为你创造的价值,无论是实时化,还是AI一体化,这个才是我们所谓的创造的增量的价值。因为极致的简单,和极致的成本降低,使得企业可以在数据平台之上做到以前不可想象的业务场景,这才是我们最终要提供的业务的价值。
今天我们秉承着这样一个产品理念Single-Engine,把复杂留给云器,把简单留给客户。经过两年的打造,很骄傲地向大家宣布,今天我们云器Lakehouse正式开服。
事实上在过去的半年里面,我们已经有很多客户在逐步地上线,但是今天我们才真正的把它Public给大家做产品发布。在前面提到云器是一个多云的企业,今天在两朵云上,在未来会在更多的云上面开服。我们已经在三个Region开服,不仅是中国国内的region,在海外的region也已经开服。这是我们昨天的生产数据显示了云器整个的Workload,相信在未来的几年之内,我们的数据还会逐渐地进一步提高。
我们也非常欢迎所有的客户,所有线上的朋友,到云器的网站、公众号、视频号上去看相关的材料,并开始试用云器的产品,然后提出进一步的意见!谢谢大家。
往期推荐
极客邦科技 CEO 霍太稳对话云器科技 CTO 关涛:打造中国版“Snowflake”,经济低迷时期技术创业型公司如何乘风破浪?
星盘跨境×云器科技|依托云器 Lakehouse 实现实时离线一体化、湖仓一体化数据架构升级,支持全域数据高效分析