Delta Lake 2.0:Databricks的急病乱投医???
新粉请关注我的公众号
在今年的Data+AI summit上,Databricks宣布了不少东西,其中之一就是2019年同样的Data+AI Summit上开源的Delta Lake,这次宣布开源2.0。
这个2.0按照Databricks的说法,就是把之前藏着的捏着的“高级”功能全部都开源出来了。这也包括了Databricks之前觉得特别重要的Z-Ordering。
Delta Lake这个项目Databricks最开始做的应该是最早的,但是不开源,只是卖钱给付费客户用。
2019年的时候终于开源了。开源了一个阉割版本的。具体的分析可以参考我这篇文章:DeltaLake:氪金爽死,白嫖尴尬的好东西!我这里就不展开分析了。
Delta Lake最初为什么要开源,核心问题是开源项目里面起来了一个叫做Iceberg的东西。这东西,本质上来说,就是Delta Lake的竞品。
必须说,以我对这两个项目的分析,Delta Lake的架构比Iceberg要优雅不少。Iceberg总有种草台班子的感觉,搭起来,有不少问题。
事实上也不难证明,在实际使用过程中,如果涉及到metadata的一些操作,Iceberg比Delta Lake理论和实践都应该要慢很多。
所以2019年Databricks看不下去,再不开源的话,可能开源的生意就和它们没什么关系了。
但是Databricks又很舍不得自己的独特优势。所以它们采用了在Spark上屡试不爽的办法:开源一个低配版的,自己的付费用户再给一个高配版的。
问题是,Delta Lake面临的局面和Spark面临的局面不可同日而语。区别大了去了。
在Delta Lake面临Iceberg全方位冲击的时候,给出来的阉割版,怎么样也要在功能上和Iceberg差不多吧,不然的话,大家也不是傻子。
而且业界盯着Iceberg猛操作的公司也不少啊,比如Dremio这个公司明显就是盯上了Iceberg,正等着Databricks炒起LakeHouse的概念,自己用Iceberg跟上来呢。
很显然,这两年的发展,对Databricks来说,有点蛋疼。起码Delta Lake在开源社区的发展,并没有成为那种如火如荼的一统江湖的架势。
而Databricks主推的LakeHouse概念里面的开源文件格式如果是Delta的话,问题来了:Databricks自己家卖钱的那个版本,功能性能都比开源的强很多。
那一边Databricks宣传的自己是开源标准,避免了lock in,一边客户想,你家的Delta Lake的格式是不是也是一种lock in呢?而旁边的Iceberg阵营天天敲锣打鼓说Databricks并非是真正的开源开放,Dremio做这个事情不仅仅毫无负担,而且乐此不疲。
我想Databricks要是2019年开源Delta Lake的时候就毫不犹豫的全部开源,而不是留一些自己付费才能有的功能的话,现在Delta Lake的开源项目发展肯定强太多了。
正是因为当初还一如既往的开源给低配版,卖钱的给高配版的做法,面对Iceberg的时候,就有点不行了。对Lakehouse这个概念的推广,也是负面作用很大。
所以Databricks急病乱投医了。先全部开源了看看会怎么样吧。那么它们会成功吗?真的是好问题。
应该这样说吧,技术上Databricks是没问题的,架构比Iceberg漂亮多了。产品上,Databricks给我们表演的,那我只能说一个字:绝!