Delta Lake 2.0：Databricks的急病乱投医？？？

Original 飞总本尊飞总聊IT

2024-09-11

新粉请关注我的公众号

在今年的Data+AI summit上，Databricks宣布了不少东西，其中之一就是2019年同样的Data+AI Summit上开源的Delta Lake，这次宣布开源2.0。

这个2.0按照Databricks的说法，就是把之前藏着的捏着的“高级”功能全部都开源出来了。这也包括了Databricks之前觉得特别重要的Z-Ordering。

Delta Lake这个项目Databricks最开始做的应该是最早的，但是不开源，只是卖钱给付费客户用。

2019年的时候终于开源了。开源了一个阉割版本的。具体的分析可以参考我这篇文章：DeltaLake：氪金爽死，白嫖尴尬的好东西！我这里就不展开分析了。

Delta Lake最初为什么要开源，核心问题是开源项目里面起来了一个叫做Iceberg的东西。这东西，本质上来说，就是Delta Lake的竞品。

必须说，以我对这两个项目的分析，Delta Lake的架构比Iceberg要优雅不少。Iceberg总有种草台班子的感觉，搭起来，有不少问题。

事实上也不难证明，在实际使用过程中，如果涉及到metadata的一些操作，Iceberg比Delta Lake理论和实践都应该要慢很多。

所以2019年Databricks看不下去，再不开源的话，可能开源的生意就和它们没什么关系了。

但是Databricks又很舍不得自己的独特优势。所以它们采用了在Spark上屡试不爽的办法：开源一个低配版的，自己的付费用户再给一个高配版的。

问题是，Delta Lake面临的局面和Spark面临的局面不可同日而语。区别大了去了。

在Delta Lake面临Iceberg全方位冲击的时候，给出来的阉割版，怎么样也要在功能上和Iceberg差不多吧，不然的话，大家也不是傻子。

而且业界盯着Iceberg猛操作的公司也不少啊，比如Dremio这个公司明显就是盯上了Iceberg,正等着Databricks炒起LakeHouse的概念，自己用Iceberg跟上来呢。

很显然，这两年的发展，对Databricks来说，有点蛋疼。起码Delta Lake在开源社区的发展，并没有成为那种如火如荼的一统江湖的架势。

而Databricks主推的LakeHouse概念里面的开源文件格式如果是Delta的话，问题来了：Databricks自己家卖钱的那个版本，功能性能都比开源的强很多。

那一边Databricks宣传的自己是开源标准，避免了lock in，一边客户想，你家的Delta Lake的格式是不是也是一种lock in呢?而旁边的Iceberg阵营天天敲锣打鼓说Databricks并非是真正的开源开放，Dremio做这个事情不仅仅毫无负担，而且乐此不疲。

我想Databricks要是2019年开源Delta Lake的时候就毫不犹豫的全部开源，而不是留一些自己付费才能有的功能的话，现在Delta Lake的开源项目发展肯定强太多了。

正是因为当初还一如既往的开源给低配版，卖钱的给高配版的做法，面对Iceberg的时候，就有点不行了。对Lakehouse这个概念的推广，也是负面作用很大。

所以Databricks急病乱投医了。先全部开源了看看会怎么样吧。那么它们会成功吗？真的是好问题。

应该这样说吧，技术上Databricks是没问题的，架构比Iceberg漂亮多了。产品上，Databricks给我们表演的，那我只能说一个字：绝！

继续滑动看下一个

飞总聊IT

向上滑动看下一个