查看原文
其他

Databricks一次拿了SIGMOD两个大奖

努力赚钱的小作者 飞总聊IT 2022-07-06

新粉请关注我的公众号

在最近费城召开的SIGMOD2022上,Databricks当仁不让成为了赢家,一共拿到了两项大奖:

1.Spark拿到了SIGMOD System Award

2.Photon拿到了Best Industry Paper Award


SIGMOD和VLDB是数据库领域两大顶级会议。后面还跟着ICDE。有人认为这三大会差不多,但是大部分人还是觉得ICDE差一点。


2020年以前我每年会尽量争取去其中一个会议,以便紧跟形势。疫情起来以后就没去过了。有关SIGMOD是啥就不多介绍了,很多人应该都很了解了。


Spark拿System Award应该是名至实归,没什么好说的。毕竟Spark的贡献在那里,现实的影响力在那里,历史地位将来也在那里。


至于为什么是Spark而不是Flink,这事情也很简单,Flink的爹可能算是和Spark一辈的,可惜没有搞成功。


Flink算成功吧,其实也没Spark那么成功,还晚到世界上5年,又被阿里巴巴给收购了。怎么样也轮不到Flink拿这个奖了。


至于为什么不给MapReduce,这事情也很好理解。一方面Jeff Dean混的是Operating System的圈子,他的论文就没发在数据库的会议上的。Spark虽然一开始也混Operating System的圈子,但是很快就混进Database的圈子了。


另外一方面,MapReduce出来的时候,database里面几个玩学术和政治都很牛逼的人,比如Michael Stonebraker以及David

DeWitt,写过MapReduce:A Step Backward的雄文批判。所以数据库的圈子对MapReduce这东西的不待见,显而易见,给不了也不可能给数据库的大奖。


无论如何,Spark拿这个大奖,在数据库领域的人,应该是没什么争议了。


Photon拿到了Best Industry Paper Award,是另外一回事了。SIGMOD上发的论文一般有两种,Research Paper和Industry Paper。


Research Paper的原创性高一点,best paper含金量很高。Industry Paper对原创性要求弱一些,通常很多是给工业界的人发论文用的。


但是我发现这些年来有个趋势,Industry Paper里面常常会有一些有意思的论文,而Research Paper里面也不乏写作技巧高但是其实是坨屎的论文。


Photon是Databricks搞的C++引擎,全面兼容Spark,但是速度快N倍,N取决于不同的说法。背后用的技术是vectorization。如果大家不了解这是什么,可以把Snowflake创始人的博士毕业论文拿来读读,那算是vectorization的鼻祖了。


Photon目前只有你用了Databricks的付费SaaS服务才能够享受到了,开源的是没有的。Photon的论文我还没看过,坦白说这两年我是有点懈怠了,好论文不少,看起来总是很慢。主要原因也是看论文对我来说兴趣多于工作需要,所以拖延症严重。


因为我没看过论文,所以我也没太多技术细节可以扯的。哦,对了,Databricks掀起的和Snowflake关于TPC-DS自己跑的很牛逼,Snowflake作弊的系列博客,里面用的就是这个Photon引擎。据说Photon目前还保留着TPC-DS全球最牛逼的benchmark数据。


当然,不管它多牛逼,和open source的社区关系不大了。但是我想啊,当年Databricks搞Delta Lake的时候,也是想卖钱给自己客户,结果开源社区弄出个Iceberg,还越做越大了,弄得Databricks最后还是开源出来一个比较基础的Delta Lake,然后差异化收费。


所以,Photon弄不好也免不了要走一趟老路。完全不开源的话,是没有足够的影响力的,没足够影响力呢,想要从Snowflake那去抢用户就费力了。


我姑且大胆猜测一下,Photon大概率很快就会开源出一个比较基础的版本来,然后Databricks通过差异化服务收费。收费的比开源的好用,开源的凑合着够用。这样就能吸引用户从Snowflake跳船来Databricks了。


我不是神仙,我不知道这个事情会不会发生。我更不能肯定有了这个开源的举动以后,Snowflake的用户会不会跳到Databricks上来。如果要问我的话,我觉得开源不远的将来会发生,但是Snowflake的用户跳船的事情,大概率还是会让Databricks失望。


如果我猜对了,大家记得回头叫我预言帝。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存