我们为什么做NDH
前几天我们发布了个小产品叫NDH(官宣!网易数帆自研大数据基础平台,筑牢自主可控“数字底座”),大致来说就是一个网易版的Hadoop,类似CDH,没想到引起了IT大网红飞总的深深思考(Cloudera一己之力证明的火炕,网易却毫不犹豫跳进来。。。)。飞总为了证明我们是一群聪明人,不会做Hadoop发行版这种傻生意,blahblah帮我们想了很多理由。飞总不愧是飞总,技术上一针见血(我们有Impala和Kyuubi),融资上市抬估值的逻辑更是把我唬的一愣一愣的。
借此我也谈谈我们为什么做NDH。
首先,其实NDH并不是一个全新的产品。我们内部已经做了很多年了,音乐、严选、传媒、有道等BU都大量使用,对外也卖了5年了,只不过之前都是和我们的数据开发平台一起打包卖的,这次无非是把NDH这一层独立出来。
其次,把NDH独立出来可以说是我对架构开放的偏执态度的必然结果。
我之前给有数的团队提了一个要求,产品要模块化,拆分成多个客户可以单独购买的子产品,这样客户就不会被逼着买全家桶。很多客户已经有CDH、FusionInsight,总不能逼着客户为了用我们的数据研发或数据中台又得搞一套Hadoop集群吧?所以我命令团队一定要拆。
这一拆就拆出个逻辑数据湖的概念,就是我们的数据研发和数据中台都可以架设在客户已有的CDH、FusionInsight、Vertica、Oracle甚至MySQL(对的,甚至有在MySQL上做数据中台的,这个我一开始都想不到)上实现。这样出现了一些客户用了我们的逻辑数据湖,底层是CDH或FI。但客户用着用着,也被我们团队游说(我们不会逼客户,但游说还是会游说的),觉得CDH貌似挺贵也有风险,我们服务又不错,所以也想把底层换成我们的。这上门的生意总不能不做吧,所以NDH独立成产品也就是必然的了。
架构开放应该说是我作为架构师的偏执吧,因为生意角度证明不了,你说20多年前Bezos要求系统之间都得通过API是不是一种偏执?
最后,虽然Hadoop发行版长期看不大像是一门很好的生意,但我们认为NDH无论短期还是长期看都会是一门不错的生意。
短期的理由飞总在文章里已经说了,主要是我们可以接手CDH的老客户,还有Impala和Kyuubi的优势。长期看NDH会演化成一个越来越强大的面向分析的数据存储和计算平台,能够比较好的同时满足批处理、交互式查询、数据仓库、流处理这三方面的需求,并且保持开放架构(具体来说就是存储和格式统一)和迁移过程的平滑。平滑演进特别重要,我们为什么做Kyuubi?主要就是为了从Hive到Spark能够平滑,从YARN到K8S能够平滑,将来我们还可以平滑的不断过度到理想形态。
这会是一个非常漂亮的架构,自然也会成为一个很好的赛道。Cloudera势头不行不表示整个赛道不行,是因为Cloudera在技术上落伍了,比如MapReduce被Spark取代,Hive被SparkSQL取代,同一个赛道的Databricks、Snowflake,那可是红得很。
虽然这个过程会比较长,也有很多挑战,但我们在云原生数仓和基于Iceberg的湖仓方面已经做了不少工作,让我相信是可行的。
我们也会秉持我们的开源理念(我们怎么做开源),基础内核技术会开源出来,下个月我们就会开源一些东西,敬请期待。
当然到那个时候,NDH这个名字也要升级了。虽然飞总无责任猜想我们是不是为了估值,但NDH这个名字我觉得对资本应该是没啥吸引力的吧,但客户好理解。
再说些题外话,我觉得把手头的生意做好,胜过去追求所谓的大家眼中的“好生意”。就像我在前一篇文章里说的(中国做企业软件这么难,怎么办),虽然中国做企业软件是难,但既然在这个赛道,也必须努力干下去。有数在大数据这个赛道,NDH这个事情做了这么多年了,那NDH就是我们手头的生意,既然做了,就要想办法做的更好,这次正式发布NDH无非是想做的更好。
这大概也算是我司气质了,大家看我们做严选还养猪,这些生意又累又重,又不是什么平台模式和风口,显然不是“最好的生意”,但是不是“足够好的生意”呢,应该是吧。既然有足够好的生意可做,那就先把它踏踏实实的做好。