全球仅83人,网易有数技术专家燕青成顶级开源项目Apache Spark 新晋Committer
就在不久前,网易数帆-有数技术专家燕青接受 Apache Spark PMC 邀请,正式成为 Apache Spark Committer(核心贡献者)。
除了经历从医学信息学博士到顶级开源社区核心贡献者的“画风突变”,生活中的他还是健身达人和下厨爱好者,深入聊一聊,其实他是个有故事的男同学哦。
Apache Spark Committer
是什么概念?
众所周知,Apache Spark作为一款强大的开源分布式数据处理引擎,自立项之后就一直是大数据领域的热点,2014年ASF(Apache软件基金会)宣布Apache Spark成为基金会的顶级项目时,许多业内人士称2014年将是Spark的一年。
在之后的几年里,Apache Spark发展成国际大数据方面最大的开源社区之一,目前已拥有全球570多个地区的超过30万个Spark Meetup社区成员。而这当中,全球只有1600多人成为社区贡献者,83人成为核心贡献者。
从Spark官网Committer页面可以看到,国内的Committer并不多,而且大多数是项目早期的贡献者。作为后来者,能够在这个顶级项目成熟期晋升为项目Committer,这意味着获得了社区大神们的认可,燕青也有点欣喜。
从医学信息学博士
到顶级开源社区的核心贡献者
燕青热爱开源,信仰开源,他相信群体的智慧要强于单个人的单独经验,而开源正是一种以群体智慧创造价值的模式。从业多年,他愈发坚信“开源是可以做一辈子的事情”。
中国拥有开源大数据最大的用户群体,但在开源大数据贡献方面,需要做的事情仍有很多。例如,数帆旗下的网易有数大数据平台,就是基于Hadoop、HBase、Spark、Kudu、Impala、Flink等开源技术研发的,但从开源组件到平台产品,团队做了大量的工作。
燕青说,很多的工作,其实可以回馈到开源社区,提升整个领域的创新速度。他希望带着这份热爱与坚持,与其他像他一样的人一起努力,让中国开源的氛围愈发增强,在国际上的声音也愈发增多。
同时,燕青也是一个很有“坚持力”的人。虽然非科班出身,本科时甚至主要和培养细胞打交道,但他把“坚持力”很好地用到了社区开源贡献方面。
从2015年开始,燕青就开始接触 Spark方面的业务。4年后,燕青下定决心为Spark做更多的事情,并立下阶段性的目标:在1年半内成为Committer。为此,他投入更多精力并最终如愿以偿:“从一个外行人成为全球顶级开源项目的核心贡献者,我觉得这对我自己意义也蛮重大的”。
正如一个优秀的开源产品离不开优秀的开源生态支持,一个优秀的人也离不开其背后团队的支持。自加入网易数帆团队,燕青的工作更有方向:从之前更多来自理论,转变为直面技术需求乃至业务需求。
燕青发现,网易为团队提供一个更直接客观的研究环境,只要是对工作有正向促进作用的,都会在这里得到大力支持。网易数帆不主张强行捆绑,或者封闭核心代码,而是非常“局气”地开源开放。
除Spark外,网易数帆在Kudu、HBase、Submarine等社区也颇为活跃。总结起来,其实就八个字“保持活跃,持续贡献”。
在这样的整体氛围下,网易内部倡导开源、拥抱开源的热情愈发高涨。包括燕青在内的网易大数据技术开发人员,都在不同程度上积极参与Spark社区贡献,和社区融为一体。
工作与社区同步,这是在业内非常少见的一种模式,也让网易数帆在开源社区更加活跃。仅2020年,网易人在Apache Spark 贡献了约 300 commits,相当于几乎每1-2个工作日,团队就在社区上传核心贡献。
扩展Spark生态,让大数据更易用
有意义的事要一直做下去
不仅如此,燕青和团队还在Apache Spark之上发起了企业级数据湖探索平台Kyuubi,通过灵活的架构和统一的SQL API。在Apache Spark的基础之上,Kyuubi在数据访问方式、数据查询能力、企业级特性支持、生态支持与构建等方面有了更进一步的升级。由于SQL是最简单最流行的数据工具,燕青认为,Spark要做到数据价值的平民化,SQL生态就必须做好。
对于自己“亲生”的Kyubbi,他有更高期待:希望建立在Apache Spark和数据湖技术之上,统一门户,打造一个理想的数据湖管理平台,让用户处理大数据能像处理普通数据一样轻松。目前,Kyuubi已经在走Apache的流程,后续Kyuubi将被捐赠给ASF,“未来,希望Kyuubi可以让Spark 让大数据平民化”。
除此之外,燕青还会继续深入优化Spark引擎。“在开源方面,有太多人在广度下功夫,但没有在深度上做文章。我也希望有更多的人加入到Spark社区中来,大数据的发展需要整个社区不停地思考、沉淀,需要更多新鲜的力量加入和再创新。这是一件有意义的事,也会是我一直坚持下去的事。”