全球仅83人，网易有数技术专家燕青成顶级开源项目Apache Spark 新晋Committer

Original 网易数帆网易数帆

2024-09-10

就在不久前，网易数帆-有数技术专家燕青接受 Apache Spark PMC 邀请，正式成为 Apache Spark Committer（核心贡献者）。

除了经历从医学信息学博士到顶级开源社区核心贡献者的“画风突变”，生活中的他还是健身达人和下厨爱好者，深入聊一聊，其实他是个有故事的男同学哦。

Apache Spark Committer

是什么概念？

众所周知，Apache Spark作为一款强大的开源分布式数据处理引擎，自立项之后就一直是大数据领域的热点，2014年ASF（Apache软件基金会）宣布Apache Spark成为基金会的顶级项目时，许多业内人士称2014年将是Spark的一年。

在之后的几年里，Apache Spark发展成国际大数据方面最大的开源社区之一，目前已拥有全球570多个地区的超过30万个Spark Meetup社区成员。而这当中，全球只有1600多人成为社区贡献者，83人成为核心贡献者。

从Spark官网Committer页面可以看到，国内的Committer并不多，而且大多数是项目早期的贡献者。作为后来者，能够在这个顶级项目成熟期晋升为项目Committer，这意味着获得了社区大神们的认可，燕青也有点欣喜。

从医学信息学博士

到顶级开源社区的核心贡献者

燕青热爱开源，信仰开源，他相信群体的智慧要强于单个人的单独经验，而开源正是一种以群体智慧创造价值的模式。从业多年，他愈发坚信“开源是可以做一辈子的事情”。

为什么这么说呢？

中国拥有开源大数据最大的用户群体，但在开源大数据贡献方面，需要做的事情仍有很多。例如，数帆旗下的网易有数大数据平台，就是基于Hadoop、HBase、Spark、Kudu、Impala、Flink等开源技术研发的，但从开源组件到平台产品，团队做了大量的工作。

燕青说，很多的工作，其实可以回馈到开源社区，提升整个领域的创新速度。他希望带着这份热爱与坚持，与其他像他一样的人一起努力，让中国开源的氛围愈发增强，在国际上的声音也愈发增多。

同时，燕青也是一个很有“坚持力”的人。虽然非科班出身，本科时甚至主要和培养细胞打交道，但他把“坚持力”很好地用到了社区开源贡献方面。

从2015年开始，燕青就开始接触 Spark方面的业务。4年后，燕青下定决心为Spark做更多的事情，并立下阶段性的目标：在1年半内成为Committer。为此，他投入更多精力并最终如愿以偿：“从一个外行人成为全球顶级开源项目的核心贡献者，我觉得这对我自己意义也蛮重大的”。

正如一个优秀的开源产品离不开优秀的开源生态支持，一个优秀的人也离不开其背后团队的支持。自加入网易数帆团队，燕青的工作更有方向：从之前更多来自理论，转变为直面技术需求乃至业务需求。

燕青发现，网易为团队提供一个更直接客观的研究环境，只要是对工作有正向促进作用的，都会在这里得到大力支持。网易数帆不主张强行捆绑，或者封闭核心代码，而是非常“局气”地开源开放。

除Spark外，网易数帆在Kudu、HBase、Submarine等社区也颇为活跃。总结起来，其实就八个字“保持活跃，持续贡献”。

在这样的整体氛围下，网易内部倡导开源、拥抱开源的热情愈发高涨。包括燕青在内的网易大数据技术开发人员，都在不同程度上积极参与Spark社区贡献，和社区融为一体。

工作与社区同步，这是在业内非常少见的一种模式，也让网易数帆在开源社区更加活跃。仅2020年，网易人在Apache Spark 贡献了约 300 commits，相当于几乎每1-2个工作日，团队就在社区上传核心贡献。

扩展Spark生态，让大数据更易用

有意义的事要一直做下去

不仅如此，燕青和团队还在Apache Spark之上发起了企业级数据湖探索平台Kyuubi，通过灵活的架构和统一的SQL API。在Apache Spark的基础之上，Kyuubi在数据访问方式、数据查询能力、企业级特性支持、生态支持与构建等方面有了更进一步的升级。由于SQL是最简单最流行的数据工具，燕青认为，Spark要做到数据价值的平民化，SQL生态就必须做好。

对于自己“亲生”的Kyubbi，他有更高期待：希望建立在Apache Spark和数据湖技术之上，统一门户，打造一个理想的数据湖管理平台，让用户处理大数据能像处理普通数据一样轻松。目前，Kyuubi已经在走Apache的流程，后续Kyuubi将被捐赠给ASF，“未来，希望Kyuubi可以让Spark 让大数据平民化”。

除此之外，燕青还会继续深入优化Spark引擎。“在开源方面，有太多人在广度下功夫，但没有在深度上做文章。我也希望有更多的人加入到Spark社区中来，大数据的发展需要整个社区不停地思考、沉淀，需要更多新鲜的力量加入和再创新。这是一件有意义的事，也会是我一直坚持下去的事。”

继续滑动看下一个

网易数帆

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

全球仅83人，网易有数技术专家燕青成顶级开源项目Apache Spark 新晋Committer

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

生成图片，分享到微信朋友圈

全球仅83人，网易有数技术专家燕青成顶级开源项目Apache Spark 新晋Committer

您可能也对以下帖子感兴趣