查看原文
其他

做开源 18 年,他想把中国开源带向世界 | 人物志

八宝粥 CSDN 2021-11-11


作者 | 八宝粥
出品 | CSDN(ID:CSDNnews)

我们希望把中国的开源项目、基金会带向世界,也把世界的新鲜、成熟的基金会的理念和管理方法带回中国。   ——LF AI&DATA 基金会主席、Zilliz 创始人兼 CEO 星爵
越来越多的企业和开源项目选择加入开源软件基金会,LF AI&DATA 基金会作为 Linux 基金会旗下的子基金会,致力于促进机器学习、深度学习等人工智能领域的开源创新。这次我们专门请到 LF AI&DATA 基金会董事会主席星爵和大家分享他的开源故事,以及基金会在今后的发展方向。
星爵,LF AI&DATA 基金会主席、Zilliz 的创始人兼CEO,曾长期就职于 Oracle 美国总部,Oracle 12c 多租户数据库奠基人之一。大数据、人工智能和高性能计算领域行业专家。
正式采访之前,记者询问了星爵这个昵称的来由,星爵回复道: 
这是我在开源技术圈子当中喜欢用的名字,他是漫威当中的英雄,也是其中唯一一位以集体形象出现的人物,他让我们看到英雄主义和集体荣誉。希望各位不管是创业还是技术创新,都能不仅仅做到技术独挡一面,也能够联合在一起,成为战无不胜攻无不可的团队。
精彩观点预览:
  • 人一辈子都在利他和利己之间做斗争,只有能够战胜贪婪的人和企业,才能做到真正大的格局。

  • 开源项目作为改变世界的理想的体现,带有乌托邦情怀。

  • 开源不仅是一个很重要的战略,也是我们对整个开源社区的一个责任。

  • 做开源这件事情,就要把利他主义摆在第一位。

  • 开源这个事情其实非常好玩,最好玩的就是你的任何一个贡献都会被记住。

以下为采访全文,在不改变原意的情况下进行了部分编辑:

CSDN: 星爵老师,请谈谈您和开源的故事?
星爵:我最初接触开源,是在 2002 年读研期间参与了中国教育科研网格项目,通过学习名为 Globus 网格计算的中间件来快速实现。Globus 是芝加哥大学和美国阿贡国家实验室合作研发的, 2000 年就已开源。那时,我就是开源的受益者。后来去美国的求学和研究当中,我又接触到集群作业提交的工具Condor,也从一些 C++ 和 Java 的开源项目中收获很多。 
在美国 Oracle 工作期间,我也固定参与一些开源项目来做贡献。因为受到硅谷文化的影响,开源对创业公司甚至工业界都是很好的赋能和一种神奇的力量。像 Facebook、Yelp、LinkedIn 这样的公司,前期只关注业务,系统也是靠大量的开源项目拼建所得。
如我一般,最初就从开源中受益从而成长的中国工程师还有很多,尤其 90 后这一代接触到了更多开源的东西,为他们的学习工作提供便利。现在也是时候引导国内开发者为全球开源社区的发展去做一些贡献。 
后来我创立了 Zilliz,同样是基于开源和利他的理念,通过开源构建竞争力的基础软件公司,为开发者和用户创造价值。我相信这种利他主义会越来越多,而且能够真正的改变人类。因为我觉得人一辈子都在利他和利己之间做斗争,只有能够战胜贪婪的人和企业,才能做到真正大的格局。短期来看可能利他主义是利益受损的一方,但是从长远的角度,或许会是最大的获利者。

CSDN:开源软件基金会对于很多读者来讲还是有些神秘,首先请您介绍一下关于LF AI &DATA 基金会的组织架构和职能? 
星爵:开源项目作为改变世界的理想的体现,带有乌托邦的情怀。然而受到软件复杂程度的影响,开源远不是一人之功,可能还会出现知识产权以及法律上的一些问题。正因如此,开源组织和开源基金会就应运而生了。 
基金会职责的首先就是制定治理制度,在法律层面保护旗下项目的知识产权。其次,基金会也有一套完整的资质流程,以保证项目的合规和创新性,并促进项目孵化升级。第三,基金会也会去募集资金和资源,支持项目的发展,培养影响力。 
LF AI&DATA 下面有两个比较重要的组织架构:一个是管理董事会(Governing Board),负责整个基金会的战略方向,包括年度规划和章程修改等管理细节。另外一个是技术咨询委员会 TAC(Technical Advisory Council),负责对要加入基金会的新项目进行培育和审核。项目加入需要通过答辩,通过答辩之后判断项目等级,对于项目此后的成长也会随时去跟踪进行指导。
CSDN:基金会此前从 LF Deep Learning 更名 LF AI,今年10月宣布和 ODPI (开放式数据平台倡议 Open data platform Initiative)合并更名为 LF AI&DATA,这两次名称上的改变旨在传递什么信息呢? 
星爵:基金会成立的最初是看到深度学习的快速发展,18 年末我们开始筹备更名 LF AI,将关注点从深度学习扩展到人工智能机器学习的开源创新,把更多的机器学习和泛人工智能的项目吸引到里面来。近两年时间内,基金会拓展到了如今了二十几个项目,我们发现 AI 从实验室走向工业界离不开与大数据的结合,人工智能和数据是不可分的。我们也不仅仅是和 ODPI 的一个合并,而是把我们的边界的进一步扩大,打通大数据和人工智能之间的壁垒,顺应这一大趋势,是更名为 LF AI&DATA 的主要原因。 
AI 之前的创新研究主要集中在算法,近几年来转向了以数据为核心。全球的人工智能,从算法的创新到数据驱动,在更多的行业里面的智能数据和应用落地,就一定要把数据板块纳入进来,让大数据跟人工智能进行联动。
CSDN:那么我们主要关注数据的哪些领域呢? 
星爵:这个其实是多方面的,在 LF AI&DATA 的官方网站上面有一个 landscape。你会看到它有几个很大的板块。在版图当中有很多项目,一方面是数据的清洗,合规治理,一方面是数据存储,另外一方面是人工智能产品下面产生了新的数据具体需求,包括新的各种参数、超参数以及元数据处理和存储等新的需求。 
LF AI&DATA 项目版图
CSDN: 2020 是复杂的一年,全球爆发了新冠疫情,IF AI&DATA 如何应对疫情的影响?对于抗击疫情有没有相关开源项目支持? 
星爵:我们基金会每年会有一个面对面的会议,今年我们基本将线下的面对面会议取消了,包括一切峰会也转移到线上。面对面的机会更少了,但是对于我们基金会来讲,还是处于一个比较有效的运营当中,平时我们的成员也是来自世界各地,本身就是分散的,开会就可以在线上进行,影响比较可控,而且一些分会也可以在线上去做。像我国恢复较快,我们也恢复了线下活动,开展了 LF AI &DATA Open Day 等,也有请基金会的董事在线上接入活动。 
关于抗击疫情,我们有一个和生物医学组织合作加速病毒检测的项目,基于开源的特征向量相似度搜索引擎 Milvus。新冠病毒检测需要比对 RNA 序列,但是人类的 RNA 很长,进行检测就需要较长时间。我们现在利用深度学习技术,可以把病毒的 RNA 转化为 128 维的向量,迅速判断在两者在维度上是否相似。在全民检测的情况下,阳性患者毕竟还是少数。举个例子,我们要比较两个人是否是同村的,但是两个人都不是一个省的,就直接不用比较了。这样关于阴性的检测,之前需要几个小时,现在几秒钟就能做好。通过提升阴性的吞吐率大大加快了病毒的检测效率。如果结果怀疑是阳性,再去做第二部分的全量检测。这样在节省了计算资源的同时,提升了整个检测的吞吐率,这也是通过我们的开源项目为战胜疫情和控制疾病做出的贡献,源码向中国和世界的医疗机构免费开放。
CSDN:您作为 LF AI&DATA 基金会主席和 Zilliz 的CEO ,这两种角色有什么共性和区别呢? 
星爵:很幸运的是,Zilliz 是一家真正以开源为使命的科技公司,开源不仅是一个很重要的战略,也是我们对整个开源社区的一个责任。在 Zilliz,我们会把我们所有的核心代码来开源。因此对于我来讲,不论是在基金会里面做主席,还是在创业公司当 CEO,这种开源理念和利他精神是一致的。只有在为用户创造价值的前提下,我们才会考虑通过商业化盈利,这并不代表开源和商业化之间存在矛盾。 
举个例子,国外有家公司 Databricks ,目前估值六十多亿美金,这个公司的发展就是基于一个叫做 Spark 的开源项目。通过商业化吸引更多的研发力量,他们又向社区贡献了更多的好的项目。比如 Delta lake、ML Flow、MylesCollins 等,形成良性的开源闭环。我相信以后会出现更多成功的开源软件公司,以商业化成功反哺开源社区。 
尤其近几年,我们也摸索出一种开源的产业模式,就是云端的托管服务的方式,在代码开源的背景下,云服务上面的源代码和开源代码是一样的,而公司盈利则通过为客户提供在云上的服务、部署、运维等高质量的AI服务。 
CSDN: 请问您担任 LF AI 董事会主席之后,对推动中国的开源生态建设有怎样的举措? 
星爵:首先,我们需要鼓励更多的项目加入到基金会当中,这会是构建影响力的第一步。今年我们就吸纳了很多新的成员加入,其中还包括一些高校和中国台湾的企业。
其次,我们也应该意识到中国在国际上的开源基金会当中还是新玩家,这个阶段我们更应该积极参与,去拥抱整个开源社区,成为中国开源生态的一部分。今年我们就在积极推动 LF AI&DATA 基金会跟中国的很多组织和机构合作,包括开源社、启智社区、鹏城实验室,开放原子开源基金会。我们希望把中国的开源项目、基金会带向世界,也把世界的新鲜、成熟的基金会的理念和管理方法带回中国。
CSDN: 接下来的一年,LF AI&DATA 对于全球开源生态有怎样的设想和规划呢? 
星爵:基金会现在涵盖了 30 多个成员单位和 22 个开源项目,我们期待明年有更多的组织加入我们,包括但不局限于商业化的公司、高校和科研机构。 
为了吸引更多的项目加入,基金会的项目生命周期治理会更加精细化。从明年开始,基金会计划升级为三级治理结构,即在原有的 Incubating(孵化中)和 Graduated(毕业)两个阶段之外,增加一个 Sandbox(沙箱)阶段。这样的话,尽管是在早期发展阶段的项目,也可以加入到基金会中来,通过沙箱阶段的观察和孵化,待时机成熟通过项目答辩升级到孵化阶段。 
新项目在沙箱的时间一般不超过 24 个月,也就是说,如果项目做不到持续维护,两年内不能通过考核进入孵化阶段,那么这个项目可能就被用户边缘化了,需要退出。对于每个阶段的项目我们都会有设置退出机制,包括已经毕业的项目,我们在每年也会进行评审,要求例如项目里面必须有五家不同的机构在做贡献者,这个是来衡量项目可用性和活跃程度;另一方面,我们也要求项目需要和基金会里面至少一个项目有协同。我们也会考察包括社区内 Commit 的数量、Star、Issue 等活跃程度指标。 
另外一方面,我们也将积极推动项目之间的协作。在人工智能和数据的领域之外,我们还会探索 AI 与 BI (Business Intelligence)领域的合作。随着 AI 的发展,我们发现线性回归这种简单的数据分析已经难以满足现实的要求。进一步拓展我们整个基金会的边界,我们希望构筑一个更大的生态,为用户和整个开源社区创造更完整的解决的方案。 
最后送上两句话,一个是:做开源这件事情,就要把利他主义摆在第一位,通过AI解决现实问题,还原科技真正的价值。 
另外一句话:开源这个事情其实非常好玩,最好玩的就是你的任何一个贡献都会被记住。今年 GitHub 就做了一件非常酷的事情,把代码埋在冰川下面,也许有一天人类世界也将毁灭,但我们贡献的代码却不会消失。

更多精彩推荐

美团遭遇反垄断调查;三星超过台积电,成为全球市值最高半导体公司;Qt 6 for Python发布|极客头条

告别 Windows、Android,国产操作系统合力破局

不讲码德!坏味道偷袭我这个老码农

那些追源码的平凡之路

Windows 游戏之父 Eric Engstrom 意外去世,享年55岁

 M1  RISC-V  ARM

管理大型共享数据库,做到这几点不再头疼!

点分享点点赞点在看
: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存