查看原文
其他

JuiceFS 开源的第二年:“开放”与“成长”

苏锐 Juicedata 2023-02-28
1 月 12 日 JuiceFS 开源两周年,原计划在这天通过直播向大家汇报去年的工作,因为身体不适取消了活动。今天借这篇文章和大家聊聊 JuiceFS 产品和社区的变化。

01 产品进展

2022 年共发布了 9 个版本。

1 月发布了 v1.0 Beta1,并且在这个版本将许可证由 AGPLv3 改为 Apache 2.0。这是一个重要的版本,一方面用户可以更放心的在生产环境中使用。另一方面,许可证的变更也会让 JuiceFS 以更加开放的方式被使用、被集成,与产品与技术生态结合。

v1.0 正式版在我们最初的计划中,应该可以在 2、3 个月后发布。没想到 v1.0 Beta1 发布后用户的使用和反馈大大增加,同时也反馈了更多的问题。

8 月 9 日,终于迎来了年度第二个里程碑版本 v1.0 LTS,这是一个正式稳定版本,同时也是 JuiceFS 发布的第一个 LTS(Long Term Support)版本,在后续的版本迭代中,也会定期将问题修复 backport 到 v1.0 版本中并发布新的 patch release。v1.0 LTS 的发布意味着 JuiceFS 已经经过了社区用户在生产环境中的使用和打磨,更多在观望的用户可以放心用起来了。

现在已经有用户开始催更 v1.1 了。的确,距离 v1.0 LTS 发布已经有半年时间了,为什么发布了两个补丁版本,但是迟迟不见 v1.1 呢?

这要从 JuiceFS 在产品迭代中选择优先级标准说起。作为存储产品,管理着用户数据,是业务应用的底座,产品迭代以可靠、可用、易用为优先;接下来才是新功能的引入,确保用户可以安心地将 JuiceFS 应用于生产环境。

开源产品的迭代,社区用户的反馈至关重要。下面我举几个例子,都是用户在深度使用 JuiceFS 的过程中反馈给社区的,这些反馈也第一时间得到了改善迭代,提升了用户的使用体验。

火山引擎在使用 JuiceFS 构建边缘存储服务时,选择 MySQL 作为 JuiceFS 的元数据引擎,在验证和使用过程中给社区反馈了几个问题,比如上面这个 PR #2024[1] 修复了 SQL 请求使用事务不当而存在的一致性问题。

希沃(seewo)使用 JuiceFS 在自己的教育产品平台中为 Kubernetes 提供共享存储,发现了一个 CSI Driver 在高并发情况下挂载点异常可能导致的重复循环挂载问题,在 CSI Driver PR #408[2] 中修复。

思谋科技(SmartMore)使用 AI 技术为制造业赋能。JuiceFS 被用户核心的模型训练业务中,遇到了上百个 Pod 挂载不同 PVC 时的并发竞争问题,在 CSI Driver PR #473[3] 中修复。

汽车智能芯片的领先企业「地平线」,在线旅行预定平台「携程」都是 JuiceFS 的社区用户,并且在自身业务中大规模使用着 JuiceFS,在这个过程中积累的一手经验也形成了这篇《生产环境部署建议[4]》文档,这个文档也会持续吸纳更多用户的建议,持续迭代。

大疆 DJI 使用 JuiceFS 进行 CV 模型训练,起初使用 Redis 做元数据引擎,单个 volume 推荐的 inodes 数量不超过 1 亿。但是,因为训练集是大量的小图片,很快就超过了这个数量。在他们着手将元数据存储由 Redis 向 TiKV 迁移时,发现 JuiceFS 提供的 load & dump 工具可以顺利搞定,但是过程中使用的内存量很高,耗时也比较长。

运维老兵都知道,系统迁移的速度和涉及到的资源开销直接影响业务稳定性,必须重视。所以,这个问题在 PR #2156[5] 中做了优化,并在功能发布时做了进一步介绍说明

理想汽车在大数据平台中使用 JuiceFS 解决了 HDFS 扩容难成本高的问题,过程中也给予 JuiceFS 社区很多重要的反馈。比如在 PR #2580[6] 中通过减少内存拷贝,优化了 JuiceFS Hadoop Java SDK 的内存占用量。

在此,要再次感谢每一位向社区反馈使用问题,提供建议、代码的用户!

在 v1.0 LTS 之后发布的两个补丁版本的 release notes 里,大家应该也能感受到我说的:「优先将现有功能向更可靠、更稳定、更好的体验去迭代」,在 v1.0.3 中,有 15 项改进,12 项问题修复,仅有 1 项独立的新增功能(也来自现有用户的需求)。

02 社区进展

目前,已经有 85 位开发者为 JuiceFS 贡献过代码,通过 Orbit.love[7] 统计,除了 Juicedata 的团队成员,有15 位在 GitHub 中参与互动超过 20 次;通过 OSSInsight[8] 统计,已经有很多公司参与到 JuiceFS 社区中;7 位用户在 Meetup 中分享了自己使用 JuiceFS 的实践心得[9]

在 2022 年,JuiceFS 文件系统数量由 600 增长到 1700,活跃客户端由 2000 增长到 20000,数据总量由 2PB 增长到 55PB,文件数量由 5 亿增长到 350亿。

JuiceFS被广泛应用于多个行业,在与这些用户的交流互动中,也打开了我们自己的视野,了解到了不少前沿科技,我们非常钦佩科研人员的探索精神和为科学事业的付出,JuiceFS 非常荣幸能够参与其中。

当下,数字化转型已经渗透各个行业,数据是其中的基石,JuiceFS 作为存储系统,在用户业务架构中处于最底层,因而需要与流行的应用组件做好对接,才能服务好用户。

在 2022 年里,为 Kubernetes 服务的 JuiceFS CSI Driver 发布了 18 个版本,不管是稳定性还是易用性都有大幅提升;和 Fluid 社区联手合作为 AI 用户提供了数据集管理、调度、训练的最佳实践;在 ClickHouse 和 Elasticsearch 中提供数据分层存储已经成为用户增效降本的绝佳选择;和大数据生态,机器学习/深度学习框架的配合也是看家本事了。还有更多的组合方案会持续分享出来。

更多的用户开始关注 JuiceFS。在 GitHub 上已经收到 7,232 颗星星(统计于 2023.1.12),在 OSSInsight Distributed File Storage[10] 的统计分析中,JuiceFS 虽然才开源两年,已经上升到 No.4,继续加油!

JuiceFS 还获得了多个机构颁发的奖项,包括:

  • • 云计算开源产业联盟-”OSCAR 尖峰开源项目及社区”;

  • • 云原生产业联盟-”2022 年度云原生新锐企业”;

  • • 开源中国-“2022 年度优秀开源技术团队“;

  • • 中国互联网协会-”互联网助力经济社会化转型特色案例”:《JuiceFS 在自动驾驶领域的应用与案例》;

  • • 稀土掘金-“2022 人气技术团队”。

03 JuiceFS Roadmap

目前确定有下面几项特性:

第一项,支持 FoundationDB 作为元数据引擎。这个功能目前已经合入 main 分支,会在 v1.1 发布,需要的用户现在也可以自己编译 main 分支使用。

第二项,目录配额。云知声团队的吕冬冬已经贡献了 PR,还在优化迭代中,预计在 v1.1 发布。

第三项,快照。功能已经在做初步设计,之后会在社区中和大家沟通设计方案。

第四项,User and group quotas。

第五项,Write once read many (WORM)。

第四项和第五项还没有开始,也没有明确计划,如果你有建议、思路等,欢迎贡献!

最后,给各位 JuiceFS 的用户拜个早年。


作者

苏锐,Juicedata 合伙人,作为 1 号成员参与创建 JuiceFS,一直深度参与在开源社区中支持开发者使用 JuiceFS。


引用链接

[1] PR #2024: https://github.com/juicedata/juicefs/pull/2024
[2] CSI Driver PR #408: https://github.com/juicedata/juicefs-csi-driver/pull/408
[3] CSI Driver PR #473: https://github.com/juicedata/juicefs-csi-driver/pull/473
[4] 生产环境部署建议: https://juicefs.com/docs/zh/community/production_deployment_recommendations
[5] PR #2156: https://github.com/juicedata/juicefs/pull/2156
[6] PR #2580: https://github.com/juicedata/juicefs/pull/2580
[7] Orbit.love: https://orbit.love
[8] OSSInsight: https://ossinsight.io/analyze/juicedata/juicefs#people
[9] 实践心得: https://juicefs.com/zh-cn/blog/user-stories
[10] OSSInsight Distributed File Storage: https://ossinsight.io/collections/distributed-file-storage


JuiceFS 社区的第二年

感谢大家的关注、使用和贡献!

我们的合伙人

兼社群助手

苏锐全天在线




用户案例



一面数据 Hadoop 上云    AI-云知声   
AI for Science-深势科技
  理想汽车:从Hadoop 到云上    知乎    
在线设计平台:稿定科技  
大搜车    环球易购   趣头条    Shopee  
携程冷数据场景    金山云日志服务


最佳实践



元数据备份性能提升40倍  元数据-Redis 
 CSI Driver    性能分析和调优   HDFS数据迁移  
跨云数据搬迁    ClickHouse架构探索  
MySQL备份验证性提升10倍

关于Juicedata

Juicedata,杭州果汁数据科技有限公司是一家企业级存储服务供应商,开发了云原生分布式文件系统 JuiceFS,致力于在大数据时代下,为客户打造安全、高性能、自主可控的存储基础设施及服务。


2021年,JuiceFS 正式在 GitHub 上开源,已经获得 7.2 K star,欢迎开发者加入我们。 (github.com/juicedata/juicefs)


  

 JuiceFS 用起来还不错,

点个“在看”  让更多人知道

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存