JuiceFS 开源的第二年:“开放”与“成长”
01 产品进展
2022 年共发布了 9 个版本。
1 月发布了 v1.0 Beta1,并且在这个版本将许可证由 AGPLv3 改为 Apache 2.0。这是一个重要的版本,一方面用户可以更放心的在生产环境中使用。另一方面,许可证的变更也会让 JuiceFS 以更加开放的方式被使用、被集成,与产品与技术生态结合。
v1.0 正式版在我们最初的计划中,应该可以在 2、3 个月后发布。没想到 v1.0 Beta1 发布后用户的使用和反馈大大增加,同时也反馈了更多的问题。
8 月 9 日,终于迎来了年度第二个里程碑版本 v1.0 LTS,这是一个正式稳定版本,同时也是 JuiceFS 发布的第一个 LTS(Long Term Support)版本,在后续的版本迭代中,也会定期将问题修复 backport 到 v1.0 版本中并发布新的 patch release。v1.0 LTS 的发布意味着 JuiceFS 已经经过了社区用户在生产环境中的使用和打磨,更多在观望的用户可以放心用起来了。
现在已经有用户开始催更 v1.1 了。的确,距离 v1.0 LTS 发布已经有半年时间了,为什么发布了两个补丁版本,但是迟迟不见 v1.1 呢?
这要从 JuiceFS 在产品迭代中选择优先级标准说起。作为存储产品,管理着用户数据,是业务应用的底座,产品迭代以可靠、可用、易用为优先;接下来才是新功能的引入,确保用户可以安心地将 JuiceFS 应用于生产环境。
开源产品的迭代,社区用户的反馈至关重要。下面我举几个例子,都是用户在深度使用 JuiceFS 的过程中反馈给社区的,这些反馈也第一时间得到了改善迭代,提升了用户的使用体验。
火山引擎在使用 JuiceFS 构建边缘存储服务时,选择 MySQL 作为 JuiceFS 的元数据引擎,在验证和使用过程中给社区反馈了几个问题,比如上面这个 PR #2024[1] 修复了 SQL 请求使用事务不当而存在的一致性问题。
希沃(seewo)使用 JuiceFS 在自己的教育产品平台中为 Kubernetes 提供共享存储,发现了一个 CSI Driver 在高并发情况下挂载点异常可能导致的重复循环挂载问题,在 CSI Driver PR #408[2] 中修复。
思谋科技(SmartMore)使用 AI 技术为制造业赋能。JuiceFS 被用户核心的模型训练业务中,遇到了上百个 Pod 挂载不同 PVC 时的并发竞争问题,在 CSI Driver PR #473[3] 中修复。
汽车智能芯片的领先企业「地平线」,在线旅行预定平台「携程」都是 JuiceFS 的社区用户,并且在自身业务中大规模使用着 JuiceFS,在这个过程中积累的一手经验也形成了这篇《生产环境部署建议[4]》文档,这个文档也会持续吸纳更多用户的建议,持续迭代。
大疆 DJI 使用 JuiceFS 进行 CV 模型训练,起初使用 Redis 做元数据引擎,单个 volume 推荐的 inodes 数量不超过 1 亿。但是,因为训练集是大量的小图片,很快就超过了这个数量。在他们着手将元数据存储由 Redis 向 TiKV 迁移时,发现 JuiceFS 提供的 load & dump 工具可以顺利搞定,但是过程中使用的内存量很高,耗时也比较长。
运维老兵都知道,系统迁移的速度和涉及到的资源开销直接影响业务稳定性,必须重视。所以,这个问题在 PR #2156[5] 中做了优化,并在功能发布时做了进一步介绍说明。
理想汽车在大数据平台中使用 JuiceFS 解决了 HDFS 扩容难成本高的问题,过程中也给予 JuiceFS 社区很多重要的反馈。比如在 PR #2580[6] 中通过减少内存拷贝,优化了 JuiceFS Hadoop Java SDK 的内存占用量。
在此,要再次感谢每一位向社区反馈使用问题,提供建议、代码的用户!
在 v1.0 LTS 之后发布的两个补丁版本的 release notes 里,大家应该也能感受到我说的:「优先将现有功能向更可靠、更稳定、更好的体验去迭代」,在 v1.0.3 中,有 15 项改进,12 项问题修复,仅有 1 项独立的新增功能(也来自现有用户的需求)。
02 社区进展
目前,已经有 85 位开发者为 JuiceFS 贡献过代码,通过 Orbit.love[7] 统计,除了 Juicedata 的团队成员,有15 位在 GitHub 中参与互动超过 20 次;通过 OSSInsight[8] 统计,已经有很多公司参与到 JuiceFS 社区中;7 位用户在 Meetup 中分享了自己使用 JuiceFS 的实践心得[9]。
在 2022 年,JuiceFS 文件系统数量由 600 增长到 1700,活跃客户端由 2000 增长到 20000,数据总量由 2PB 增长到 55PB,文件数量由 5 亿增长到 350亿。
JuiceFS被广泛应用于多个行业,在与这些用户的交流互动中,也打开了我们自己的视野,了解到了不少前沿科技,我们非常钦佩科研人员的探索精神和为科学事业的付出,JuiceFS 非常荣幸能够参与其中。
当下,数字化转型已经渗透各个行业,数据是其中的基石,JuiceFS 作为存储系统,在用户业务架构中处于最底层,因而需要与流行的应用组件做好对接,才能服务好用户。
在 2022 年里,为 Kubernetes 服务的 JuiceFS CSI Driver 发布了 18 个版本,不管是稳定性还是易用性都有大幅提升;和 Fluid 社区联手合作为 AI 用户提供了数据集管理、调度、训练的最佳实践;在 ClickHouse 和 Elasticsearch 中提供数据分层存储已经成为用户增效降本的绝佳选择;和大数据生态,机器学习/深度学习框架的配合也是看家本事了。还有更多的组合方案会持续分享出来。
更多的用户开始关注 JuiceFS。在 GitHub 上已经收到 7,232 颗星星(统计于 2023.1.12),在 OSSInsight Distributed File Storage[10] 的统计分析中,JuiceFS 虽然才开源两年,已经上升到 No.4,继续加油!
JuiceFS 还获得了多个机构颁发的奖项,包括:
• 云计算开源产业联盟-”OSCAR 尖峰开源项目及社区”;
• 云原生产业联盟-”2022 年度云原生新锐企业”;
• 开源中国-“2022 年度优秀开源技术团队“;
• 中国互联网协会-”互联网助力经济社会化转型特色案例”:《JuiceFS 在自动驾驶领域的应用与案例》;
• 稀土掘金-“2022 人气技术团队”。
03 JuiceFS Roadmap
目前确定有下面几项特性:
第一项,支持 FoundationDB 作为元数据引擎。这个功能目前已经合入 main 分支,会在 v1.1 发布,需要的用户现在也可以自己编译 main 分支使用。
第二项,目录配额。云知声团队的吕冬冬已经贡献了 PR,还在优化迭代中,预计在 v1.1 发布。
第三项,快照。功能已经在做初步设计,之后会在社区中和大家沟通设计方案。
第四项,User and group quotas。
第五项,Write once read many (WORM)。
第四项和第五项还没有开始,也没有明确计划,如果你有建议、思路等,欢迎贡献!
最后,给各位 JuiceFS 的用户拜个早年。
作者
苏锐,Juicedata 合伙人,作为 1 号成员参与创建 JuiceFS,一直深度参与在开源社区中支持开发者使用 JuiceFS。
引用链接
[1]
PR #2024: https://github.com/juicedata/juicefs/pull/2024[2]
CSI Driver PR #408: https://github.com/juicedata/juicefs-csi-driver/pull/408[3]
CSI Driver PR #473: https://github.com/juicedata/juicefs-csi-driver/pull/473[4]
生产环境部署建议: https://juicefs.com/docs/zh/community/production_deployment_recommendations[5]
PR #2156: https://github.com/juicedata/juicefs/pull/2156[6]
PR #2580: https://github.com/juicedata/juicefs/pull/2580[7]
Orbit.love: https://orbit.love[8]
OSSInsight: https://ossinsight.io/analyze/juicedata/juicefs#people[9]
实践心得: https://juicefs.com/zh-cn/blog/user-stories[10]
OSSInsight Distributed File Storage: https://ossinsight.io/collections/distributed-file-storage
JuiceFS 社区的第二年
感谢大家的关注、使用和贡献!
我们的合伙人
兼社群助手
苏锐全天在线
用户案例
最佳实践
CSI Driver 性能分析和调优 HDFS数据迁移
跨云数据搬迁 ClickHouse架构探索
MySQL备份验证性提升10倍
关于Juicedata
Juicedata,杭州果汁数据科技有限公司是一家企业级存储服务供应商,开发了云原生分布式文件系统 JuiceFS,致力于在大数据时代下,为客户打造安全、高性能、自主可控的存储基础设施及服务。
2021年,JuiceFS 正式在 GitHub 上开源,已经获得 7.2 K star,欢迎开发者加入我们。 (github.com/juicedata/juicefs)
JuiceFS 用起来还不错,
点个“在看” 让更多人知道