1、Kubernetes 实战:面向 AI 负载的 FUSE 零停机升级,Juicedata 全栈工程师,2025/11/15,朱唯唯,朱唯唯Juicedata 全栈工程师,JuiceFS CSI Driver 和 Fluid 的 Maintainer,负责 JuiceFS 在 Cloud Native 生态中的持续演进。,形象照,CONTENT,01,背景:面向 AI 负载的文件系统,02,FUSE 文件系统稳定性的挑战,03,JuiceFS 的解决方案,01 背景:面向 AI 负载的文件系统,海量数据性能要求高一处写,多地读,多样读稳定性要求极高,AI 负载对存储的要求,JuiceFS 面向
2、AI 负载的文件系统,数据和元数据分离架构对象存储存放海量数据独立元数据集群应对繁重元数据操作丰富客户端接口满足多种调用方式,同时提供缓存加速读写12k+stars社区活跃,易上手,运维简单,JuiceFS 如何在 Kubernetes 中工作,原生 PV/PVC 使用方式客户端单独运行在 Pod 中(Mount Pod)与 CSI 解耦隔离性、可观测性强Mount Pod 与应用同生命周期不同应用间可共享 Mount Pod,02-FUSE 文件系统稳定性的挑战,挂载点无法自动恢复,手动恢复的时间造成 GPU 的浪费故障时,读写中断,未 flush 的数据丢失负载高时,故障造成业务 hang
3、 死,甚至 EIO升级操作繁琐,业务中断,03 JuiceFS 的解决方案,1.故障时 Mount Pod 自动恢复2.Mount Pod 平滑升级二进制升级:Pod 不重启,仅升级 Pod 中的客户端二进制Pod 重建升级:更新镜像,重建 Pod 升级,二进制平滑升级和自恢复,优点:速度快,风险小缺点:不能更新 Mount Pod 的其他配置 适用场景:仅需升级客户端的情况,Pod 平滑重建升级,优点:可以更新任何 Mount Pod 的配置缺点:升级时间可能较长,业务极短时间内访问慢一点适用场景:需要永久升级客户端、需要更新 Mount Pod 的配置、需要更新挂载参数,使用方式:图形化界面简单、易操作,回顾,AI 负载下的文件系统FUSE 文件系统稳定性的挑战JuiceFS 如何应对挑战二进制升级Pod 重建升级,感谢聆听,#加入 JuiceFS 用户组,#关注 JuiceFS 公众号,