当前位置:首页 > 报告详情

07-ai-xun-lian-yu-tui-li-chang-jing-xia-de-jing-xiang-fen-fa-shi-jian-yang-kai-yong-.pptx

上传人: d*** 编号:1035844 2026-01-04 24页 15.71MB

1、AI训练与推理场景下的镜像分发实践,蚂蚁集团 软件开发工程师,2025/11/15,杨开勇,CONTENT,目录,01,OCI镜像的改进,02,AI镜像分发实践,03,模型权重镜像分发实践,04,后续规划,OCI(Open Container Initiatives)Image Spec 定义容器镜像格式indexmanifestconfiglayers,OCI镜像简介,镜像层必须完整下载并解压镜像拉取时间占容器启动时间的76%只有6.4%数据被容器实际读取元数据更新,导致整个镜像层重新存储和下载被删除与修改多次的数据,依然会被下载数据去重率低,层间/镜像间冗余数据,OCI镜像的问题,AI相关

2、的镜像越来越大引擎镜像:数十GB(构建 扫描 拉取耗时都很长)模型镜像:上百GB,TB级别,OCI格式的引擎镜像拉取时间,达到分钟级别业务容器启动耗时长,降低GPU的利用率无法快速扩容满足业务需求,CNCF毕业项目Dragonfly的镜像加速子项目阿里云,蚂蚁集团,字节跳动等联合开发大规模生产环境验证,蚂蚁每日千万级别容器创建,OCI镜像的改进-Nydus,OCI格式改进数据和元数据分离Chunk级别组织数据,OCI镜像的改进-Nydus,按需加载Fuse 处理文件读IO按需拉取镜像数据,CONTENT,目录,01,OCI镜像的改进,02,AI镜像分发实践,03,模型权重镜像分发实践,04,后

3、续规划,源站带宽受限如何利用集群内网带宽,镜像分发困局,基于 P2P 的镜像加速和文件分发系统CNCF毕业项目最大限度的利用节点之间闲置带极大减少回源流量Nydus小IO优化 降低90%回源,镜像P2P分发加速-Dragonfly,Container Registry,Store&Format,Manager 管理集群关系、动态配置并提供一个控制台Scheduler 为下载节点调度一组父节点Peer 提供了上传和下载功能,镜像P2P分发加速-Dragonfly架构,镜像加速Dragonfly+Nydus,Nydus按需加载实现容器的秒级启动,极速启动AI容器,Sglang推理引擎镜像33GiB

4、中实际读取的数据1.7GiB,占比5%OCI格式启动耗时:83.2sNydus格式启动耗时:1.2s,镜像构建支持Build From NydusBase镜像大部分不被使用From OCI 16min 6s 16GiBFrom Nydus 1min15s 255MB,镜像快速构建和扫描,镜像安全扫描场景仅扫描部分数据(配置、版本号等)使用Nydus镜像,降低到分钟级别,CONTENT,目录,01,OCI镜像的改进,02,AI镜像分发实践,03,模型权重镜像分发实践,04,后续规划,模型为中心的基础设施,基础设施正在变成以模型为中心,OCI镜像SPEC是软件打包和分发的标准,AI模型的打包和分发

5、需要新标准,模型打包分发的开放标准ModelPack,Model Image Spec,基于OCI Artifact Spec,定义了AI模型镜像的格式,包括模型的manifest、layers、config、annotation.,Model Runtime Spec(WIP),定义模型的Lifecycle、Runtime Config、Filesystem Bundle、Architecture.,ModelPack:An Open Standard for Packaging,Distributing,and Running LLMs in Cloud-Native Environmen

6、ts,Model Image Spec,annotations(略),config,layers,定义 raw 类型的media type,用于大模型权重文件压缩比低零开销,manifest,基于ModelPack的模型管理链路,Modctl:Build、Push、Pull,Model Volume,Kubernets 1.31:Read only Volumes Based On OCI Artifacts,Model CSI支持把Model Pack模型镜像挂载成Volu

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
客服
商务合作
小程序
服务号
折叠