04-yun-yuan-sheng-ping-tai-xia-da-yu-yan-mo-xing-pd-fen-chi-jia-gou-de-gui-mo-hua-tiao-zhan-yu-shi-jian-guo-tong-yu-xu-zhi-hao-.pptx

编号:1035840 PPTX 21页 8.68MB 下载积分:VIP专享
下载报告请您先登录!

1、云原生平台下大语言模型PD分离架构的规模化挑战与实践,阿里云容器服务团队,2025/11/15,郭彤宇&徐之浩,CONTENT,目录,01,背景&挑战,02,What is RoleBasedGroup,03,RoleBasedGroup核心特性,04,EngineRuntime,05,最佳实践,云原生平台部署大语言模型,Prefill(预填充)理解问题阶段 从用户输出的Prompt到生成第一个Token的过程,Decode(解码)逐字回答阶段 生成第二个Token到最后一个Token的过程,StatefulSet,one GPU,multi GPUs,SingleNode,LeaderWor

2、kerSet(LWS),Multi Pods on Multi Node,MultiNodes,PD分离,部署架构,部署常用工作负载,背景,云原生平台部署大语言模型,Multi Pods on Multi Node,PD分离架构生产落地的问题与挑战,资源动态性&有状态性,有状态应用迁移、故障重建、升级成本高传统弹性指标失准缺少KVCache Aware的拓扑调度机制,运行可靠性,多角色协同升级、回滚操作困难,需要人工介入灰度过程流量验证困难缺少多级故障恢复机制,存在及联故障雪崩风险,部署&运维复杂性,多角色间强顺序依赖部署模板维护复杂缺失角色间服务发现机制缺失多角色协同伸缩机制缺少一体化部署方

3、案,核心问题:PD分离架构的推理服务作为一个需要多角色协同工作的有状态应用,如何在处理Prefill和Decode在部署、运维过程中协作机制的同时,结合Router和KVCache Store提供一体化部署方案。,RoleBasedGroup,Multi Pods on Multi Node,RBG是SGLang社区开源的一种面向多角色协同工作场景设计的工作负载,旨在解决多角色场景下的生命周期管理难题,包括多角色的创建、调度、升级、故障自愈、服务发现等能力。,简介,项目地址:https:/,RoleBasedGroup,LeaderWorkerSet(LWS),Multi Pods on Mu

4、lti Node,MultiNodes,GPU Node,MooncakeStore,KVCacheStore,GPU Node,MooncakeStore,MooncakeStore,MooncakeStore,MooncakeStore,KVCacheStore,KVCacheStore,MooncakeStore,MooncakeStore,KVCacheStore,RoleBasedGroup Data Plane,RoleBasedGroup Control Plane,RoleBasedGroup Controller,RoleBasedGroup Addons,Kubernete

5、s,Logical Distributed KVCache Pool,推理套件一体化部署,KVCache Manager,GPU Node,GPU Node,EngineRuntime Manager,RoleBasedGroup核心特性,Extensive:可扩展多角色定义,模版抽象 减少冗余定义,自定义角色依赖与负载类型,EngineRuntime灵活注入,RoleBasedGroup核心特性,Extensive:Mooncake Integration,RoleBasedGroup核心特性,Stable:滚动升级&原地升级,Replica has been updated Replica

6、 hasnt been updated Replicas in rolling update,Role-A,原地升级保证对于镜像版本的更新仅重启容器升级后网络、拓扑等信息不变,RBG,Role-B,RoleBasedGroup核心特性,Stable:故障自愈&原地恢复,Prefill,Worker,Decode,RoleBasedGroup,Restart Pod or Restart RBG or Restart a role instance based on Policy,Worker,Worker,Worker,Worker,Worker,ConfigurablerestartPoli

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(04-yun-yuan-sheng-ping-tai-xia-da-yu-yan-mo-xing-pd-fen-chi-jia-gou-de-gui-mo-hua-tiao-zhan-yu-shi-jian-guo-tong-yu-xu-zhi-hao-.pptx)为本站 (data) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠