当前位置:首页 > 报告详情

10-llm-dmian-xiang-yun-yuan-sheng-de-da-mo-xing-bu-shu-kuang-jia-yu-shi-jian-lu-chuan-jia-.pptx

上传人: d*** 编号:1035861 2026-01-04 22页 22.89MB

1、LLM-D:面向云原生的大模型部署与实践,DaoCloud AI Infra/LLMOps 产品负责人,2025/11/11,船长(samzong),DaoCloud AI Infra/LLMOps 产品负责人,专注 AI Infra 和 LLMOps 的开源开发者,活跃于 Kubernetes、Kueue、Karmada、Istio、HAMi、llm-d 等项目。关注 GPU 调度、模型推理性能、分布式系统工程实践。喜欢做工具、写代码、造轮子,用开源方式探索更高效的 AI 基础设施。,形象照,船长(samzong),CONTENT,目录,01,背景介绍,02,LLM-D 是什么,03,LLM

2、-D 快速上手,04,LLM-D 开源参与,大模型和模型推理的发展,大模型推理已成为核心算力消耗环节。模型规模(参数量、KV Cache 体积)持续增长,GPU 内存成为瓶颈。推理服务需同时满足高 QPS 与低延迟,但传统单体推理架构在资源利用率和灵活性上严重受限。,大模型和模型推理的发展,单体式推理架构已无法支撑多模型、多租户、高并发的生产级负载。,为什么需要分布式推理(分体式),将 Prefill 与 Decode 解耦为独立阶段。通过网络化 KV Cache 传输连接两者。实现独立扩缩容与动态调度。通过 Inference Gateway(IGW)。,vllm 部署的一些局限性,vLLM

3、 的设计是高效服务引擎,其关注点主要是单机或单节点多GPU环境“优化 KV 缓存”、“连续批理”“PagedAttention”。当我们把它用于分布式分体式推理时,会遇PrefillDecode 拆分和调度、路由多节点、KV 缓存跨节点。,8xH200(or H20)GPUs(141GB 8),kubernetes 一个好的选择,大规模 LLM 推理服务需要异构 GPU、缓存路由、请求形态识别与资源弹性扩缩,可监控扩缩与故障自愈,而这些正是 K8s 成熟具备的分布式调度系统的能力。同时 Kubernetes 内也拥有大量利用开源项目来支撑。-Kueue-HAMi-GAIE,vllm-proje

4、ct/product-stack,LLM-D,NVIDIA Dynamo,llm-d 云原生分布式推理框架,开源、Kubernetes 原生、兼容多种加速器的推理框架明确且易用的推荐实践路径可复现的基准测试具备 LLM 感知能力的推理网关和自动扩缩容遵循开放标准,具备高度可定制和可组合性,IGW 是 llm-d 扩展 Gateway API 的组件,把 request-level routing 和 Prefill/Decode 调度能力拉到 API 层。它提供:用来感知请求体、前缀缓存与分体式需求,而不是只看 HTTP header。,https:/,Inference Gateway Ex

5、tension(IGW),ModelService,Helm Chart 实现 大模型与 LoRA 的声明式部署与管理,简化推理服务的生命周期,统一 llm-d 部署方式:快速、可复现的推理部署支撑分布式性能调优与实验为 llm-d 提供标准化 Inference 入口,https:/,P/D Inference Scheduler,EPP(extends the GAIE)https:/Prefill 与 Decode 流程基于推理 Pod 的指标,采用前缀缓存感知与负载感知的智能路由。支持可配置阈值:当 prompt 长度超过预设限制时,自动触发远端 Prefill。通过 decode-s

6、idecar 代理实现请求的编排与路由。,https:/,Routing Sidecar,https:/,Routing Sidecar 是与 Decode Pod 同部署的轻量代理,它在 Prefill/Decode 整个生命周期中负责:1.接受来自 Inference Gateway Scheduler 的路由决策,维护 decode worker 的 KV chunk metadata。2.在需要远端 Prefill 时充当桥梁,发送 max_tokens=1 触发 prefill;完成后把 KV transfer 结果同步到 decode 端,并

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
客服
商务合作
小程序
服务号
折叠