车漾-PD分离架构从大规模到小规模普惠场景实践.pdf-在线下载-三个皮匠报告

1、PD分离架构：从大规模到小规模普惠场景实践车漾|阿里云车漾阿里云高级技术专家阿里巴巴云原生应用平台高级技术专家，从事 Kubernetes 和容器相关产品的开发，重点探索利用容器技术加速异构计算、深度学习、边缘计算等广泛场景方案的交付与落地，同时是对于开源社区的积极参与者。他是CNCF旗下开源项目Fluid的创始人之一，也是核心维护者。也是业界第一个 GPU 共享调度的主要作者和维护者。他还是Alluxio开源项目的管理委员会成员（PMC Member），Kubernetes，Docker和Kubeflow等社区的积极贡献者。目录CONTENTSI.大模型服务落地的趋势与挑战II.微服务化

2、管理LLM推理III.AI任务调度IV.AI负载可观测V.集群稳定性VI.未来工作PART 01大模型服务落地的趋势与挑战企业落地Gen-AI的趋势（图表均由 GPT-5-Chat-0807 分析麦肯锡、Gartner、赛迪、艾瑞等调研报告，以及厂商工程实践和白皮书，生成代码绘制）从试验到规模化1.2023 年生成式 AI 的爆发试点期，大量企业进行 PoC。2.2024 年进入早期规模化，出现跨部门应用与多场景覆盖。3.2025 年将进入“生产系统化”阶段，生成式 AI/LLM 被视为基础设施。趋势解读：1.全球：23年33%快速攀升，26年预计80%通过API、SaaS或自研使用大模

3、型。2.中国：起步稍晚但增长快，预计26年中大型企业采纳率接近 65%。3.增速高点2425年，得益于行业解决方案成熟化、成本下降及员工培训体系出现。（图表均由 GPT-5-Chat-0807 分析麦肯锡、Gartner、赛迪、艾瑞等调研报告，以及厂商工程实践和白皮书，生成代码绘制）企业落地Gen-AI的趋势Day 0Day 1Day 2模型选择和评估阶段目标典型关注点生产环境部署与运维推理服务模型服务与已有业务集成、改造和替代1.Deepseek/Qwen 推理速度benchmark和优化（TTFT，TPOT，Throughput，Cost）1.微服务化管理推理服务全生命周期2.提升GPU集

4、群稳定性和资源调度效率，持续观测和优化推理服务性能和成本1.模型服务标准接口和编排2.模型驱动的新应用架构（如RAG，Multi-Agents），MCP等3.面向业务领域持续调优模型效果大量用户今天所处位置直接使用MaaS（token API服务）企业落地LLM服务的路线图1推理负载管理，运行时与监控，Rolling Update，灰度发布，弹性伸缩，路由与负载均衡微服务化管理LLM推理2GPU资源和任务多维监控，在线AI profilingAI负载可观测3Gang，拓扑感知，优先级队列，多集群跨地域调度AI任务调度4GPU故障发现、诊断与自愈异构集群稳定性Day1 关键能力02微服务化管理L

5、LM推理LLM推理负载 RoleBasedGroup基于开源 PD 分离方案，Qwen3-32B 在 8 卡 GPU 机器测试，Goodput 提升 3.46 倍（单卡吞吐 370.06 Token/s 提升到 1283.27 Token/s），平均 TPOT 下降 60%（66.81ms 下降到27ms)64并发，Avg TPOT60%Cold start latency85%卡均 GoodPut，TPOP 100M$417 unexpected interruptions,58.7%GPU related“Despite the large number of failures,signi

6、ficant manual intervention was required only 3 times during this period,with the rest of issues handled by automation.”-The llama3 herd of models 自动重调度AI任务 AI训练任务弹性伸缩支持多种checkpoint&restore方案GPU任务错误恢复能力TrainingJobControllerLauncherWorker-0VMWorker-1VMWorker-3V