当前位置:首页 > 报告详情

石新飞_RTP-LLM:阿里大模型推理引擎.pdf

上传人: 柒柒 编号:1268201 2026-06-13 35页 6.73MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **大模型推理优化**:通过Continuous Batching的PD分离(Prefill与Decode分离),实现稳定TPOT,利用RDMA传输KV Cache,分层传输减少请求时间。 2. **MOE专家模型**:通过Router选择专家,增加模型规模同时降低单Token成本;Qwen Coder采用4TP+8EP分布式部署,支持MicroBatch重叠与专家均衡。 3. **MTP投机采样**:主模型与草稿模型并行,单步生成多Token(如示例中从Token 9生成12),总时延下降,步数影响性能。 4. **分布式架构效果**:有Master场景下,TTFT Avg从1.08s降至479ms(降50%),prefill排队时间Avg从1.99s降至120ms。 5. **未来方向**:Python化模型描述(类比Hugging Face),CUDA Graph优化CPU开销,Attention与FFN分离解决长序列KV Cache线性增长问题。
**PD分离优势?** **MOE如何降本?** **MTP提速秘诀?**
客服
商务合作
小程序
服务号
折叠