当前位置:首页 > 报告详情

杨珂_Mooncake:解耦式架构和以存换算优化大模型推理.pdf

上传人: 柒柒 编号:1268205 2026-06-13 50页 12.42MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **背景与挑战**:大模型推理进入长上下文时代,成本飙升(如DeepSeek R1年推理成本超$32M),传统扩展律(更大模型/数据/上下文)面临瓶颈。 2. **Mooncake架构**:基于KVCache为中心的解耦式架构,分离Prefill(计算密集)与Decode(带宽密集),通过硬件适配(如H800用于Prefill)提升效率。 3. **核心优化**: - **KVCache复用**:50%真实场景KVCache可复用,但本地缓存不足,需分布式存储(百TB级)。 - **零拷贝传输**:RDMA实现40GB KVCache(128k token)87GB/s高速传输。 4. **性能提升**:Kimi应用中吞吐量提升75%,vLLM集成后TTFT降低69.1%,请求吞吐量提升191%。 5. **开源与生态**:支持多框架(SGLang、vLLM、NVIDIA Dynamo),工业级部署于数千GPU。
**Mooncake是什么?** **KV缓存如何优化?** **推理成本如何降低?**
客服
商务合作
小程序
服务号
折叠