当前位置:首页 > 报告详情

共建大模型推理生态:Mooncake、KTransformer 与 SGLangT-杨珂.pdf

上传人: 表表 编号:1152889 2026-02-14 26页 2.93MB

1、共建大模型推理生态:Mooncake、KTransformers 与 SGLang杨珂 趋境科技技术专家|Mooncake 核心贡献者区庆亮 清华大学研究生|KTransformers 核心开发者Kimi 底层推理架构 承载了 Kimi 80%以上的流量 将 Kimi 的吞吐量提升了 75%在高负载情况下仍严格保障 SLOMoonshot+Tsinghua KVCache.AI teamFAST 25 Best paperMooncake:以 KVCache 为中心的分离式架构以存换算全局共享的分布式 KVCache 存储基于 KVCache 命中率与系统负载进行请求路由Mooncake:以

2、KVCache 为中心的分离式架构 分离式架构将 Prefill 与 Decode 解耦到不同节点上执行Mooncake:联合开源在 GitHub活跃的社区:已有 133 位贡献者欢迎大家使用和参与!Mooncake:联合开源在 GitHubMooncake 系统架构RL DisaggregationEPD DisaggregationElastic Large EPMooncake EPMooncake StoreMooncake TEMooncake TEMooncake 逐步演进为大模型服务的 通信与存储 基础设施Distributed KVCache PoolMooncake Stor

3、ePD DisaggregationMooncake TEModel WeightModel Weight LoadingMooncake TELLM 推理服务从传统的单体架构演进至异构、解耦式架构关键特性多网卡池化拓扑感知的路径选择Transfer Engine:高性能通信库基于 RDMA 的极速传输性能87 GB/s 4200 Gbps,RoCE190 GB/s 8400 Gbps,RoCE关键特性多网卡池化拓扑感知的路径选择Transfer Engine:高性能通信库NIXL Bench:UCX and Mooncake关键特性多网卡池化拓扑感知的路径选择支持多种协议和硬件,并提供统一的

4、接口多语言 API 支持Transfer Engine:高性能通信库BarexTransportHIPTransport关键改进静态绑定 动态加载固定调度 自适应路由:基于实时工作负载与设备健康状态容错能力增强:秒级故障检测和容错TENT:下一代 Transfer Engine Workload:DeepSeek-R1-W8A8 model with a 4K input Comprises 61 layers,each containing 32 blocks of 144 KB,consisting of a 128 KB NoPE block and a 16 KB RoPE block

5、首个面向大规模 EP 的容错通信库关键特性:容错、恢复、弹性集合通信库 Mooncake PG(Mooncake Process Group,也叫 Mooncake Backend)在 Mooncake TE 之上实现的集合通信(allreduce,allgather,etc.)兼容 PyTorch Distributed APIMooncake EP基于 IBGDA兼容 DeepEP API,兼容 EPLBMooncake Backend&Mooncake EP8 NICs,400 Gbps bandwidthMooncake Store:分布式缓存关键特性分布式 KV Cache 共享:一

6、次存储,全局可用弹性资源伸缩:支持动态增加或移除存储节点端到端零拷贝:在源内存与目标内存之间直接发起 RDMA 读/写操作,传输速度仅受RDMA 网络带宽限制端到端零拷贝Mooncake Store:分布式缓存内存分配优化灵活可配置的存储选项Global allocator、Per-segment allocatorSeg0:100 GBSeg1:200 GBStore 2Seg0:750 GBStore 1Seg0:400 GBStore 0Per-segment allocatorPut requestKey=Key-stringValue=Value-dataReplica-num=2S

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **Mooncake架构**:以KVCache为中心的分离式架构,解耦Prefill与Decode,全局共享分布式KVCache,提升Kimi 75%吞吐量,保障高负载SLO。 2. **高性能通信**:Transfer Engine基于RDMA达190GB/s(8×400Gbps),TENT支持容错与自适应路由;Mooncake PG实现集合通信。 3. **分布式缓存**:Mooncake Store支持零拷贝、弹性伸缩,内存分配优化(Per-segment/Global Allocator),利用率提升。 4. **生态集成**:与SGLang深度结合,支持PD分离、KVCache共享、模型权重快速加载;兼容昇腾CANN/HIXL。 5. **应用与开源**:承载Kimi 80%流量,获FAST’25 Best Paper,GitHub 133贡献者,金融/医疗等领域落地。
**Mooncake是什么?** **如何提升推理效率?** **为何选择开源生态?**
客服
商务合作
小程序
服务号
折叠