共建大模型推理生态：Mooncake、KTransformer 与 SGLangT-杨珂.pdf-三个皮匠报告

1、共建大模型推理生态：Mooncake、KTransformers 与 SGLang杨珂趋境科技技术专家|Mooncake 核心贡献者区庆亮清华大学研究生|KTransformers 核心开发者Kimi 底层推理架构承载了 Kimi 80%以上的流量将 Kimi 的吞吐量提升了 75%在高负载情况下仍严格保障 SLOMoonshot+Tsinghua KVCache.AI teamFAST 25 Best paperMooncake：以 KVCache 为中心的分离式架构以存换算全局共享的分布式 KVCache 存储基于 KVCache 命中率与系统负载进行请求路由Mooncake：以

2、KVCache 为中心的分离式架构分离式架构将 Prefill 与 Decode 解耦到不同节点上执行Mooncake：联合开源在 GitHub活跃的社区：已有 133 位贡献者欢迎大家使用和参与！Mooncake：联合开源在 GitHubMooncake 系统架构RL DisaggregationEPD DisaggregationElastic Large EPMooncake EPMooncake StoreMooncake TEMooncake TEMooncake 逐步演进为大模型服务的通信与存储基础设施Distributed KVCache PoolMooncake Stor

3、ePD DisaggregationMooncake TEModel WeightModel Weight LoadingMooncake TELLM 推理服务从传统的单体架构演进至异构、解耦式架构关键特性多网卡池化拓扑感知的路径选择Transfer Engine：高性能通信库基于 RDMA 的极速传输性能87 GB/s 4200 Gbps,RoCE190 GB/s 8400 Gbps,RoCE关键特性多网卡池化拓扑感知的路径选择Transfer Engine：高性能通信库NIXL Bench:UCX and Mooncake关键特性多网卡池化拓扑感知的路径选择支持多种协议和硬件，并提供统一的

4、接口多语言 API 支持Transfer Engine：高性能通信库BarexTransportHIPTransport关键改进静态绑定动态加载固定调度自适应路由：基于实时工作负载与设备健康状态容错能力增强：秒级故障检测和容错TENT：下一代 Transfer Engine Workload:DeepSeek-R1-W8A8 model with a 4K input Comprises 61 layers,each containing 32 blocks of 144 KB,consisting of a 128 KB NoPE block and a 16 KB RoPE block

5、首个面向大规模 EP 的容错通信库关键特性：容错、恢复、弹性集合通信库 Mooncake PG（Mooncake Process Group，也叫 Mooncake Backend)在 Mooncake TE 之上实现的集合通信（allreduce,allgather,etc.)兼容 PyTorch Distributed APIMooncake EP基于 IBGDA兼容 DeepEP API，兼容 EPLBMooncake Backend&Mooncake EP8 NICs,400 Gbps bandwidthMooncake Store：分布式缓存关键特性分布式 KV Cache 共享：一

6、次存储，全局可用弹性资源伸缩：支持动态增加或移除存储节点端到端零拷贝：在源内存与目标内存之间直接发起 RDMA 读/写操作，传输速度仅受RDMA 网络带宽限制端到端零拷贝Mooncake Store：分布式缓存内存分配优化灵活可配置的存储选项Global allocator、Per-segment allocatorSeg0:100 GBSeg1:200 GBStore 2Seg0:750 GBStore 1Seg0:400 GBStore 0Per-segment allocatorPut requestKey=Key-stringValue=Value-dataReplica-num=2S

共建大模型推理生态：Mooncake、KTransformer 与 SGLangT-杨珂.pdf

相关报告