1、共建大模型推理生态:Mooncake、KTransformers 与 SGLang杨珂 趋境科技技术专家|Mooncake 核心贡献者区庆亮 清华大学研究生|KTransformers 核心开发者Kimi 底层推理架构 承载了 Kimi 80%以上的流量 将 Kimi 的吞吐量提升了 75%在高负载情况下仍严格保障 SLOMoonshot+Tsinghua KVCache.AI teamFAST 25 Best paperMooncake:以 KVCache 为中心的分离式架构以存换算全局共享的分布式 KVCache 存储基于 KVCache 命中率与系统负载进行请求路由Mooncake:以
2、KVCache 为中心的分离式架构 分离式架构将 Prefill 与 Decode 解耦到不同节点上执行Mooncake:联合开源在 GitHub活跃的社区:已有 133 位贡献者欢迎大家使用和参与!Mooncake:联合开源在 GitHubMooncake 系统架构RL DisaggregationEPD DisaggregationElastic Large EPMooncake EPMooncake StoreMooncake TEMooncake TEMooncake 逐步演进为大模型服务的 通信与存储 基础设施Distributed KVCache PoolMooncake Stor
3、ePD DisaggregationMooncake TEModel WeightModel Weight LoadingMooncake TELLM 推理服务从传统的单体架构演进至异构、解耦式架构关键特性多网卡池化拓扑感知的路径选择Transfer Engine:高性能通信库基于 RDMA 的极速传输性能87 GB/s 4200 Gbps,RoCE190 GB/s 8400 Gbps,RoCE关键特性多网卡池化拓扑感知的路径选择Transfer Engine:高性能通信库NIXL Bench:UCX and Mooncake关键特性多网卡池化拓扑感知的路径选择支持多种协议和硬件,并提供统一的
4、接口多语言 API 支持Transfer Engine:高性能通信库BarexTransportHIPTransport关键改进静态绑定 动态加载固定调度 自适应路由:基于实时工作负载与设备健康状态容错能力增强:秒级故障检测和容错TENT:下一代 Transfer Engine Workload:DeepSeek-R1-W8A8 model with a 4K input Comprises 61 layers,each containing 32 blocks of 144 KB,consisting of a 128 KB NoPE block and a 16 KB RoPE block
5、首个面向大规模 EP 的容错通信库关键特性:容错、恢复、弹性集合通信库 Mooncake PG(Mooncake Process Group,也叫 Mooncake Backend)在 Mooncake TE 之上实现的集合通信(allreduce,allgather,etc.)兼容 PyTorch Distributed APIMooncake EP基于 IBGDA兼容 DeepEP API,兼容 EPLBMooncake Backend&Mooncake EP8 NICs,400 Gbps bandwidthMooncake Store:分布式缓存关键特性分布式 KV Cache 共享:一
6、次存储,全局可用弹性资源伸缩:支持动态增加或移除存储节点端到端零拷贝:在源内存与目标内存之间直接发起 RDMA 读/写操作,传输速度仅受RDMA 网络带宽限制端到端零拷贝Mooncake Store:分布式缓存内存分配优化灵活可配置的存储选项Global allocator、Per-segment allocatorSeg0:100 GBSeg1:200 GBStore 2Seg0:750 GBStore 1Seg0:400 GBStore 0Per-segment allocatorPut requestKey=Key-stringValue=Value-dataReplica-num=2S