《何蔚然-Mooncake 分离式推理架构创新与实践.pdf》由会员分享,可在线阅读,更多相关《何蔚然-Mooncake 分离式推理架构创新与实践.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、Mooncake Mooncake 分离式推理架构分离式推理架构创新与实践创新与实践演讲人:何蔚然目 录01大规模推理挑战02单点性能优化03分离式架构04未来展望01大规模推理挑战大规模推理挑战优雅的集群过载Kimi 智能助手+开放平台每日贡献海量请求,由多个负载特点不一的子业务系统共同支撑典型负载特点偏向 Long Context严格的 SLO 保证集群压力过载为此设计了特殊的并行和调度策略成本比成本比 20232023 年下降超年下降超 2020 倍倍大规模推理挑战推理降本价值观推理成本越来越低,模型智能越来越高 不以牺牲智能为代价做降本更低的推理成本=更省的模型结构+更便宜的硬件 更便
2、宜的 Long Context=更快的 Attention 计算+更小的 KVCache 更便宜的 Generation=更大的 Batch Size+更 Decode 友好的并行方式实际应用成本:长文实际应用成本:长文 Prefill Prefill 很关键,总体看很关键,总体看 Generation Generation 成本才是大头成本才是大头大规模推理挑战自动运维与故障定位推理实例 快速拉起 及 动态切换硬件巡检-节点隔离潮汐资源 长时、离线任务 轻量训练任务超长上下文性能挑战Full Attention 耗时过长,Llama3 1M 可能需要数十分钟多轮对话重复计算 KV 浪费大量
3、GPU Hours长文本 Decode IO 压力显著高,成为成本大头KVCache 占用大量显存,影响 Batch Size 上限Prefill 峰值显存高,单点 Decode Batch Size 进一步下降Batch Size 偏小导致 Matmul 性能低下02单点性能优化单点性能优化混合并行策略 Tensor ParallelismTensor Parallelism:广泛使用的算力并行方案,通信代价高 Pipeline ParallelismPipeline Parallelism:适用于离线/长时大批量处理场景 Expert ParallelismExpert Paralleli
4、sm:不同负载选择不同的专家并行方向 Context Parallelism(Ring/AllToAll)Context Parallelism(Ring/AllToAll):高效分摊长文本算力需求 ChunkedChunked Pipeline ParallelismPipeline Parallelism:超长文推理完美掩盖计算通信 Data Parallelism(not LB)Data Parallelism(not LB):单卡完整计算单组请求减少通信代价多种并行方式可以共享同一个 Comm Group单点性能优化长上下文推理优化 Moonshot Sparse AttentionM
5、oonshot Sparse Attention:无损长文压缩降低 TTFT,降低 KVCache 大小 Cache BlendCache Blend:基于 RAG 的预计算,大幅减少 Attention 时间 Dynamic MoEDynamic MoE:简单 Token 激活少量参数,提升 Batch Size 上限 Speculative DecodingSpeculative Decoding:共享 KVCache&Expert IO,高效生成 Easy Tokens CascadeCascade AttentionAttention:长上文短对话多任务共享 KVCache IO Fi
6、neFine-Grained CUDA GraphGrained CUDA Graph:显存与 Kernel 并行的 Trade Off03Mooncake 推理系统分离式架构设计场景Prefill 满足 SLO 最大化 MFU,追求 算力算力/Decode 满足 SLO 逼近 Roofline,追求 带宽带宽/显卡定价有错位,带来套利空间最大化吞吐=SLO+Long Context 限制下的过载 TTFT 保持较低水位 TBT 稳定快于阅读速度有效场景:多轮对话、热点事件、System Prompt分离式架构 M