当前位置:首页 > 报告详情

何蔚然-Mooncake 分离式推理架构创新与实践.pdf

上传人: 张** 编号:182391 2024-11-01 20页 1.58MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本次演讲主要介绍了Mooncake分离式推理架构的创新与实践。在大规模推理挑战方面,由于Kimi智能助手和开放平台每日处理的海量请求,设计了特殊的并行和调度策略,使得成本比2023年下降了20倍。在单点性能优化方面,通过混合并行策略、长上下文推理优化等方法,提升了模型的推理性能。Mooncake推理系统的分离式架构设计,使得Prefill满足SLO最大化MFU,追求算力/¥,Decode满足SLO逼近Roofline,追求带宽/¥。此外,通过异构推理显卡和并行策略的不同,实现了机间RDMA通信带宽、RAM容量和带宽、SSD/OSS多级缓存的最大化利用。未来展望中,提到了开源计划、硬件能力展望以及Mooncake Store: Unified KVCache File System等。
"大规模推理挑战有哪些?" "如何优化单点性能?" "分离式架构未来展望如何?"
客服
商务合作
小程序
服务号
折叠