当前位置:首页 > 报告详情

02-黄炜喆-xLLM在复杂业务场景下的统一调度优化实践.pdf

上传人: a****e 编号:1258674 2026-05-30 34页 9.04MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **xLLM核心优势**:京东xLLM团队面向国产芯片的LLM推理引擎,全面开源(GitHub star 1.2k),支持昇腾、寒武纪等国产芯片,性能较vllm-ascend、MindIE提升1.7X-2.2X。 2. **多优先级调度优化**:提出SlideBatching算法,动态平衡延迟与优先级,结合Hierarchical Block Manager缓解KV Cache碎片化,工业trace上整体收益及SLO满足率优于现有方法。 3. **PD分离架构**:实现Prefill与Decode解耦,消除干扰;动态调整PD实例配比,结合SLO容量感知路由策略,显著优化TPOT敏感场景性能。 4. **应用与开源**:已覆盖国企、运营商、智算中心等场景,支持GLM、DeepSeek等数十种模型,技术报告见arXiv:2510.14686。
**xLLM如何优化调度?** **PD分离有何优势?** **国产芯片支持哪家强?**
客服
商务合作
小程序
服务号
折叠