当前位置:首页 > 报告详情

刘童旋_基于C++构建大模型推理优化框架xLLM实践.pdf

上传人: 柒柒 编号:1268183 2026-06-13 32页 5.78MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **电商AI需求**:涵盖商品图生成、短视频、AI营销、数字人、客服管理、推荐等多场景,涉及生成式AI、智能体AI与物理AI。 2. **xLLM框架优化**:基于C++构建,采用深度解耦分布式设计,实现自适应PD调度(吞吐提升1.59X-2.2X)、EPD分离调度(吞吐提升3.7X)、在离线统一调度(离线吞吐提升3X)及多层流水线执行(吞吐提升5%-10%)。 3. **核心性能数据**:TP99下降50%,资源节省60%;大模型吞吐提升3X,推理成本节省70%;多模态吞吐提升20X,标签时效性提升10X。 4. **落地效果**:支持商品理解、交互导购等场景,UCVR提升5%,活跃用户占比提升2%。
**xLLM如何优化?** **AI推理成本如何降?** **多模型协同难在哪?**
客服
商务合作
小程序
服务号
折叠