当前位置:首页 > 报告详情

孟令公-大模型在得物部署优化实践.pdf

上传人: 拾亿 编号:751725 2025-07-29 52页 8.80MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了得物在部署大型模型方面的实践和优化策略。关键点如下: 1. **性能优化**:通过CPU与GPU分离设计,解决Python GIL锁问题,提升GPU利用率和系统性能,QPS从4.5提升至27.43。 2. **显存管理**:提出Paged Attention和Radix Attention方法解决显存碎片问题,其中Paged Attention使得吞吐量比HuggingFace Transformers提升24倍。 3. **推理速度**:采用多卡推理和张量并行,推理速度翻倍;通过Chunked Prefill处理请求分块,平均响应时间提升2倍。 4. **部署策略**:DeepSeek模型采用专家并行和MTP结构,以及推测解码技术,单机部署下最大tokens达270 tokens/s,双机部署(IB网络)可达280 tokens/s。 5. **训练与部署平台**:得物大模型训练推理平台支持一键发起微调训练与推理部署,利用多Lora方式部署,提高部署效率。 文章强调了优化背后的思路,并分享了实践中显著提升性能的核心数据和方法。
"如何提升大模型吞吐量?" "DeepSeek部署有哪些黑科技?" "多卡推理速度翻倍的秘诀?"
客服
商务合作
小程序
服务号
折叠