孟令公-大模型在得物部署优化实践.pdf

上传人：拾亿

编号：751725

2025-07-29

PDF 52页 8.80MB

《孟令公-大模型在得物部署优化实践.pdf》由会员分享，可在线阅读，更多相关《孟令公-大模型在得物部署优化实践.pdf（52页珍藏版）》请在三个皮匠报告上搜索。

1、大模型在得物部署优化实践孟令公|得物孟令公得物机器学习高级专家得物机器学习高级专家，算法工程方向，主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯，阿里等多家互联网大厂。2022年加入得物，专注于大模型相关技术，包括推理加速与各应用场景落地。目录CONTENTSI.背景II.如何设计高性能的大模型推理引擎III.通用大模型性能优化之路解决显存碎片问题，大幅提升吞吐Paged Attention缓存之前请求的计算结果，减少重复计算Radix Attention请求分块处理，避免单个请求卡顿Chunked Prefill使用多卡推理，推理速度翻倍小模

2、型推理+大模型验证推测解码IV.DeepSeek性能优化DeepSeek：专家并行 VS Tensor并行DeepSeek：MTP与推测解码DeepSeek:单机部署与双机部署V.得物大模型训练推理平台得物大模型训练推理平台：一键发起微调训练与推理部署得物大模型训练推理平台：多lora部署方式Vi.总结与展望Deepseek-r1等大模型的火爆标志着本地部署大模型的需求日益增长。我们将探讨如何优化本地部署大模型的性能，并结合我们的实践进行评测分析。同时，我们还将分享如何在本地高效部署完整版本的Deepseek-r1大模型。优化方法大多来源于开源社区，但我们希望大家能更多关注这些优化背后的思路。

3、背景吞吐量传统上，我们用每秒请求数（QPS）来衡量吞吐量，即系统每秒能够处理多少请求。大模型有一个重要指标每秒Token数（tokens/s），它反映了系统每秒能处理的输入或输出Token数量。响应时间系统处理每个请求所需的时间。大模型有一个指标首个Token到达时间（TTFT:Time To First Token），即从开始处理请求到输出第一个Token所需的时间。背景大模型推理性能的两个关键指标性能足够高CPU与GPU分离设计扩展性好模块高内聚低耦合如何设计高性能的大模型推理引擎1.在传统的Python多线程环境中，CPU密集型任务与GPU任务会争夺GIL，导致GPU利用率低和高并发

4、场景下响应速度差。2.CPU与GPU分离解决了Python中全局解释器锁（GIL）带来的性能瓶颈问题。3.通过分离CPU与GPU，避免了GIL竞争，从而提升了GPU任务的执行效率和系统性能。CPU与GPU分离设计解决Python GIL锁带来的问题如何设计高性能的大模型推理引擎推理服务框架类型QPS耗时GPU使用率单进程设计(GPU与GPU任务分布多个线程)4.51.05s2%CPU与GPU多进程分离设计27.43437ms12%CPU与GPU分离设计性能提升如何设计高性能的大模型推理引擎CPU与GPU分离设计性能提升如何设计高性能的大模型推理引擎扩展性好的架构如何设计高性能的大模型推理引擎扩

5、展性好的架构-sglangsglang进程层面管理类如何设计高性能的大模型推理引擎KV-Cache带来显存碎片问题1.大部分推理过程都涉及注意力计算（Attention）2.每次计算都需要申请并使用一个名为 kvcache 的缓存。3.随着请求的不断增加，kvcache 的大小与数量会逐步上升，而且它会被频繁地被申请和释放。4.如果不对 kvcache 使用的 GPU 显存进行有效管理，显存碎片将大量累积，最终可能导致系统性能下降甚至崩溃。解决显存碎片问题，大幅提升吞吐Paged AttentionPaged Attention工作原理解决显存碎片问题，大幅提升吞吐Paged A

6、ttention解决显存碎片问题，大幅提升吞吐Paged Attention性能提升与 HuggingFace Transformers 相比，吞吐量可提升至 24 倍；与 HuggingFace TGI 相比，提升可达 3.5 倍。图片来自 vLLM:Easy,Fast,and Cheap LLM Serving with PagedAttentionShow CodeKVCache实现注意力计算使用KVCache解决显存碎片问题，大幅提升吞吐Paged Attention这些场景还可以优化图片来自 Fast and Expressive LLM Inference with RadixAt

孟令公-大模型在得物部署优化实践.pdf

相关报告