当前位置:首页 > 报告详情

ModelSight:端到端 AI 性能分析框架-常怀鑫 王鹏.pdf

上传人: 表表 编号:1152828 2026-02-14 17页 7.82MB

1、ModelSight:端到端 AI 性能分析阿里云基础软件团队常怀鑫、王鹏在 Qwen3-235B 大模型推理中的实践落地ModelSight性能分析工具Qwen3-235B实战社区贡献ModelSight 性能分析工具端到端 AI 性能分析和观测,覆盖 CPU 和 GPU 瓶颈ModelSight:面向 AI 场景结合 Topdown 的端到端性能分析工具ModelSight 分析工具现有工具信息丰富、但缺少端到端完整视角有什么、看什么-看什么、有什么Ahmad Yasin Top Down Analysis:never lost with Xeon perf counters CERN w

2、orkshop 2013ModelSight 框架图端到端瓶颈拆分过程ModelSight 架构ModelSight 展示效果ModelSight适配Perfetto GUI效果ModelSight CLI信息案例:SGLang overlap scheduleModelSight 分析案例禁止连续 prefill 时的 overlap 调度,TTFT 平均优化 24.6%CPULaunchOutputGPULaunchOutputLaunchOutputCPULaunchOutputGPULaunchOutputLaunchOutputCPULaunchGPULaunchOutputLaun

3、chOutputOutputCPULaunchGPULaunchOutputOutputForwardForwardForwardForwardForwardForwardForwardForwardForwardForwardForwardNormal decodeOverlap decodeOverlap prefillNormal prefillTTFTTTFT案例:SGLang overlap schedule 优化效果ModelSight 分析案例禁止连续 prefill 时的 overlap 调度,TTFT 平均优化 20%Qwen3-235B 实战PD 分离+TP/DP/EP 并

4、行策略,综合优化性能提升 2.12 倍使用 PD 分离、DP/TP/EP、DeepEP、TBO、DeepGemm 等优化Qwen3-235B 推理模型在 H20 上的优化实践使用 12 张 H20 显卡组成 1P1D 最小部署单元,其中 Prefill 实例采用DP4+EP4 配置,Decode 实例采用 DP8+EP8 配置在满足 SLO 约束的条件下,相比基线单卡等效吞吐提升 2.12 倍关键优化技术:1.并行与负载均衡优化:采用 EP(Expert Parallelism)并行策略与 EPLB(Expert-Parallel Load Balancing)机制,结合 MTP(Multi-

5、Tensor Prediction),显著提升计算资源利用率。2.高效计算内核:集成 DeepGemm 与 FlashInfer,加速矩阵运算与注意力推理,降低延迟并提升吞吐。3.调度优化:通过 Overlap Schedule 优化,将 TTFT(Time To First Token)平均降低 20%。4.数据并行负载均衡:优化 DP(Data Parallelism)中的负载分配,实现 token throughput 提升 7.5%。SGLang 社区贡献SGLang 可观测+调度负载均衡优化通过请求可观测+Pipeline 可观测支持性能分析SGLang 框架可观测实现请求可观测:通

6、过 Jaeger 前端观测单个请求执行过程Pipeline 可观测:通过 Perfetto UI 观测所有请求在 Prefill Decode Server 上流水线处理的过程,观测粒度到 Prefill 和 Decode loop使用可观测能力发现调度问题并优化SGLang Router&Scheduler 优化使用 ModelSight 观测请求在不同的 Prefill 和 Decode Server 间的负载是否均衡,选择合理的调度策略,性能提升 30%使用 SGLan

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **ModelSight工具**:端到端AI性能分析工具,覆盖CPU/GPU瓶颈,支持Perfetto GUI和CLI,用于Qwen3-235B等大模型推理优化。 2. **Qwen3-235B优化**:采用PD分离+TP/DP/EP并行策略,结合DeepGemm、FlashInfer等技术,综合性能提升2.12倍,TTFT平均降低20%。 3. **SGLang调度优化**:通过Overlap Schedule优化TTFT 24.6%;DP负载均衡优化提升token throughput 7.5%;Router负载均衡优化性能提升30%。 4. **关键技术**:EP并行+EPLB机制、DeepGemm/FlashInfer内核加速、Pipeline可观测(Perfetto)实现精细化调度分析。
**AI性能瓶颈?** **Qwen3优化秘籍?** **调度优化30%?**
客服
商务合作
小程序
服务号
折叠