ModelSight：端到端 AI 性能分析框架-常怀鑫王鹏.pdf-三个皮匠报告

1、ModelSight：端到端 AI 性能分析阿里云基础软件团队常怀鑫、王鹏在 Qwen3-235B 大模型推理中的实践落地ModelSight性能分析工具Qwen3-235B实战社区贡献ModelSight 性能分析工具端到端 AI 性能分析和观测，覆盖 CPU 和 GPU 瓶颈ModelSight:面向 AI 场景结合 Topdown 的端到端性能分析工具ModelSight 分析工具现有工具信息丰富、但缺少端到端完整视角有什么、看什么-看什么、有什么Ahmad Yasin Top Down Analysis:never lost with Xeon perf counters CERN w

2、orkshop 2013ModelSight 框架图端到端瓶颈拆分过程ModelSight 架构ModelSight 展示效果ModelSight适配Perfetto GUI效果ModelSight CLI信息案例：SGLang overlap scheduleModelSight 分析案例禁止连续 prefill 时的 overlap 调度，TTFT 平均优化 24.6%CPULaunchOutputGPULaunchOutputLaunchOutputCPULaunchOutputGPULaunchOutputLaunchOutputCPULaunchGPULaunchOutputLaun

3、chOutputOutputCPULaunchGPULaunchOutputOutputForwardForwardForwardForwardForwardForwardForwardForwardForwardForwardForwardNormal decodeOverlap decodeOverlap prefillNormal prefillTTFTTTFT案例：SGLang overlap schedule 优化效果ModelSight 分析案例禁止连续 prefill 时的 overlap 调度，TTFT 平均优化 20%Qwen3-235B 实战PD 分离+TP/DP/EP 并

4、行策略，综合优化性能提升 2.12 倍使用 PD 分离、DP/TP/EP、DeepEP、TBO、DeepGemm 等优化Qwen3-235B 推理模型在 H20 上的优化实践使用 12 张 H20 显卡组成 1P1D 最小部署单元，其中 Prefill 实例采用DP4+EP4 配置，Decode 实例采用 DP8+EP8 配置在满足 SLO 约束的条件下，相比基线单卡等效吞吐提升 2.12 倍关键优化技术：1.并行与负载均衡优化：采用 EP（Expert Parallelism）并行策略与 EPLB（Expert-Parallel Load Balancing）机制，结合 MTP（Multi-

5、Tensor Prediction），显著提升计算资源利用率。2.高效计算内核：集成 DeepGemm 与 FlashInfer，加速矩阵运算与注意力推理，降低延迟并提升吞吐。3.调度优化：通过 Overlap Schedule 优化，将 TTFT（Time To First Token）平均降低 20%。4.数据并行负载均衡：优化 DP（Data Parallelism）中的负载分配，实现 token throughput 提升 7.5%。SGLang 社区贡献SGLang 可观测+调度负载均衡优化通过请求可观测+Pipeline 可观测支持性能分析SGLang 框架可观测实现请求可观测：通

6、过 Jaeger 前端观测单个请求执行过程Pipeline 可观测：通过 Perfetto UI 观测所有请求在 Prefill Decode Server 上流水线处理的过程，观测粒度到 Prefill 和 Decode loop使用可观测能力发现调度问题并优化SGLang Router&Scheduler 优化使用 ModelSight 观测请求在不同的 Prefill 和 Decode Server 间的负载是否均衡，选择合理的调度策略，性能提升 30%使用 SGLan

ModelSight：端到端 AI 性能分析框架-常怀鑫 王鹏.pdf

相关报告

ModelSight：端到端 AI 性能分析框架-常怀鑫王鹏.pdf