1、ModelSight:端到端 AI 性能分析阿里云基础软件团队常怀鑫、王鹏在 Qwen3-235B 大模型推理中的实践落地ModelSight性能分析工具Qwen3-235B实战社区贡献ModelSight 性能分析工具端到端 AI 性能分析和观测,覆盖 CPU 和 GPU 瓶颈ModelSight:面向 AI 场景结合 Topdown 的端到端性能分析工具ModelSight 分析工具现有工具信息丰富、但缺少端到端完整视角有什么、看什么-看什么、有什么Ahmad Yasin Top Down Analysis:never lost with Xeon perf counters CERN w
2、orkshop 2013ModelSight 框架图端到端瓶颈拆分过程ModelSight 架构ModelSight 展示效果ModelSight适配Perfetto GUI效果ModelSight CLI信息案例:SGLang overlap scheduleModelSight 分析案例禁止连续 prefill 时的 overlap 调度,TTFT 平均优化 24.6%CPULaunchOutputGPULaunchOutputLaunchOutputCPULaunchOutputGPULaunchOutputLaunchOutputCPULaunchGPULaunchOutputLaun
3、chOutputOutputCPULaunchGPULaunchOutputOutputForwardForwardForwardForwardForwardForwardForwardForwardForwardForwardForwardNormal decodeOverlap decodeOverlap prefillNormal prefillTTFTTTFT案例:SGLang overlap schedule 优化效果ModelSight 分析案例禁止连续 prefill 时的 overlap 调度,TTFT 平均优化 20%Qwen3-235B 实战PD 分离+TP/DP/EP 并
4、行策略,综合优化性能提升 2.12 倍使用 PD 分离、DP/TP/EP、DeepEP、TBO、DeepGemm 等优化Qwen3-235B 推理模型在 H20 上的优化实践使用 12 张 H20 显卡组成 1P1D 最小部署单元,其中 Prefill 实例采用DP4+EP4 配置,Decode 实例采用 DP8+EP8 配置在满足 SLO 约束的条件下,相比基线单卡等效吞吐提升 2.12 倍关键优化技术:1.并行与负载均衡优化:采用 EP(Expert Parallelism)并行策略与 EPLB(Expert-Parallel Load Balancing)机制,结合 MTP(Multi-
5、Tensor Prediction),显著提升计算资源利用率。2.高效计算内核:集成 DeepGemm 与 FlashInfer,加速矩阵运算与注意力推理,降低延迟并提升吞吐。3.调度优化:通过 Overlap Schedule 优化,将 TTFT(Time To First Token)平均降低 20%。4.数据并行负载均衡:优化 DP(Data Parallelism)中的负载分配,实现 token throughput 提升 7.5%。SGLang 社区贡献SGLang 可观测+调度负载均衡优化通过请求可观测+Pipeline 可观测支持性能分析SGLang 框架可观测实现请求可观测:通
6、过 Jaeger 前端观测单个请求执行过程Pipeline 可观测:通过 Perfetto UI 观测所有请求在 Prefill Decode Server 上流水线处理的过程,观测粒度到 Prefill 和 Decode loop使用可观测能力发现调度问题并优化SGLang Router&Scheduler 优化使用 ModelSight 观测请求在不同的 Prefill 和 Decode Server 间的负载是否均衡,选择合理的调度策略,性能提升 30%使用 SGLan