ModelSight:端到端 AI 性能分析框架-常怀鑫 王鹏.pdf

编号:1152828 PDF 17页 7.82MB 下载积分:VIP专享
下载报告请您先登录!

1、ModelSight:端到端 AI 性能分析阿里云基础软件团队常怀鑫、王鹏在 Qwen3-235B 大模型推理中的实践落地ModelSight性能分析工具Qwen3-235B实战社区贡献ModelSight 性能分析工具端到端 AI 性能分析和观测,覆盖 CPU 和 GPU 瓶颈ModelSight:面向 AI 场景结合 Topdown 的端到端性能分析工具ModelSight 分析工具现有工具信息丰富、但缺少端到端完整视角有什么、看什么-看什么、有什么Ahmad Yasin Top Down Analysis:never lost with Xeon perf counters CERN w

2、orkshop 2013ModelSight 框架图端到端瓶颈拆分过程ModelSight 架构ModelSight 展示效果ModelSight适配Perfetto GUI效果ModelSight CLI信息案例:SGLang overlap scheduleModelSight 分析案例禁止连续 prefill 时的 overlap 调度,TTFT 平均优化 24.6%CPULaunchOutputGPULaunchOutputLaunchOutputCPULaunchOutputGPULaunchOutputLaunchOutputCPULaunchGPULaunchOutputLaun

3、chOutputOutputCPULaunchGPULaunchOutputOutputForwardForwardForwardForwardForwardForwardForwardForwardForwardForwardForwardNormal decodeOverlap decodeOverlap prefillNormal prefillTTFTTTFT案例:SGLang overlap schedule 优化效果ModelSight 分析案例禁止连续 prefill 时的 overlap 调度,TTFT 平均优化 20%Qwen3-235B 实战PD 分离+TP/DP/EP 并

4、行策略,综合优化性能提升 2.12 倍使用 PD 分离、DP/TP/EP、DeepEP、TBO、DeepGemm 等优化Qwen3-235B 推理模型在 H20 上的优化实践使用 12 张 H20 显卡组成 1P1D 最小部署单元,其中 Prefill 实例采用DP4+EP4 配置,Decode 实例采用 DP8+EP8 配置在满足 SLO 约束的条件下,相比基线单卡等效吞吐提升 2.12 倍关键优化技术:1.并行与负载均衡优化:采用 EP(Expert Parallelism)并行策略与 EPLB(Expert-Parallel Load Balancing)机制,结合 MTP(Multi-

5、Tensor Prediction),显著提升计算资源利用率。2.高效计算内核:集成 DeepGemm 与 FlashInfer,加速矩阵运算与注意力推理,降低延迟并提升吞吐。3.调度优化:通过 Overlap Schedule 优化,将 TTFT(Time To First Token)平均降低 20%。4.数据并行负载均衡:优化 DP(Data Parallelism)中的负载分配,实现 token throughput 提升 7.5%。SGLang 社区贡献SGLang 可观测+调度负载均衡优化通过请求可观测+Pipeline 可观测支持性能分析SGLang 框架可观测实现请求可观测:通

6、过 Jaeger 前端观测单个请求执行过程Pipeline 可观测:通过 Perfetto UI 观测所有请求在 Prefill Decode Server 上流水线处理的过程,观测粒度到 Prefill 和 Decode loop使用可观测能力发现调度问题并优化SGLang Router&Scheduler 优化使用 ModelSight 观测请求在不同的 Prefill 和 Decode Server 间的负载是否均衡,选择合理的调度策略,性能提升 30%使用 SGLan

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(ModelSight:端到端 AI 性能分析框架-常怀鑫 王鹏.pdf)为本站 (表表) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠