《毛文安 基于 SysOM 的 GPU 火焰图和慢节点检测.pdf》由会员分享,可在线阅读,更多相关《毛文安 基于 SysOM 的 GPU 火焰图和慢节点检测.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站基于SysOM的GPU火焰图和慢节点检测姓 名:毛文安时 间:2025/10/17GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站个人简介
2、姓名 毛文安公司职位 阿里巴巴高级技术专家阿 里 云 基 础 软 件 智 算 稳 定 性 负 责 人,具 有多 年 L i n u x 内 核 开 发、维 护 及 性 能 调 优 经验,负 责 智 能 运 维 平 台 S y s O M 的 A I 可 观测 产 品 研 发;深 入 理 解 e B P F 与 可 观 测 性 一 书 作 者,酷 玩 B P F 公 众 号 负 责 人。请替换您的照片GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站目录AI火焰图案例:慢节点检测AI系统性能瓶颈分析未来展望GOP S 全 球 运 维 大 会 暨
3、 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站01AI系统性能瓶颈分析此处添加详细文本描述,建议与标题相关并符合整体语言风格此处添加详细文本此处添加详细文本描述GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站训推任务三类典型问题场景慢节点现象l现象:单节点拖慢全局迭代在分布式训练或推理集群中,个别计算节点的 CPU 运算速度、网络通信带宽或主机整体负载显著落后于集群平均水平,进而拖慢全局迭代进度,造成端到端训练时间成倍增加。l影响:训练耗时变长,算力浪费GPU利用率低l现象:GPU利用率上不去GPU 计算单元长时间处于空转
4、状态,其根本原因在于数据加载、梯度通信与前向/反向计算三者之间未能形成高效流水线,导致算力资源大量闲置,训练或推理效率随之大幅下降。l影响:训练/推理效率低性能差异现象l现象:推理/训练性能数据不一致在硬件配置、软件版本、超参数设置完全一致的前提下,同一训练或推理任务在不同物理节点上仍会出现明显的性能波动。由于缺乏标准化、可量化的对比工具,难以解释差异产生的根因,也难以给出优化建议。l影响:问题定位周期长,客户流失GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站常用的分析方法分析方法优势不足指标宏观概览、历史趋势、告警、轻量级缺乏细节、难定
5、位根因、多个指标关联分析复杂日志信息丰富、问题定位性能问题往往没有日志输出Perf、Continuous-profiling代码级瓶颈定位、历史回溯缺乏GPU信息Nsight-systemGPU深度分析、CPU-GPU协同分析性能影响大、数据量大GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站智能运维平台SysOMSysOM:一站式智能运维平台,中心端采用微服务的方式处理来自多个region的Profiling和监控数据;SysAK:系统工具集,处理来自中心端的请求和数据预处理,进行诊断结果汇总和Profiling、监控数据上传;Coolb
6、pf:eBPF开发框架和功能库,提供持续剖析数据采样,网络、IO、内存、调度及GPU指标等功能。GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站SysOM AI可观测GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站02AI火焰图此处添加详细文本描述,建议与标题相关并符合整体语言风格此处添加详细文本此处添加详细文本描述GOP S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站CPU火焰图GOP S 全 球 运 维 大 会 暨 研 运 数 智 化