09-zhi-suan-ji-qun-ai-ye-wu-gao-xiao-yu-jing-xi-hua-de-zai-xian-profiling-huo-zhi-xin-huang-yong-zhuo-.pptx

编号:1035854 PPTX 25页 20.16MB 下载积分:VIP专享
下载报告请您先登录!

1、智算集群AI业务高效与精细化的在线Profiling定义AI业务观测新范式,阿里云智能集团 弹性计算/基础软件,2025/11/15,霍智鑫/黄永琢,霍智鑫阿里云智能-弹性计算-高级研发工程师,黄永琢阿里云智能-基础软件-高级研发工程师,CONTENT,目录,01,在线AI业务挑战与Profiling示例,02,Kubernetes原生的AI Profiling架构,03,AI Profiling关键技术与效果验证,04,案例分析,01 在线AI业务挑战与Profiling示例,复杂的分布式AI业务(训练/推理)架构,GPU Driver/Runtime,RDMA Libs,CUDA Libs

2、,AI Framework,AI Applications,OS Kernel,Kubernetes Node,GPU Driver/Runtime,RDMA Libs,CUDA Libs,AI Framework,AI Applications,OS Kernel,Kubernetes Node,EthernetIB/RoCE,引子:vLLM线上推理服务的显存泄漏问题,复现现象1:通过 nvidia-smi 观察到有显存增长,复现现象2:通过 dcgm-exporter 监控观察到有显存增长,复现现象3:观测vLLM日志发现KV-Cache利用率并未打满,vLLM启动时使用显存预分配机制,在

3、KV-Cache利用率未满情况下理论显存值不应上涨,NVIDIA DCGM优势:Kubernetes Pod与GPU维度监控数据,Metrics持续上报;劣势:业务实际运行情况完全黑盒;NVIDIA Nsight优势:能细粒度抓取GPU上CUDA Stream、CUDA Kernel、相关CPU占用等执行情况,以TimeLine形式呈现出来;劣势:Overhead大,只能离线控制任务,无具体AI业务的执行栈(Python);bpftrace优势:使用eBPF从内核层面提供CPU、Memory、Syscall、Uprobe等方面的trace数据;劣势:输出内容与其他分析数据格式差异,结合分析门槛

4、较高,且无GPU相关数据;Torch Profiler优势:能抓取较为丰富的Torch层、CUDA Kernel层的数据,且也能以Trace格式输出;劣势:需要显式在业务Python代码中声明,对业务代码具有侵入性,线上业务成本高。,开盒业务Pod所可能用到的排查工具,02 Kubernetes原生的AI Profiling架构,Kubernetes原生的精细化AI Profiling能力,业务无侵入、代码零改造,AI 业务完全无感知,Profiling 过程动态启停。使用进程动态注入与eBPF做到业务代码无侵入,且不区分业务类型。,1.attach to GPU pod,2.Collect

5、AI profiling data,3.visualize&diagnose,AIProfilerpod,采集丰富、TimeLine可视化聚合,场景广、轻量级,采集CPU、Syscall、Python Function Call、CUDA Kernel(包含NCCL Kernel)、Torch Op等的Profiling数据,并统一到TimeLine聚合展示。,适用与Kubernetes上通用 Containerd 场景和 Kata-Container 场景,开启AI Profiling后AI业务Overhead小于10%,。,使用eBPF抓取进程通用监测数据,eBPF对目标业务进程采集项:C

6、PU原生sched_switch Tracepoint;OS系统调用原生raw_syscalls Tracepoint;用户库Symbol Uprobe;Python解释器USDT Tracepoint;,进程CPU占用、SysCall调用、Python函数调用、自定义库Symbol调用以Chrome Tracing Events格式对采集数据进行输出,使用进程动态注入抓取GPU Kernel,基于动态注入;动态开启 CUPTI;共享业务进程空间;,面向Containerd runc设计的Profiling架构,面向Kata-Container设计的Profiling架构,Pod Securi

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(09-zhi-suan-ji-qun-ai-ye-wu-gao-xiao-yu-jing-xi-hua-de-zai-xian-profiling-huo-zhi-xin-huang-yong-zhuo-.pptx)为本站 (data) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠