孙禹峰-AI-Infra全链路性能分析和优化实战.pdf

编号:1258679 PDF 34页 19.19MB 下载积分:VIP专享
下载报告请您先登录!

1、AI-Infra全链路性能分析和优化实战孙禹峰|阿里云孙禹峰阿里云技术专家现任阿里云技术支持专家,8年AI领域实践经验,聚焦于训推框架及AIInfra相关技术,有云上多行业客户训推业务的全链路性能分析和优化场景落地的能力。目 录CONTENTSI.背景与挑战:大模型时代的训推性能问题痛点II.核心方法论:全链路性能分析体系与瓶颈定位III.核心方法论:全链路性能优化方法IV.实战攻坚:基于业务场景的深度优化案例V.前景与展望背景与挑战PART 01大模型时代的训推性能问题痛点集群规模膨胀与GPU硬件成本高GPU单价高单价高,训推任务规模规模随着参数量以及私有化部署的需求上涨而上涨上涨,而伴随着

2、性能问题复现、定位复杂,时效要求高。横向领域技术要求广,理解要求高大模型训推优化是跨学科的系统工程,需深度融合训推框架、模型架构、异构计算、存储网络及容器编排技术,构建全栈能力体系。定位困难与MTTR(平均恢复时间)过长1.系统化诊断工具和方法论缺失2.分布式系统的可观测性挑战大3.现象与根因的非线性关系场景和行业差异化突出场景瓶颈各异,多模态数据常致CPU先于GPU受限;行业诉求分化,高精度敏感领域异常重跑显著拉低训练效能。对技术服务团队的要求从从云产品层面的业务适配、应用云产品层面的业务适配、应用搭建转向深度学习原理、训推框架搭建转向深度学习原理、训推框架调优及底层异构计算架构。调优及底层

3、异构计算架构。技术深度由浅入深从单客深耕到场景化、行业化规模覆盖,从单客深耕到场景化、行业化规模覆盖,以最佳实践并横向复用以最佳实践并横向复用客户覆盖由点到面服务方式由被动到主动从配置及日志的初步分析,到细粒度从配置及日志的初步分析,到细粒度profilingprofiling及内核调用分析。及内核调用分析。诊断调优由表及里从单点突破到全栈覆盖,横跨计算、存从单点突破到全栈覆盖,横跨计算、存储、高性能网络以及容器等技术栈。储、高性能网络以及容器等技术栈。技术广度由窄到宽从被动响应到智能驱动,结合从被动响应到智能驱动,结合AI+AI+,以主动治理、平,以主动治理、平台工具和产品化服务构建标准化体

4、系台工具和产品化服务构建标准化体系AI for AI核心方法论PART 02全链路性能分析体系与瓶颈定位可观测-性能指标体系简介训练:训练:MFUMFU、有效训练时长有效训练时长推理:推理:TTFTTTFT、TPOTTPOT系统级效率指标训练:训练:iter/siter/s、samples/ssamples/s、lossloss精度精度推理:推理:e2ele2el、throughputthroughput、TPSTPS RPSRPS训推业务指标RDMA/IB/NVLink BandwidthRDMA/IB/NVLink Bandwidth、集合通集合通信算子以及信算子以及GDRGDR等通信耗时

5、等通信耗时高性能网络指标NFS R/W E2E LatencyNFS R/W E2E Latency、Metadata Metadata LatencyLatency、Stale Handle CountStale Handle Count存储资源指标CPUCPU利用率利用率 上下文上下文切换率切换率 内存内存使用率使用率GPUGPU利用率利用率 Tensor Core Tensor Core 利用率利用率 SMSM活跃率活跃率计算资源指标可拆解-基于业务场景的分析体系可拆解-基于业务场景的分析体系可拆解-基于业务场景的分析体系可定位-性能瓶颈分析和工具应用案例1:基础监控方案【问题背景】Da

6、taloader在线训练分离的数据校验任务 在切换云产品形态后,同规格Pod训练性能大幅下降。【分析与定位】基于基础监控指标对比发现异常环境cpu持续打满训练任务进线程树深度异常,大量线程等待线程上下文切换结合现象及开源框架逻辑,定位到绑核延迟导致框架获取cpu core数量异常进而导致线程数fork异常引发争抢案例2:profiling方案【问题背景】客户基于SGLang runtime自建的推理http server若干时间后RT稳定增长,重启实例后可以恢复但周期性复发。常规监控问题出现前后并无明显异常,仅显存略微上升一段时间后持平。【AI Prof

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(孙禹峰-AI-Infra全链路性能分析和优化实战.pdf)为本站 (active) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠