当前位置:首页 > 报告详情

A4--孟令公--得物大规模GPU性能分析Agent.pdf

上传人: 蓝*** 编号:1270100 2026-06-20 36页 3.86MB

1、得物大规模 GPU 性能分析 Agent孟令公 得物,技术保障部,高级技术专家孟令公得物,高级技术专家AI Infra 方向,现任职得物,负责大模型与传统模型相关基础设施的研发与演进。2022 年加入得物后,深度参与涵盖大模型与传统模型的通用训练与推理基础设施建设,训练侧负责云原生编排与效能优化,推理侧负责云原生部署与性能调优(含 GPU 利用率与推理加速)。此前在腾讯、阿里等互联网公司从事相关研发,长期聚焦云原生 AI、模型 Serving 与算力效能等方向。0102030405 问题定义与目标Agent 怎么设计得物 GPU Agent 怎么做真实案例总结与展望开场GPU 资源昂贵,但低利

2、用率场景普遍存在传统性能分析依赖少数专家,产能受限本分享给出一套可复制的 Agent 化路径目标:数据可证据、诊断可解释、建议可执行、收益可量化问题定义与目标三类核心痛点低利用率:GPU 空闲片段多,Busy 时长不足高成本:单位有效算力成本偏高定位慢:从告警到根因定位周期长结果:性能治理难形成规模化能力为什么传统“专家读 trace”难规模化人依赖:强依赖个人经验与隐性知识标准缺失:诊断口径不统一、复盘成本高工具割裂:监控、trace、代码上下文不连贯沉淀不足:一次成功难转化为组织能力Agent怎么设计Agent 设计原则Agent 核心循环:思考(Thought)-行动(Action)-观

3、察(Observation)工具编排设计:让模型拥有“物理抓手”,从“被动回答”走向“主动做事”上下文与记忆治理:过滤信息噪声,管理长短记忆,保障长链路任务的可靠性与稳定性架构最终目标:将大模型的“泛化智能”转化为确定性的“工程交付能力”Agent Loop 在本项目中的映射输入:GPU Profile 性能数据、GPU 监控级别数据、诊断请求动作:GPU Profile 性能分析(基于 recipe)、GPU 性能规则分析(结合性能与监控的人为规则)反馈:GPU Profile 命中规则结构化 Summary、GPU 性能规则分析结构化 Summary输出:TopN 瓶颈与优化建议Harne

4、ss 思维落地能力边界:规则层负责确定性,LLM 层负责归因推理权限约束:高风险动作默认建议模式,不直接执行事件可观测:每步输入输出可回放可审计核心收益:可控智能,而非黑盒智能架构取舍:规则引擎+LLM规则引擎:统计、阈值判断、证据抽取(强确定性)LLM:跨证据关联、瓶颈排序、策略生成(强泛化)避免两类极端:纯规则:扩展性与表达力不足纯 LLM:一致性与可解释性不足得物GPU Agent怎么做四层流水线总览Layer1 提取:提取 GPU Profiling 性能数据与 GPU 监控数据Layer2 诊断:基于 recipe 与人工诊断规则,输出结构化诊断摘要Layer3 瓶颈:TopN 问题

5、排序与归因Layer4 建议:知识库驱动优化动作提取工程细节:双通路采集与分场景策略目标明确:同时拿到 GPU Profiling 性能数据 和 GPU 监控数据通道清晰:Profiling 走 nsys profile,监控走 GPU 指标采集策略按 RT 敏感度分场景执行(服务部署在 K8s)RT 不敏感:线上临时扩一个节点,仅在该节点采集 nsys profileRT 敏感:上线前压测阶段完成 nsys profile 采集最终产物统一沉淀为两类数据:Profiling 数据+监控数据诊断工程细节:双路径诊断与证据化输出诊断工程包含两条路径:nsys recipe 诊断 与 预定规则诊断

6、统一输出 diagnosis.json:基于规则的结构化 summary支撑 summary 的 evidence(次数、时长、占比、Top 样本)核心目标:为后续 LLM 推理 提供可靠依据;保证所有结论可追溯到原始数据瓶颈层:GPU 性能瓶颈综合研判Layer3 核心任务:定位 GPU 性能瓶颈输入:诊断层 diagnosis.json 中的结构化 summary;输出:瓶颈结论+判断依据研判方向(参考 CUDA 优化分析框架):Kernel 类型:计算/内存/带宽/混合/通信/延迟敏感性能问题:Launch 开销、Host-Device 传输瓶颈、Occupancy 与 Warp 效率内

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **问题与目标**:GPU资源利用率低(案例中仅2.9%)、依赖专家诊断难规模化,目标实现数据可证据、诊断可解释、建议可执行、收益可量化。 2. **Agent设计**:采用“规则引擎+LLM”架构,通过“思考-行动-观察”循环,结合GPU Profiling与监控数据,输出结构化诊断摘要(如diagnosis.json)。 3. **四层流水线**:提取数据→双路径诊断(recipe/规则)→瓶颈研判(如Kernel类型、内存效率)→知识库驱动优化建议(如Kernel融合、Pinned Memory)。 4. **典型案例**: - CV推理GPU饥饿:Host供给断档,优化后模型合并部署,显存占用从N×M降至M GB。 - MemcpyAsync退化:Pageable内存导致同步传输,改用Pinned+双流后,耗时下降,P99收敛。 5. **收益**:利用率提升、时延降低(如Memcpy API耗时下降)、资源成本优化,并持续沉淀规则与知识库至CI回归。
**GPU Agent如何设计?** **GPU性能瓶颈如何定位?** **GPU优化如何落地?**
客服
商务合作
小程序
服务号
折叠