当前位置:首页 > 报告详情

胡兵-AgenticSkill在阿里云ECS大规模诊断中的实践与落地.pdf

上传人: a****e 编号:1258691 2026-05-30 26页 13.10MB

1、Agentic Skill 在 ECS 运维中的实践胡兵|阿里云构建 ECS 运维智能体,主导 Agentic Skill 方案从 01 落地。覆盖 50+诊断场景,诊断准确率 95%,效率提升 620 倍,上线至今零安全事故。胡兵阿里云 技术专家 ECS运维智能体负责人 目 录CONTENTSI.ECS 运维复杂性与长尾困局II.Agent Skill 如何突破规则局限III.实践运行结果具体实现IV.从知识库到 Skill 自动生成闭环ECS 运维复杂性与长尾困局PART 01200+种根因 三层穿透 40%长尾无规则兜底 规则和纯 LLM 都搞不定ECS 运维复杂性:为什么问题极度复杂G

2、uest/Host/CIPU 三层协同 200+种根因 40%长尾场景无规则兜底问题的本质:组合爆炸+长尾无兜底故障跨层传导:客户报 IO 超时,根因可能在 Guest blk 驱动、Host QEMU virtio、或 CIPU blkpmd 中任一层组合爆炸:200+种故障根因 数十组件 上千运行指标 规则引擎无法穷举长尾占比 40%+:无规则兜底的工单平均耗时 76min 涉及 3 人协作 经验零沉淀核心矛盾:规则只能 cover 已知场景 新故障出现 人肉写规则 周期长 又来新故障规则引擎和纯 LLM 都搞不定规则太死:只覆盖 Top60 纯 LLM 太活:4次翻车 需要两者结合真实教

3、训:4次翻车复盘规则引擎困境:200+条 if-else 仅覆盖已知 Top60 场景 新故障=无兜底 维护成本随长尾线性增长纯 LLM 翻车1:Agent 自行组装 reboot 命令 审批系统拦截,否则生产机器重启纯 LLM 翻车2:200+工具描述占 prompt 60%单次120K tokens 幻觉率 15%纯 LLM 翻车3:本应 6 步完成的诊断 LLM 自由探索跑了 23 步 Token 浪费 4x结论:需要确定性框架+灵活推理的组合 这就是Agent SkillAgent Skill 如何突破规则局限PART 02核心思路:确定性框架约束 LLM 推理 框架确定+路径灵活+安

4、全兜底Skill 如何让初级工程师具备专家诊断能力专家经验编码为可执行框架:框架确定走什么路,LLM 灵活决策每步怎么走规则 vs 纯 LLM vs Skill 三方对比专家瓶颈:全团队仅 3 人能诊断 NC 宕机 离职/请假=能力断层规则 vs Skill vs 纯 LLM规则引擎:路径固定+执行固定 无法处理长尾变体纯 LLM:路径自由+执行自由 不可控、幻觉、浪费TokenSkill:路径固定(框架约束)+执行灵活(LLM 决策每步细节)可控+可适配新场景关键突破:步骤固定但每步怎么做由 LLM 判断 新人+Skill 专家水平实测数据:初级工程师诊断准确率 45%92%一个 IO 抖动

5、工单的完整 Agent 路径从用户报IO延迟高 自动匹配 Skill 按框架诊断 5 分钟出结论真实工单:5 分钟完成全栈诊断 用户输入:实例 i-xxx IO 延迟突然飙高 自动匹配:向量检索命中 IO 抖动 Skill(置信度 0.92)加载对应诊断框架 框架约束:Skill 规定先查 Guest 再查 Host 最后查 CIPU LLM 按序执行 灵活执行:Guest 层 LLM 自主判断用 blktrace 还是iostat 发现 QEMU 可疑 进入 Host 渐进暴露:初始 8 个工具 Token 降 70%幻觉率降50%(vs 200+工具全给)输出结论:根因=CIPU blkp

6、md 队列堆积+证据链+建议:升级 blkpmd 版本为什么需要 Sub-Agent:三个真实场景倒逼上一页 Agent Loop 只跑单 Skill 遇到大日志/大数据/多 Skill 时主 Agent 扛不住三个真实问题倒逼出 Sub-Agent场景1 日志太大:vmcore+dmesg 1MB 塞进主Context LLM 幻觉率飙升 Sub-Agent 分段分析 只回传(status,key_findings,evidence)场景2 性能数据多:几十K 指标 JSON 需要聚类分析 主Agent 处理不了 CodeAgent 写 Python 在 Sandbox 容器中执行场景3 多

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
客服
商务合作
小程序
服务号
折叠