胡兵-AgenticSkill在阿里云ECS大规模诊断中的实践与落地.pdf-三个皮匠报告

1、Agentic Skill 在 ECS 运维中的实践胡兵|阿里云构建 ECS 运维智能体，主导 Agentic Skill 方案从 01 落地。覆盖 50+诊断场景，诊断准确率 95%，效率提升 620 倍，上线至今零安全事故。胡兵阿里云技术专家 ECS运维智能体负责人目录CONTENTSI.ECS 运维复杂性与长尾困局II.Agent Skill 如何突破规则局限III.实践运行结果具体实现IV.从知识库到 Skill 自动生成闭环ECS 运维复杂性与长尾困局PART 01200+种根因三层穿透 40%长尾无规则兜底规则和纯 LLM 都搞不定ECS 运维复杂性：为什么问题极度复杂G

2、uest/Host/CIPU 三层协同 200+种根因 40%长尾场景无规则兜底问题的本质：组合爆炸+长尾无兜底故障跨层传导：客户报 IO 超时，根因可能在 Guest blk 驱动、Host QEMU virtio、或 CIPU blkpmd 中任一层组合爆炸：200+种故障根因数十组件上千运行指标规则引擎无法穷举长尾占比 40%+：无规则兜底的工单平均耗时 76min 涉及 3 人协作经验零沉淀核心矛盾：规则只能 cover 已知场景新故障出现人肉写规则周期长又来新故障规则引擎和纯 LLM 都搞不定规则太死：只覆盖 Top60 纯 LLM 太活：4次翻车需要两者结合真实教

3、训：4次翻车复盘规则引擎困境：200+条 if-else 仅覆盖已知 Top60 场景新故障=无兜底维护成本随长尾线性增长纯 LLM 翻车1：Agent 自行组装 reboot 命令审批系统拦截，否则生产机器重启纯 LLM 翻车2：200+工具描述占 prompt 60%单次120K tokens 幻觉率 15%纯 LLM 翻车3：本应 6 步完成的诊断 LLM 自由探索跑了 23 步 Token 浪费 4x结论：需要确定性框架+灵活推理的组合这就是Agent SkillAgent Skill 如何突破规则局限PART 02核心思路：确定性框架约束 LLM 推理框架确定+路径灵活+安

4、全兜底Skill 如何让初级工程师具备专家诊断能力专家经验编码为可执行框架：框架确定走什么路，LLM 灵活决策每步怎么走规则 vs 纯 LLM vs Skill 三方对比专家瓶颈：全团队仅 3 人能诊断 NC 宕机离职/请假=能力断层规则 vs Skill vs 纯 LLM规则引擎：路径固定+执行固定无法处理长尾变体纯 LLM：路径自由+执行自由不可控、幻觉、浪费TokenSkill：路径固定（框架约束）+执行灵活（LLM 决策每步细节）可控+可适配新场景关键突破：步骤固定但每步怎么做由 LLM 判断新人+Skill 专家水平实测数据：初级工程师诊断准确率 45%92%一个 IO 抖动

5、工单的完整 Agent 路径从用户报IO延迟高自动匹配 Skill 按框架诊断 5 分钟出结论真实工单：5 分钟完成全栈诊断用户输入：实例 i-xxx IO 延迟突然飙高自动匹配：向量检索命中 IO 抖动 Skill（置信度 0.92）加载对应诊断框架框架约束：Skill 规定先查 Guest 再查 Host 最后查 CIPU LLM 按序执行灵活执行：Guest 层 LLM 自主判断用 blktrace 还是iostat 发现 QEMU 可疑进入 Host 渐进暴露：初始 8 个工具 Token 降 70%幻觉率降50%（vs 200+工具全给）输出结论：根因=CIPU blkp

6、md 队列堆积+证据链+建议：升级 blkpmd 版本为什么需要 Sub-Agent：三个真实场景倒逼上一页 Agent Loop 只跑单 Skill 遇到大日志/大数据/多 Skill 时主 Agent 扛不住三个真实问题倒逼出 Sub-Agent场景1 日志太大：vmcore+dmesg 1MB 塞进主Context LLM 幻觉率飙升 Sub-Agent 分段分析只回传(status,key_findings,evidence)场景2 性能数据多：几十K 指标 JSON 需要聚类分析主Agent 处理不了 CodeAgent 写 Python 在 Sandbox 容器中执行场景3 多

胡兵-AgenticSkill在阿里云ECS大规模诊断中的实践与落地.pdf

相关报告