1、AI-in-SRE Loop:当 AI 成为核心业务后,SRE 的下一站从 AI 业务稳定性到 Agent 运维体系的工程化实践田云龙|资深高可用架构师|2026.04.16目录01 开场与问题重定义:为什么传统 SRE 视角不够了02 方法论:AI-in-SRE Loop如何重新看待 AI 稳定性03 双重AI系统与Harness:如何给Agent加护栏04 落地案例与多Agent协同:哪些场景最值得先做05 评估治理与演进路径:如何避免做成Demo06 铁律、总结与Q&A:能直接带走的原则AI 不再是实验业务,AI 就是生产系统本身一次模型异常,不只影响效果,还会同时影响体验、收入、GPU
2、 成本和链路稳定性。SRE 的保障对象,必须从服务扩展到模型、推理链路和 Agent 决策链。AI稳定性为什么完全不一样这不是传统稳定性的轻微升级,而是稳定性对象、约束条件和止损方式都发生了变化。传统系统AI 系统稳定性对象服务/代码/配置/机器服务+模型+推理链路+数据链路+Agent 决策链主要约束发布、依赖、容量、机房、容灾Prompt、Tool、Workflow、Memory、权限、模型行为止损方式扩容、回滚、熔断、切流降级、限流、回滚、策略切换、人工接管、受控执行核心结论:AI 时代的 SRE 不再只是保障“服务可用”,而是要保障“系统可判断、可止损、可被接管”。AI 时代的 SRE
3、,面对的是双重 AI 系统SRE 不只是保障 AI 业务系统,也要保障参与研发、运维、值班和治理流程的 AI 系统。第一类:被保障的 AI 系统搜索问答、推荐排序、广告模型、推理服务特征与数据链路、模型服务、GPU 与资源链路它们直接决定体验、效果、成本与资源消耗风险关键词:模型异常、链路抖动、数据漂移、成本失控第二类:参与保障的 AI 系统告警分析 Agent、发布守护 Agent、巡检 Agent容量评估 Agent、诊断 Agent、复盘 Agent它们开始参与判断、建议和受控执行风险关键词:幻觉、越权、误判、执行策略失稳相互影响所以 SRE 的边界已经从“保障 AI 业务系统”扩展到“
4、保障系统+保障 Agent 决策链和执行链”。AI-in-SRE Loop:为什么必须有稳定性闭环既然稳定性对象变了、保障主体也变了,SRE 就不能停留在人工发现和人工处理,而要把 AI 放进稳定性闭环里。事前预防巡检/风险扫描/容量评估事中感知异常发现/告警分析/影响面识别事中处置诊断建议/人机协同/受控执行事后学习复盘沉淀/Watchlist/Skill/SOP本质上,AI-in-SRE Loop 要解决的是:让系统更早看见事实、更快形成判断、更稳受控止损,并把经验持续回灌为下一次能力。Harness与受控执行:为什么必须给Agent上工程护栏生产系统需要的不是“更自由的 Agent”,而
5、是“更可控的 Agent”。Harness 的价值,就是把创造性留在判断层,把确定性落实在执行层。约束输入限定问题模板、上下文来源与证据范围约束推理把开放推理收敛为检查清单、决策树和标准 Workflow约束执行所有动作都必须经过 Tool、权限校验、审批、审计与回滚约束反馈结果自动沉淀为报告、案例、规则和知识受控执行路径只读建议SRE 确认有限自动化自动回滚/人工接管核心原则:先增强人,再自动化;先把边界收住,再把动作逐步放开。工作流-AI 提效后从“执行者”转向“环境设计者”:描述意图、验收标准、边界条件,AI 在统一上下文与护栏内完成更多执行。工程师工作流-AI 提效后从执行者到环境设计
6、者:描述意图、验收标准,AI 全程参与执行E1 洞察驱动每日心跳触发E2 代码开发需求驱动E3 自动发版PR Merge 触发E4 线上运维7x24 持续人工节点收到推送方案查看成本/性能/稳定性优化案确认优先级 代码生成AI Code Review规范、逻辑、性能扫描,CI 失败自动修复腐化治理定期扫描并识别高频腐化点自动灰度发布1%-5%-20%-100%指标 AA 对比火焰图/大盘/多路变更归因CRITICAL 秒级回滚无需人工,自动完成Heartbeat 主动巡检每 N 分钟拉取指标,主动发现波动六维归因分析漏斗/变更/配置/实验/数据/外部经验自动入库处置结束自动沉淀为知识闭环:E4