1、从个人经验到组织资产:小米AI for SRE 的闭环实践与资产沉淀赵文成小米运维平台研发负责人目录01020304演进历史与痛点SRE 知识资产沉淀AIOps 平台简介落地案例展示05经验总结与展望我们走过的路-我们的感悟演进历史与痛点小米业务特点和主要痛点运维核心痛点 日活用户:亿级体量 系统架构:微服务化业务规模大 知识分散新人上手难 快速迭代稳定压力大 异常告警 多 琐碎 Oncall 杂 应急恢复 慢 互联网业务 IoT业务 汽车&金融 电商&新零售业务形态广AI 时代 SRE 变与不变不变:SRE 的本质变:工程化方法质量:对系统确定性、可用性的极致追求成本:对资源与效率的持续度量
2、与优化效率:将人力从重复、琐碎的工作中释放手段:从脚本、工具到 Agent 工作流挑战:大模型的不确定性与 SRE 工作的确定性矛盾知识:从让人能找到到让机器能找到三阶段探索:工程能力的探索与升级实现连接,AI可以使用基础能力了实现工具的兼容性和模型的迁移能力尝试平台化与体系化Function CallMCPAgent困局:打磨了“手脚”,忽视了“大脑”统一的困局 智能场景碎片化:AI 不知道在什么情况下以什么顺序调用 有工具无策略:有了标准的工具箱,什么时候使用什么工具的知识依然散落在 SRE 大脑中 有躯壳无灵魂:高度依赖提供的提示词和思维链 业务形态多,通用难度极大 流程制定成本高 微调
3、复杂,结果难以保证 用户耐心有限,没有动力联调 平台工程与 SRE 一线工作不匹配仅有“手脚”难落地瓶颈不是模型是环境:工程化的重点是融合 SRE 隐性知识、经验与判断逻辑核心核心为AI注入灵魂的工程实践SRE 知识资产沉淀SRE资产体系的三个主体工程化的目标是管理好这几个元素技能(Skills)可被调用的原子化操作能力建设思路:分层建设,分为基础skills+业务skills知识库(Knowledge Base)体系化的静态的业务知识文档建设思路:文档结构化与场景化复用记忆(Memory)结构化、可关联的场景化上下文与案例。Skills 原子能力的建设 生命周期概览共识 Skills 创建规
4、范最佳实践:是否符合Agent Skills规范完整性:SKILL.md、PRACTICES.md 等是否齐全清晰性:描述是否清晰,指令是否结构化安全性:是否有秘钥泄露或危险模式可维护性:结构是否清晰,文档是否完善技能质量只能包含小写字母、数字、连字符不能以连字符开头和结尾不能包含连续连字符目录名必须与 name 字段一致命名规范把规范融入到工具规范生成工具:质量更有保障提供官方Skills:常用系统官方封装提供统一的创建工具意图捕获通过对话提取意图发现探索现存skills,避免重复设计创建设计文档规划创建实施计划设计审批开发生成skills文件验证自动化检查检查是否通过对比评估自动化检查效果
5、提升AI分析5维度评估就绪交付提交仓库Skills创建工作流否否否AI驱动创建:自然语言对话设计和生成 Skills自动化验证:语法检查、安全扫描、测试执行五维度评估:完整性、清晰性、最佳实践、安全性、可维护性CICD集成:GitLab 流水线+飞书通知工具核心特征 云服务凭证(AWS、阿里云、腾讯云等)代码仓库令牌(GitHub、GitLab)JWT Token、数据库连接字符串敏感信息扫描 SQL注入、命令注入、路径遍历 SSRF、XSS风险代码安全扫描 文件删除(rm-rf)权限提升(chmod 777)网络隧道/反弹shell危险指令扫描Skills 三类扫描维度Skills 技能托管
6、知识库 建设思路知识库作为独立的基础服务进行建设基于飞书文档:将历史沉淀快速复用,只抓取入库不改写原文档生产与消费解耦:消费方通过API进行消费,无需关心知识生产宁缺毋滥原则:保证入库质量知识分层:通用知识、业务线知识、沉淀与抽取知识管理与分析知识管理&知识分析管理:分类分组、查询、批量导入分析:未命中分析,忽略或者补录问题:无全局视角查看,过期知识识别困难记忆维度与探索阶段记忆维度探索阶段第一阶段:MySql实现:定时提取,前端展示 效果:会误导模型第二阶段:纯文本方案:标注存储路径,纯提示词,存读模型决定 效果:有一定效果,某些场景下链路变长第三阶段:LLM抽取:存向量数据库,自定义抽取逻