1、蚂蚁集团基于LLM的SRE智能体落地实践白潇(白想)蚂蚁集团白潇(白想)蚂蚁集团蚂蚁集团平台工程与技术风险部技术专家,目前主要负责蚂蚁集团DevOps和LLM交叉领域的探索和实践落地。通过OpsGPT大模型和SRE Agent/平台工程Agent等技术方案的工程落地,实现对SRE团队的赋能提效,以创新技术保障蚂蚁集团支付宝、财富保险、国际科技等多个产品的高可用和稳定性。想也是白想,要做ReAct 是 由 Google Research Brain Team 在 ReAct:Synergizing Reasoning And Actiong In Language Models 论文中提出。在
2、ReAct 工作之前,大家往往将大模型的推理能力和行为决策能力分开进行研究。而ReAct 首次在语言模型中将推理和行为决策紧密结合起来,使得语言模型的推理能力能够根据知识进行计划安排,行为决策能够与外界工具进行交互。目录C O N T E N T S1.SRE智能体背景&目标2.SRE智能体构建思路3.SRE智能体实践效果4.SRE智能体展望5.SRE智能体开源SRE智能体背景&目标01SRE工作体系监控告警应急响应故障排查故障复盘SOP梳理运维任务工单接手事项处理手册编写SOP调试SOP沉淀新的开始经验沉淀应急工作日常工作SRE需要什么样的智能体助手?我们团队负责的业务报警了,如何应急排查?
3、我们平台有新的用户咨询了,如何处理工单?DevOps平台xx功能如何使用?平台DevOps经验团队业务经验报警:xx业务下跌80%!SRE日常工作应急工作SRE智能体的特殊性OpenAILLM Powered Autonomous Agents提出 AI Agent=LLM+记忆+规划技能+工具使用,给出了大致的Agents系统组成。SRE领域的智能体对稳定规划、消除幻觉、安全执行有极高要求,需要对Tool Use、Memory、Planning等相关模块做最大程度的架构设计和优化改造。复盘文档应急事件Tool UseEKG PlanCloud EnvSRE智能体构建思路02技术演进体系 如何
4、构建SRE智能体Planning(CoT/ReAct)FunctioncallingCodeinterpreterKnowledgeretrialThreadingPlanning(Think on Graph)Tool+Code+RAGOpsCoresession/task模型侧工程侧产品侧OpsGPT-EKG图谱游走并发调度异步回调参数反问应急多步推理应急流程咨询OpsGPT-Tool权限可控执行可控参数可控评测体系一键接入oneapiCodeFuse沙箱安全代码hack代码修复附件管理一键上传多种格式OpsGPT-RAG文档爬取文本分段向量召回multi-index一键导入自动更新All
5、 ToolsPrompt管理Profile生成权限管理OpenAPI体系一键创建极简模式加工程度加深AI AgentSRE智能体关键技术 Code+用户query数据获取意图识别代码生成代码hijack代码执行结果处理关键技术 Code+做快速诊断代码生成代码hijack代码执行import jsondef analysis():monitorData=json.loads(monitorData)for md in monitorData:#数值大于500for x in mddata:if xcount=500:return Truereturn Falseif analysis():pr
6、int(是)else:print(否)用户query判断监控XXXX告警时刻有XXXX开头的热点账户的数值是否大于500;如果是,则输出是。如果不是,则输出否;如果函数返回里面不存在账户和数值信息,则输出否。使用Code+写代码分析。monitorData的具体值查询监控XXXX的Tool关键技术 Tool+OneAPI一键录入对外API集成LLM友好的Tool信息管理Embedding训练增强OpsGPT ToolModelTool SpecPrompt Manage开源 FuncCallModel对抗评测报告权限加固接口填参准确率注册执行准确率评测单Tool评测多Tool选择单Tool评测