1、SRE-Copilot:大语言模型与aiops结合的探索张翔 字节跳动演讲嘉宾张翔字节跳动SRE-Copilot负责人中科院计算所博士毕业,字节跳动基础架构SRE数据化方向负责人,聚焦成本、稳定性、效率、服务四条主线,为SRE提供数据化与智能化支持。加入字节后,主导了异常检测、智能变更、故障诊断、智能限流、运筹优化、大语言模型应用、资源交付数据化运营、运维数仓等多个数智化运维项目的上线与推广。目 录CONTENTS1.SRE-Copilot整体架构2.期望解决的运维痛点3.框架实现的技术细节4.在字节跳动的应用场景5.一些探索中的经验教训SRE-Copilot整体架构PART 01AI-Age
2、nt相关概念:Tool callingFunction calling是可靠地将LLMs连接到外部工具以实现有效的工具使用和与外部API的交互的能力。“今天天气怎么样?”再智能的大模型对这个问题也束手无策AI-Agent相关概念:RAG检索增强生成(Retrieval-Augmented Generation,又称RAG)通过检索LLMs之外的数据源来支持其生成答案。RAG=搜索+LLM提示,根据用户的查询要求,LLMs会使用搜索算法从外部数据源获取上下文信息,最后,查询和检索到的上下文合成后送入到LLM的提示中。私域知识“公司服务器的数量,线上的利用率是多少”“当前工单状态是什么”新知识问题
3、“今天有哪些故障?”“最新电影的主演是谁”长尾问题“使用XX语言在某环境如何连接XX数据库”AI-Agent相关概念:Reason+ActReAct是一种LLM提示和结果处理方法,它结合了推理、行动规划和知识来源的整合,使LLM超越其语言模型,在其预测中使用来自现实世界的信息。ReAct是推理和行动的结合。当任务是多步,或者任务复杂结果充满不确定时,react表现更好AI-Agent相关概念Agent智能体AI代理的整体框架由三个关键部分组成:大脑、感知和行动。大脑:大脑主要由一个大型语言模型组成,不仅存储知识和记忆,还承担信息处理和决策功能,并能呈现推理和规划过程以处理未知任务。感知:感知模
4、块的核心目的是将代理的感知空间从纯文本领域扩展到包括文本、听觉和视觉模态。行动:在代理的构建中,行动模块接收大脑模块发送的行动序列,并执行与环境交互的行动。代理(Agent)指能自主感知环境并采取行动实现目标的智能体。SRE-Copilot整体架构SRE-Copilot是基于LLM的多场景智能运维框架,支持Multi-Agent协作与动态编排,具备计划、记忆、反思、推理与ReAct等能力,为SRE提供智能化服务。参考GPT的思想,通过集成学习多个专业的LLM的agent组成强大的混合专家(MoE,Mixture of Experts)系统。CopilotRCAAgent多源数据Agent:对各
5、种数据源进行异常检测,返回故障描述功能型Agent:知识库问答,工作流规划,写报告,写代码等功能意图识别,参数提取,将任务调度分配给合适的子AgentLogAgentTraceAgentTradeAgentMonitorAgentCMDBAgentQAAgentWorkflowAgentReportAgentCodeAgent效果展示点期望解决的运维痛PART 02SRE-Copilot优势系统复杂,依赖繁多,海量数据痛点SRE-Copilot传统AIOPS数据无标注 训练成本高接入/维护成本新的故障推理交互使用成本单个运维专家,甚至单个团队难以掌握上下游全部知识和技术细节,也难以处理全部告警
6、/异常大部分异常检测算法依赖标注,无监督算法能力一般,根因诊断算法更加依赖标注。专家经验很难编码成算法模型要完全理解每一个复杂模型,维护门槛高;客户的数据和系统都是私域的,需为客户现场定制与优化,增加了接入成本。调整或接入新数据要重新训练无法推理未知故障 交互复杂,需要严格传递参数等 大模型几乎能学习人类全部知识,通过Multi-Agent以及知识库可以无限扩展把专家经验经验转化为故障表现,让模型推断,无需训练通过“混合专家模型”的集成学习概念,只需关注组件与模型,客户自己的模型/逻辑也可以像乐高积木一样轻松接入,灵活调整,甚至框架自己可以动态编排 LLM已经出现了涌现和推理能力,基于自己的通