《刘进步 可观测场景 Copilot 构建实践与思考.pdf》由会员分享,可在线阅读,更多相关《刘进步 可观测场景 Copilot 构建实践与思考.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站可观测场景Copilot构建刘进步时 间:2025/10/17G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站个人简介
2、刘进步公司职位阿里云可观测AIOps算法开发工程师。主要从事AIOps基础算法开发与相关大模型应用开发请替换您的照片G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站目录Copilot 构建中的问题解决思路与尝试可观测 Copilot 的任务应用场景与实践案例G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站01可观测 Copilot 的任务可观测Copilot,是深度融合大模型能能力与系统可观测数据的新范式G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰
3、会 2 0 2 5 上 海 站运维工程师处理问题时的一般流程G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站可观测 Copilot 的必要能力可观测数据获取与分析系统探查与链路分析根因定位与故障传导链推理G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站可观测 Copilot可观测 Copilot,是融合大模型能力与系统可观测数据(Metric、Log、Trace,Profile)的运维新范式。它不仅是工具,更像一个智能运维专家,能够主动感知和推理复杂的系统状态,通过自然语言对话的
4、方式,帮助快速定位问题、分析根因,最终实现运维领域的自动驾驶。Overview of a LLM-powered autonomous agent system全全栈栈可可观观测测性性端到端的监控和追踪能力,覆盖从开发到运维的全流程,提供系统内部状态的完整视图大大语语言言模模型型强大的推理和理解能力,处理自然语言,生成复杂决策,提供智能化的交互能力领领域域知知识识库库专业的决策支持体系,提供行业特定知识,确保智能体在特定领域的准确性和可靠性G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站02可观测 Copilot 构建中的难点如何驾驭海
5、量、异构、实时的可观测数据?如何弥合通用大模型与运维领域知识鸿沟?如何构建可靠Agent执行与人机协同闭环?G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站数据问题问题:如何驾驭海量、异构、实时的可观测数据?85%85%85%85%数据洪流的“吞吐”瓶颈在可观测系统每秒产生数以百万计的数据点。数据处理的延迟意味着我们会错过最佳的处置时机,让MTTR居高不下。异构数据的“孤岛”困境Metric、Log、Trace、Profile、Event这几类可观测数据有着完全异构的格式和语义,各种数据协议试图将他们关联在一起,但是实际情况中“孤岛林立
6、”。信噪分离的“捞针”挑战在超过99.9%的可观测数据都是描述系统正常的“噪音”,而预警信号则淹没其中。准确高效的感知到系统的变化和异常,这是智能分析的关键。上下文缺失的“孤证”难题一条CPU飙升的告警,不会告诉是哪个用户请求触发的;一条错误日志,也很难关联上具体的调用链;缺乏拓扑和业务上下文的关联,纵使你有海量的数据也是“零零散散”的线索。G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站认知差异问题:如何弥合通用大模型与运维领域的“知识鸿沟”?难以精准理解运维领域的专业术语和黑话。面对“服务抖动”、“CPU毛刺”这类模糊表述,或“系统