《乔彦辉-大模型在华为云数字化运维的全面探索和实践.pdf》由会员分享,可在线阅读,更多相关《乔彦辉-大模型在华为云数字化运维的全面探索和实践.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、大模型在华为云数字化运维大模型在华为云数字化运维的全面探索和实践的全面探索和实践演讲人:乔彦辉目 录01华为云智能运维发展之路02大模型使能运维规划03运维大模型难点和解法04总结和规划01华为云智能运维发展路线从单点,到复杂,再到自动化华为云AIOps发展之路-从单点,到复杂,再到自动化智能运维场景日志模版分析(2018)云服务单指标异常检测(2019)告警智能压缩(2019)网络多级异常检测(2020)硬件故障预测(2021)变更命令分级智能识别(2023)变更人员匹配度评估(2023)安全生产自动稽查(2023)变更风控驾驶舱(2023)串并联智能运维,可视,可决策,可执行(2021-2
2、023)大模型使能运维,LLM+运维Copilot(2024)单场景智能运维,传统ML算法(2018-2020)智能运维架构运维数据自然语言问答,运维信息查询运维知识检索故障自动总结故障案例推荐运维数据运维算法算法服务分析报表运维智能决策运维算法运维数据数据服务运维智能决策运维小模型运维数据运维大模型运维Copilot分析报表数据服务运维决策服务KPI,告警,日志KPI,告警,日志变更数据运维人员流程数据运维语料运维私有知识库运维决策服务02大模型使能运维总体规划聚焦高价值高门槛高人力场景,面向长期规划大模型使能运维业务规划:聚焦2条核心价值流,全面辅助运维人效提升场景WR故障处理流水线阶段起
3、会故障通报影响评估故障定界故障恢复恢复验证故障复盘痛点重复故障拉取通报内容生成繁琐,涉及大量人力影响面评估难:依赖少部分人人工查看监控、告警系统查询信息,效率低人工确认多个服务的恢复进展故障信息多处,人工总结耗时高机会点相似性识别:基于文本相似WR自动化判重内容生成:通过AI生成通报内容生成,并由值班经理确认后发布NL2Query:提供统一对话式查询能力NL2Query:提供对话式查询能力、支持查询告警,监控指标,变更、事件等信息相似故障信息推荐:故障预案推荐NL2Query:结合恢复步骤检测各云服务恢复情况内容生成:自动生成故障复盘报告场景事件单处理流水线阶段事件受理事件分流事件解决案例总结
4、痛点定级不合理:事件单定级不合理,需要重新沟通确认定级分流不合理:针对事件描述和客户实际诉求反复沟通,信息分流复杂度高解决方案覆盖率和准确率低,且消费难:资料分散、缺少工具快速管理和检索知识案例没时间总结:案例书写耗时,质量和数量难以兼顾机会点智能分级:根据用户反馈结合大模型进行分级建议智能派单:根据派单规则和算法实现智能派单解决方案生成:检索知识库自动=生成解决方案案例生成:基于事件单自动生成案例TOP需求问答式运维信息查询故障预案推荐运维知识检索事件解决方案生成聚焦高门槛,高价值,高人力场景,拥抱大模型提升运维人效故障处理:2000+,平均参与人数10+(非自愈)事件处理:10000+,月
5、均参与人:200+故障信息总结生成构建运维盘古助手,聚焦运维人效提升,打造智能运维新高地多触点构建:构建运维助手多种触点模式,全面辅助运维场景,支持web,WeLink机器人和运维工具系统集成运维Copilot Stack :构建运维Copilot能力集,实现端到端运维对话,意图理解,Agent和Tools建设,和运维大模型集成,实现运维大语言模型端到端构建;运维大小模型协同计算:小模型聚焦确定性量化分析,大模型注重内容理解和生成高质量运维知识语料中心:围绕运维知识数据收集,知识规范,知识管理和运维语料标注全面建设2143 定位:沉淀大模型使能运维标准方案,建设全面辅助问答交互能力,打造运维副
6、驾驶AI Core多轮意图理解模型故障智能根因算法意图识别小模型Sop文档风险评估算法盘古大模型场景模型微调运维提示词工程RAG运维Copilot Stack意图识别运维场景路由意图增强运维内容检索运维信息查询故障根因推荐故障报告生成变更命令评估sop文档评估运维Skill运维信息查询Agent故障报告生成Agent故障根因推荐Agent变更评估Agent运维大小模型集成Cloud Copilot 框架Skill Builder数据管理模型管理运维知识语料中心运维“小”模型-确定性量化运维“大”模型-内容理解和生成运维大小模型协同计算独立Web端WeLink机器人运维工具系统集成运维盘古助手-