1、大模型驱动的故障根因分析和修复推荐付求爱华为技术有限公司付求爱华为云 智能化运维算法专家华为云智能化运维算法专家,多年AIOps领域从业经验,华为云PaaS产品部智能化运维业务负责人,负责华为云PaaS研发质量看护和智能化运维关键能力构建、技术研究、整体规划、团队管理及交付落地。目录01CONTENTS0203华为云PaaS业务&背景介绍面临的挑战&运维痛点大模型驱动的故障根因分析和修复推荐方案介绍04总结和展望华为云PaaS业务&背景介绍PART 01华为云PaaS业务介绍产品组合和竞争力全景图政务一网通智慧交通电力数字化煤矿总部军团颗粒化子公司华为教育鸿蒙开发者生态DevSecOpsIPD
2、研发测试自动化工厂软件供应链安全产品组合专业服务IPD研发培训DevOps工作坊开发规范赋能自主可控开发工具链软件设计代码检查缺陷管理代码仓库科学计算仿真直连升级智能化研发智能化测试项目管理产品管理看板代码构建软件信息树制品仓库性能测试测试计划API测试开源管理漏洞管理移动应用安全资料开发文档开发环境管理发布管理CodeArtsIDE流水线需求管理系统仿真部署Web测试产品管理开发测试开源漏洞发布与部署资料构建系统设计ALMAPI发布API设计性能调优IDE forC/C+IDE forJavaIDE forPythonAPI调试2智能化研发3541云上云下协同开发67华为云PaaS提供一站式
3、、全流程、安全可信的软件开发生产线CodeArts。其集华为30年研发实践、前沿研发理念、先进研发工具为一体。支持web开发、移动应用开发、微服务开发、Cloud Native应用开发、嵌入式开发等典型研发场景。覆盖需求与设计、开发、测试、部署、运维等软件交付全生命周期环节,打造全云化研发体验。软件研发趋势大模型等技术催生软件工程3.0,软件研发进入智能化新阶段面临的挑战&运维痛点PART 02业务痛点痛点 1:业务复杂,形式多样新业务不断涌现,数据形式和格式多种多样;大规模云服务集群中资源、应用、服务多层体系中存在繁杂的关联关系,调用链路长且拓扑关系复杂痛点 2:数据规模大,增长速度快中大型
4、系统实时产生X.XPB/天(X.X万亿条/天),峰值千万条/秒的监控数据;随着数据增加,数据分析的成本越来越大痛点 3:定位成本高、耗时长定界就很困难,定位往往需要拉很多相关、弱相关的人,且经常涉及不同的团队,现网真实故障平均需拉通10+人员,花费4小时以上进行定位技术挑战挑战 1:模型幻觉和可解释性运维领域,对错误容忍度低,需要尽量避免幻觉产生;对于结果要求必须可解释性强,需避免一本正经的“胡说八道”;挑战 2:训练数据难以获取运维领域数据一般是私域数据,公开渠道难以获取;人工标注门槛较高,需业务领域的专家才能提供较为准确的标注数据;挑战 3:成本过高运维大模型难以适用不同业务场景or产品线
5、,导致成本开销难以控制;成本过高会导致落地困难;大模型驱动的故障根因分析和修复推荐方案介绍PART 03华为云AIOps整体视图AOMAPMLTS问题定位调用链路分析现网故障根因定位故障传播图挖掘华为云统一可观测性平台(AOM)告警推送根因推荐指标数据调用链数据日志数据修复推荐问题发现告警智能聚合问题预测时序数据预测日志模板提取日志异常检测时序指标异常检测性能分析代码修复版本回退自动重启混沌工程与演练问题修复代码级性能异常检测代码级性能异常定位性能数据对比分析性能异常修复推荐API性能恶化检测API性能恶化根因定位代码级性能趋势检测AIOps传统AI+软件分析华为云研发大模型(CodeArts
6、 Snap)华为云研发大模型介绍(CodeArts Snap)华为云研发大模型:通过智能生成、智能问答、智能协同、智能测试和智能运维能力覆盖设计、开发、测试、运维和协同的研发流程端到端智能化能力底座。数字经济生物医药医疗器械金融机器人精密模具航空航天新能源汽车信息技术文创文旅消费电子计算机生物技术开发流水线大模型底座智能助手CodeArts Snap代码调试代码注释代码翻译测试用例智能生成代码优化智能协同智能问答代码解释代码智能生成需求管理代码开发代码托管代码检查编译构建测试部署与运维发布代码检查研发知识接口说明需求拆解研发文档架构图开发设计测试测试脚本