当前位置:首页 > 报告详情

陈鹏飞-大模型在智能运维场景中的初步探索.pdf

上传人: a****e 编号:1258747 2026-05-30 55页 33.30MB

1、大模型在智能运维场景中的初步探索陈鹏飞|中山大学计算机学院陈鹏飞中山大学计算机学院教授中山大学计算机学院教授,博士生导师,量子计算与软件研究所副所长,广东省大数据分析与处理重点实验室副主任,广东省杰出青年基金获得者,中山大学逸仙学者。曾获2020年陕西省计算机学会首届优秀博士论文,ACM FSE 2024(CCF A类会议)杰出论文奖,IEEE ISSRE 2022大会唯一最佳论文。主要方向为:分布式系统、操作系统、计算机网络、软件可靠性等。近年来在国际会议如ASPLOS、FSE、ICSE、ASE、WWW、ACM SoCC、IEEE INFOCOM、IEEE DSN等和期刊如IEEE TON、

2、TPDS、TOSEM、IEEE TNNLS、IEEE TDSC等发表100余篇论文。共承担了30余项项目包括国家重点研发计划课题、国家自然基金面上、青年项目、广东省、广州市科技项目。目 录CONTENTSI.背景II.运维大模型构建III.多智能体运维IV.总结与展望背景PART 01l云原生系统连续交付:连续的开发和交付,减少业务Go-To-Market的时间容器:基础使能技术,使开发和部署软件系统的速度加快DevOps:新的软件开发模式,加速软件的开发速度;微服务:小而精的软件产品,易于开发、交互和维护;云原生技术帮助公司和机构在公有云、私有云和混合云等新型动态环境中,构建和运行弹性扩展的

3、应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明API。云原生应用相关背景l云原生系统引自CNCFANNUAL SURVEY 2023云原生技术在全球范围内的应用众多IT企业、银行、运营商、政府机构等转向云原生技术;相关背景p 运维挑战:规模巨大、依赖复杂、多样性强、动态性高、数据量大大规模复杂的服务依赖软件多样性强运行环境动态性高故障频发p 运维痛点:观测难覆盖、数据难融合,工具难协同,方法难泛化运维数据量大相关背景数据难融合,工具难协同,方法难泛化,结果难实施规模大、可观测数据模态多、依赖关系复杂服务可用性难维护(多模态数据难融合、运维工具难协同、运维方案难泛化)智能

4、运维国外国内Vs运维White paperCisco publicService-Centric Approach toAIOpsAugment Cisco Network Services Orchestrator(NSO)deployment with Cisco Crosswork Situation Manager to boost operational efficiencyDrivers for AIOpsOperations teams are undergoing a paradigm shift and embracing big data,modern machine le

5、arning,and other advanced analytics technologies to boost operations efficiency with proactive,personal,and dynamic insight.Gartner has coined the term AIOps(artificial intelligence for IT operations)to capture the spirit of these changes.Current methodologies,techniques,and best practices are shack

6、led by traditional siloed Operations Support System(OSS)stacks,rigid rule-based systems,and monolithic architectures.AIOps helps to quickly extract actionable insights from the operational data to help automate tasks and processes that have traditionally required human intervention.According to Gart

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **背景与挑战**:云原生系统运维面临规模大、依赖复杂、数据难融合等痛点,传统智能运维方法存在数据难融合、工具难协同、方法难泛化、结果难实施问题。 2. **核心方案**:构建基于大模型的智能运维平台(OpsLLM),通过多智能体协作(如OpsLens、WeRCA)实现故障检测、诊断与自愈,覆盖告警管理、根因分析等场景。 3. **关键数据**: - 运维大模型问答准确率超80%,RCA准确率达70%; - OpsLens在华为应用诊断准确率90%,耗时10分钟; - WeRCA在微信RCA准确率71%,耗时约5分钟; - 多智能体平台故障处理时间比头部企业减少10%。 4. **创新点**:结合LLM微调、工具学习、多智能体协同,实现从“碳基运维”到“硅基运维”的转型,提升自动化与效率。
**运维大模型如何提升效率?** **多智能体如何协同运维?** **智能运维的未来趋势?**
客服
商务合作
小程序
服务号
折叠