1、大模型在智能运维场景中的初步探索陈鹏飞|中山大学计算机学院陈鹏飞中山大学计算机学院教授中山大学计算机学院教授,博士生导师,量子计算与软件研究所副所长,广东省大数据分析与处理重点实验室副主任,广东省杰出青年基金获得者,中山大学逸仙学者。曾获2020年陕西省计算机学会首届优秀博士论文,ACM FSE 2024(CCF A类会议)杰出论文奖,IEEE ISSRE 2022大会唯一最佳论文。主要方向为:分布式系统、操作系统、计算机网络、软件可靠性等。近年来在国际会议如ASPLOS、FSE、ICSE、ASE、WWW、ACM SoCC、IEEE INFOCOM、IEEE DSN等和期刊如IEEE TON、
2、TPDS、TOSEM、IEEE TNNLS、IEEE TDSC等发表100余篇论文。共承担了30余项项目包括国家重点研发计划课题、国家自然基金面上、青年项目、广东省、广州市科技项目。目 录CONTENTSI.背景II.运维大模型构建III.多智能体运维IV.总结与展望背景PART 01l云原生系统连续交付:连续的开发和交付,减少业务Go-To-Market的时间容器:基础使能技术,使开发和部署软件系统的速度加快DevOps:新的软件开发模式,加速软件的开发速度;微服务:小而精的软件产品,易于开发、交互和维护;云原生技术帮助公司和机构在公有云、私有云和混合云等新型动态环境中,构建和运行弹性扩展的
3、应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明API。云原生应用相关背景l云原生系统引自CNCFANNUAL SURVEY 2023云原生技术在全球范围内的应用众多IT企业、银行、运营商、政府机构等转向云原生技术;相关背景p 运维挑战:规模巨大、依赖复杂、多样性强、动态性高、数据量大大规模复杂的服务依赖软件多样性强运行环境动态性高故障频发p 运维痛点:观测难覆盖、数据难融合,工具难协同,方法难泛化运维数据量大相关背景数据难融合,工具难协同,方法难泛化,结果难实施规模大、可观测数据模态多、依赖关系复杂服务可用性难维护(多模态数据难融合、运维工具难协同、运维方案难泛化)智能
4、运维国外国内Vs运维White paperCisco publicService-Centric Approach toAIOpsAugment Cisco Network Services Orchestrator(NSO)deployment with Cisco Crosswork Situation Manager to boost operational efficiencyDrivers for AIOpsOperations teams are undergoing a paradigm shift and embracing big data,modern machine le
5、arning,and other advanced analytics technologies to boost operations efficiency with proactive,personal,and dynamic insight.Gartner has coined the term AIOps(artificial intelligence for IT operations)to capture the spirit of these changes.Current methodologies,techniques,and best practices are shack
6、led by traditional siloed Operations Support System(OSS)stacks,rigid rule-based systems,and monolithic architectures.AIOps helps to quickly extract actionable insights from the operational data to help automate tasks and processes that have traditionally required human intervention.According to Gart