《顾贤杰 复杂系统的稳定性治理实践.pdf》由会员分享,可在线阅读,更多相关《顾贤杰 复杂系统的稳定性治理实践.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站复复杂杂系系统统的的稳稳定定性性治治理理实实践践姓 名:顾贤杰时 间:2025/10/17G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0
2、 2 5 上 海 站个人简介顾贤杰公司职位网易技术支持部SRE团队主管,负责网易内部多个产品线的运维支撑工作。长期关注SRE相关的技术研发和稳定性建设,主导建设了内部的基础运维框架和大部分的运维支撑系统。在运维自动化,系统稳定性框架建设均有相关的实践,有丰富的产品运维经验和经历。G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站目录内部治理经验 稳定性技术实践 稳定性难题稳定性治理展望 G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站01稳定性难题复杂环境/系统对稳定性治理的挑战G
3、 O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站复杂系统的稳定性保障一直是难题重大故障往往源于一次不经意的日常变更,一个未预估的组件影响变更DNS网络变更容量冲击外部3方依赖近2年的业界事故系系统统升升级级 /配配置置相相关关故故障障:4 4 起起(占占比比 2 21 1%),包包括括 A Ap pp p 升升级级冲冲突突、运运维维工工具具 b bu ug g 等等。基基础础设设施施及及硬硬件件故故障障:4 4 起起(占占比比 2 21 1%),涵涵盖盖机机房房火火灾灾、交交换换机机故故障障、光光缆缆中中断断。流流量量洪洪峰峰 /容容量量
4、规规划划不不足足:3 3 起起(占占比比 1 16 6%),集集中中于于业业务务促促销销活活动动引引发发的的过过载载。系系统统级级 /核核心心模模块块故故障障:3 3 起起(占占比比 1 16 6%),包包括括支支付付宝宝支支付付异异常常、B B 站站服服务务发发现现故故障障、云云音音乐乐故故障障。第第三三方方依依赖赖故故障障:2 2 起起(占占比比 1 11 1%),涉涉及及运运营营商商网网络络、第第三三方方施施工工事事故故。测测试试 /运运维维疏疏漏漏:2 2 起起(占占比比 1 11 1%),包包括括网网易易云云音音乐乐配配置置错错误误、语语雀雀运运维维工工具具缺缺陷陷。其其他他类类型型
5、:1 1 起起(占占比比 5 5%),即即小小红红书书 i iO OS S 崩崩溃溃。G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会 2 0 2 5 上 海 站复杂系统为何变得更难以治理?风险随复杂性提升而急剧放大03业务规模快速增长,用户快速涌入,功能不断添加01从单体到分布式、再到微服务与云原生,复杂度呈指数级上升02复杂性”不是偶然,而是技术与业务演进的必然产物040246810单体应用分布式微服务云原生混合云系统复杂度和风险演化系统复杂度系统风险系统复杂度超过单个平台的管理能力G O P S 全 球 运 维 大 会 暨 研 运 数 智 化 技 术 峰 会
6、 2 0 2 5 上 海 站网易内部面临的稳定性挑战当前体系架构Region 1Region 2分布式存储云网络云主机k8s分布式存储云网络云主机k8sappAI大数据大数据AIapp分布式存储稳定性节点故障引发数据访问延迟或中断已知/未知的软件bugDNS 与服务发现业务对DNS的强依赖服务发现过载网络波动与延迟跨 AZ/Region 网络抖动引发请求超时多云环境下网络不一致性增加排查成本微服务依赖复杂性服务链路深,单点故障容易放大服务间重试、限流策略不完善导致连锁事故云云原原生生架架构构:多云环境+Kubernetes 集群微微服服务务化化:服务拆分,依赖链路复杂分分布布式式存存储储:Ce