《刘昊-B站轻量级容灾演练体系构建与业务实践.pdf》由会员分享,可在线阅读,更多相关《刘昊-B站轻量级容灾演练体系构建与业务实践.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、B B站轻量级容灾演练体系构建站轻量级容灾演练体系构建与业务实践与业务实践演讲人:刘昊个人介绍刘昊 哔哩哔哩 基础架构部平台工程负责人 从业十余年,专注于运维效能、质量运营等领域。参与B站从百万级到亿级用户规模的技术演进,主导运维技术体系、中间件体系与稳定性体系的设计和落地 目前主要负责SRE体系化建设和人员转型培训,设计落地应急响应、变更防控、蓝军演练、运维数据资产和资产成本等系统,持续优化业务稳定性、提升人员效率和降低资产成本。目 录01新形势下稳定性挑战02轻量级容灾演练体系03业务场景演练实践04总结展望01新形势下稳定性挑战行业面临的稳定性挑战业务的复杂性和多样性不断提升随着信息化不
2、断深透进各行各业,软件架构也在不断演进。从最初的单节点、单线程向分布式、微服务,从网站黄页导航/移动互联网再到产业互联网/AI大模型。软件的复杂度和多样性不断快速攀升,软件系统逐步成为稳定性事故的重灾区。随着基础设施类的故障不断提升,对整个软件的基础架构和业务架构的容灾建设带来了很大挑战。IT系统的各类容灾建设,像服务高可用/服务多活/同城双活等,将面临真实大考。基础设施的故障和隐患不断增多机房火灾光缆被剪断xB站面临的稳定性挑战某商业CDN故障,引起回源级联故障,导致图片服务不可用,全链路图片容灾方案欠缺,多业务受损IDC网络设备故障导致专线异常,业务未多活或多活依赖不合理,全站多个业务受损
3、某服务业务代码变更,业务架构设计不完善,大量请求回源DB过载,业务异常嘉定机房专线网络异常,未有效绕行,影响办公网相关系统访问江苏POP和上海POP至常熟机房的光缆中断,导致单一可用区脱网,大量服务受损热搜体质,小故障,大流量持续性的多活建设,结果有效性急需验收用户访问APPWEB多屏灾备、降级第三方故障接入层DCDNDCDN三方CDN容灾、多活性能、架构SLBSLBSLBAPI GWAPI GWAPI GW服务层微服务治理服务治理/架构服务 BFF/Interface服务 BFF/Interface服务 Service服务 Service中间件/平台缓存DBKV/对象存储Failover中间
4、件/平台故障可观测系统CMDB权限/流程基础设施PaaSIAAS混合云多活服务基础设施故障B站混沌演练时间线故障频发故障频发缘缘由由强弱依赖类型故障多应用之间依赖不合理可用区切换不生效中间件异常影响失控技术改造技术改造驱驱动动多活能力改造强弱依赖梳理中间件降级策略特性保鲜实战演练实战演练验验证证模拟真实故障研发自驱执行常态演练保鲜轻量化20182020202120222024高可用异地多活演练1.0演练2.0演练3.0引入故障注入工具,具备故障注入能力建设平台,实现演练平台承载各方针对痛点进行混沌工程的实践提供统一的混沌演练平台丰富故障注入原子围绕混沌的五大原则,补充平台的产品化能力从混沌演练
5、到容灾演练全覆盖围绕轻量级演练思路,从组织、流程和技术三块切入优化低成本接入、参数自动计算、链路自动规划等重复建设过多演练工具及其多样化功能特性及其特色化功能有效范围局限性很大缺失产品化的设计演练成本高还是要靠人经验使用大团队,有的玩小团队,没的玩效果提升也明显风险性高演练成果难保鲜缺少持续性自动验证能力过往痛点过往痛点演练3.0阶段目标轻量级轻量级组织技术流程混沌实验/强弱依赖演练/预案演练/多活演练/突袭演练扮演扮演演练专家,演练专家,降低用户成本降低用户成本赋能用户具备演练经验,帮助研发、测试、稳定性负责人、SRE等不同角色的人快速上手,支撑业务稳定性工作。建设标准流程,规范演练行为建设
6、标准流程,规范演练行为平台提供标准的演练操作流程,闭环整个演练生命周期,帮助用户完善演练前、中、后的关键事项。严控爆炸半径,确保演练可控严控爆炸半径,确保演练可控智能化计算演练范围,评估影响面,确保监控和告警事件的快速介入,并支持紧急中止,严控爆炸半径,确保演练可控。推推进常态化演练,有效保鲜保稳进常态化演练,有效保鲜保稳建设自动化演练能力,确保演练可以常态化开展,保障业务容灾建设成果固化组织演练流程固化技术演练流程,抽象标准化演练过程强化产品化能力,减少演练人员心智负担围绕演练过程,丰富可观测能力,丰富可演练对象和注入范围提供自动化的演练能力可以自动回收演练结果,进行预期验证建立组织间,各职