《破界-迭代-内生:阿里云网络稳定性进化之道.pdf》由会员分享,可在线阅读,更多相关《破界-迭代-内生:阿里云网络稳定性进化之道.pdf(11页珍藏版)》请在三个皮匠报告上搜索。
1、破界-迭代-内生阿里云网络稳定性进化之道阿里云智能集团高级产品解决方案架构师盖镜源Breaking Boundaries-Iteration-Endogenous Growth本演讲的主旨汇报阿里云网络稳定性工程实践,启迪云时代网络稳定性新范式建设。破界:传统网络稳定性模型的局限公共云的特殊性打破传统边界多链路/多板卡/多设备/多厂商/多机房等传统稳定性-容灾思想1.设计并行路径:多链路/多板卡/多设备/多厂商/多机房等2.故障检测感知:光路检测、健康检查、BFD探测等3.故障快速恢复:路径切换、主备倒换、设备替换等公共云的特殊性1.海量租户:需要软件Overlay做大租户规模,系统庞大、变更
2、频繁2.资源共享:邻居租户共享同一套物理资源,租户间突发任务干扰云网络稳定性新挑战1.微突发流量导致的性能抖动,多租户环境下的QoS保障2.软件处理网络转发,租户网络的确定性性能3.庞大软件系统,驾驭与变更管理迭代:云网络稳定性建设新范式被动响应到内生主动防御的思路、体系、技术1.“不要出问题”“控制问题影响”并获得“免疫力”2.“故障后容灾”“风险提前暴露”并修复3.人治 自治核心思路转变1.全栈自研、自主可控2.主动式故障域隔离3.打破控制面局限4.确定性的变更管理5.Fail-Ops的工程实践使用主动防御技术1.3个阶段:面向失败的架构设计、可观测与应急恢复2.3个维度:平台建设(标准)
3、、运营流程(约束)、最佳实践(执行)构建新的体系自身可演进、可验证、可迭代精准定位01破除任何黑盒依赖内生1:全栈自研的稳定性红利自主可控的核心技术02 创新更契合的稳定性技术ZooRouteNetExpressZooNet03“问题-修复-沉淀”快速闭环“一次故障,获得免疫隔离:一个独立功能组件只在一个可用区内完成服务,避免其他可用区故障影响可靠:相同功能的组件在多个可用区部署副本,当一个可用区故障后其他可用区组件副本接管服务基于可用区的单元化部署服务用户多、资源规模大的组件,按某种维度(比如实例id)拆分成多个独立子实例每个子实例仅服务一部分用户,彼此之间无共享、无干扰,缩小故障范围、缩短
4、故障平均修复时间实例水平拆分将服务随机映射到多个子实例,确保不同租户故障域组合差异化单子实例故障时,受影响租户随机且稀疏分布“规模免疫”:系统越大,个体租户受故障影响的概率越低随机化打散Shuffle Sharding在保留弹性与共享的前提下,通过主动式故障域隔离,控制爆炸半径,实现“既共享又安全”的目标控制故障爆炸半径内生2:主动式故障域隔离与爆炸半径控制缩小故障影响范围内生3:打破控制面局限使用资源预留、数据面收敛、恒定负载和静态稳定性优化的关键策略1.优先数据面收敛故障:500ms3s生效2.关键资源预留:控制面关键服务部署时必须有足够的资源预留,不依赖弹性3.保持控制面负载恒定:通过队
5、列限速、缓存、调度等机制4.静态稳定:控制平面组件失联时,转发组件保持最后状态继续工作控制面的局限性1.控制平面过载时,无法及时响应请求2.资源不足时,无法实现弹性扩容3.依赖外部服务,外部服务可能会故障4.逻辑复杂、调用延迟、一致性校验等导致响应时间长内生4:确定性的变更管理对生产系统变更入口进行管理,确保系统密闭性人工操作,效率很低Double check 的机制,通常能做到99%的正确率白屏化基础上,“变更编排智能监控异常自动刹车”效率再次提升、有错即停运维控制台上创建、执行、分析,标准化效率、正确率更高权限管控,系统密闭性形成脚本调API,效率有提升Double check 的机制,能
6、做到99%的正确率内生5:Fail-Ops工程实践以破坏性为核心的测试,面向失败的演进线上演练大规模复杂系统,单元测试/集成测试是不够的在可控条件下,主动制造不可控的破坏、主动注入故障锤炼系统、面向失败进行学习和改进,固化到系统中事前评估与事后复盘事前:影响域分析与风险预判事后:聚焦系统为何未能自动恢复把经验编码进系统将故障教训转化为可执行、可复用、自动化的系统能力从人治向自治跃迁把之前发生的故障构造成下一次演练的输入重复故障注入结语曾经,我们用“容灾倒换”的思路守护着传统网