1、MTSC2020中国互联网测试开发大会深圳站TESTING SUMMITCONFERENCE CHINA 20202020.11.20-21一中国深圳宝立方国际酒店主办方:TesterHame#page#MTSC中国互联网测试开发大会STING SUMMIT CONFERENCE CHINA2020有赞支付团队SRE体系建设山猫主办方:TesterHame#page#MTSC中国互联网测试开发大会目录01SRE是什么02为什么要做WhatWhy0304整体规划具体实施FrameworkImplement主办方:TesterHame#page#MTSC中国互联网测试开发大会SRE是什么OREIL
2、LYSiteReliabilityEngineering(站点可靠性工程师)概念来源:SRESREGoogle运维解密,Google对系统稳定性、高可用团队持续选代和持续建设的一种体系化解决方案Google运维解密一句话理解通过各种手段增加系统的稳定性京工电社:主办方:TesterHame#page#MTSC中国互联网测试开发大会为什么要做SRE系统架构越来越复杂稳定性故障增多业务量快速增加SLA降低直播下单场景瞬时大流量主办方:TesterHame#page#MTSC中国互联网测试开发大会为什么要做SRE建设SRE体系前后,有赞支付团队稳定性指标变化年份稳定性故障数量可用服务时间201810
3、+99.92%6201999.96%202099.99%主办方:TesterHame#page#MTSC中国互联网测试开发大会怎么做SRE哪个角色更适合推动SRE体系建设运维技术能力强;不熟悉业务开发技术能力强;熟悉自身业务测试技术能力较强;熟悉全局业务;把控项目流程主办方:TesterHame#page#MTSC中国互联网测试开发大会SRE整体规划SRE行动列表系统改造流程规范资金安全预案演练监控告警限流资损防控故障注入测试灰度发布监控治理降级故障流程管理线上巡检资金熔断容灾演练熔断人工操作收口调用链追踪渠道切换缓存双机房切换线上压测分库分表服务隔离主办方:TesterHeme#page#M
4、TSC中国互联网测试开发大会SRE整体规划实施效果策略优先级灰度发布1.投入资源小:加入项目流程规范,日常化服务隔基2.投入资源大、效果明显专项推进,投专人负责3.投入资源大、效果不明显降低优先级,最后推进投入资源100主办方:TesterHame#page#MTSC中国互联网测试开发大会SRE实施一重境-开言初始阶段,做一些沟通协调性工作,如对开发进行稳定性宣讲推动开发配置系统的熔断/限流/降级项目流程管控故障处理流程管控主办方:TesterHame#page#MTSC中国互联网测试开发大会SRE实施-限流/降级/熔断雪前效应分布式系统中经常会出现某个基础服务不可用造成整个系统不可用的情况,
5、这种现象被称为服务雪前效应如服务A调用服务B1.服务提供者B不可用2.服务A调用重试加大流量压力3.服务调用者A不可用4.故障逐级传导到最上游,整条链路所有系统雪扇主办方:TesterHame#page#MTSC中国互联网测试开发大会SRE实施-限流/降级/熔断Tesla管理后台senice有赞的限流/降级/熔断管理平台hysrtix配置管理监控报表使用令牌桶模式实现限流0a0commandmetricsconfigurationmetricsproperties基于开源的Hystrix实现降级熔断report服务依赖隔离、fallback降级Thirdservicemysql主办方:Test
6、erHame#page#MTSC中国互联网测试开发大会SRE实施二重境-炼体对业务及稳定性的理解更深入了,尝试探索更深层次的问题,如:故障注入测试并发场景测试主办方:TesterHame#page#MTSC中国互联网测试开发大会SRE实施-故障注入测试VEDDocker Monkey :限处理任务定时任务有赞的故障注入平台N9任务医存负308通用故障执行单非定时任务基于开源的Sandbox开发介介1可以在QA环境注入网络故障、中间件故介障、JMV故障,测试对应的故障场景EQASAD8CVM缓存NSQ主办方:TesterHame#page#MTSC中国互联