《A1--张璇--大规模复杂云解决方案下可靠性测试系统实践.pdf》由会员分享,可在线阅读,更多相关《A1--张璇--大规模复杂云解决方案下可靠性测试系统实践.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、大规模复杂云解决方案下可靠性测试系统实践张璇华为云计算 主任工程师张璇华为云计算 主任工程师在华为从事测试工作10+年,工作经历涉及云及无线通信领域。业务主攻方向为DFx测试(非功能性测试),在可靠可用、性能和安全隐私有丰富的测试经验。现任华为云某解决方案DFx TSE,负责DFx测试设计及测试能力建设工作。目录C O N T E N T S1.议题背景云解决方案与云服务可靠性的挑战差异2.解题思路及经验打好可靠性的固定靶系统化模拟和注入故障通过度量KPI量化评估3.实践分享基于测试系统的测试工程方法解决方案可靠性测试系统实践议题背景01云服务及云解决方案概念对齐在云计算中,解决方案是指为满足
2、特定业务或技术需求而设计的硬件、软件和服务的组合。云解决方案可以定制以提供一系列服务,例如数据存储、应用程序托管和基础设施管理。定义 定义 云服务 是一种基于云计算技术的服务模式,通过 互联网以按需、易扩展的方式提供 计算资源与能力。云服务云解决方案or云服务组合 对象 对象服务自身业务逻辑及其上下游服务链可靠性,通常不关注底层资源及公共环境。整系统可用性,包含机房环境、网络及硬件设备,通常不深入至单个云服务业务流程内。解决方案可靠性主要解决的问题 Region2 Region1基础设施层运营管理员云服务API运维管理员运营 API运维 APIConsole集成系统运维界面API网关资源池层云
3、服务层弹性云服务器控制台块存储服务控制台虚拟私有网络服务控制台文件存储服务控制台安全服务控制台大数据服务控制台容器服务控制台对象存储服务控制台物理机服务控制台ECSSFS虚拟机池物理机池容器池云服务资源池OBSBMS灾备服务控制台灾备服务展现层块资源池对象资源池文件资源池网络资源池灾备异构资源池大数据资源池数仓资源池Console集成系统运营界面CCEEVS安全服务异构资源池服务数仓服务控制台网络服务数据库服务数据库服务控制台应用服务控制台集中式存储分布式存储对象存储X86服务器交换机鲲鹏服务器文件存储GPU/NPU负载均衡防火墙飞腾服务器海光服务器安全服务应用集成与治理EI服务IoT服务云办
4、公公共组件安全资源池KafkaNginxGaussDBLVSNTPETCDDNSAPIG日志监控告警性能报表统一认证组织管理流程审批云服务管理经营优化租户管理ManageOne 云管CloudScopeLite 运维工具eSightEI资源池云服务API租户/用户运营运维aPaaS基础服务 Global服务故障 基础设施及资源池故障 公共组件及中间件故障 影响全局的Region服务云解决方案级可靠性测试范围解决方案级可靠性测试重点:站点环境、网络设备、服务器、存储,覆盖站点级、主机级、部分服务级故障。软件系统级(6-13)站点级故障(1-2)主机级故障(3-5)解题思路及经验02解题的三个基本
5、要素基于故障注入的实验可靠性验证是发现系统可靠性瓶颈的有效途径l 故障模式库l 故障仿真注入工具l 可靠性能力评估固定靶:故障模式库模式库注入评估 故障模式表征特定层次特定对象的特定故障表现,故障模式的分层与可靠性能力预期的层级相对应;相同的故障表现可能由不同的故障原因导致,故障模式面向可靠性能力预期,故障注入面向测试执行;服务使用时需要按产品架构和业务形态,实例化到具体部件,并补充或调整特有故障模式及故障预期。Fault Mode已知场景+已知故障:构造已知场景类型(特性功能、压力、并发、长时间、规格、上层应用)下注入已知的故障进行测试(故障注入测试 面向可靠性设计验证测试)已知场景+未知故
6、障:仿真生产业务背景流量下,由于故障未知不能直接模拟,可以通过混沌因子编排、算法支持等加大对未知故障的探测(混沌测试)未知场景+已知故障:直接模拟故障,但由于场景未知,主要采用仿真业务背景流量下,随机变量(故障组合、业务变更、流量变化)注入的方式开展自动化场景探索(混沌测试)未知场景+未知故障:都未知的情况下通过白盒分析识别问题隐患,黑盒角度可以混沌测试探索进行反向补充(白盒可靠性测试+混沌测试)未知场景已知场景已知故障未知故障云解决方案故障模式库的开展思路基础设施和站点集群和主机节点机房网络机房环境外部网络集群系统物理机存储系统虚拟机容器操作系统进程线程业务和数据租户资源业务运行业务数据配置