《1-付求爱-服务性能分析探索与实践.pdf》由会员分享,可在线阅读,更多相关《1-付求爱-服务性能分析探索与实践.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、服务性能分析探索与实践时间:2023/05/12作者:华为云 付求爱2023 深圳站付求爱多年AIOps智能运维行业经验,担任华为云智能化运维算法专家、PaaS技术创新La智能化运维业务负责人,负责华为云PaaS研发质量看护和智能化运维关键能力构建、技术研究、整体规划、团队管理及交付落地。华为云 智能化运维算法专家嘉宾照片2023 深圳站目录CONTENTS背景介绍01 面临的挑战02 现有技术分析03 方案介绍04 有益效果05 总结06 2023 深圳站背景介绍2023 深圳站背景介绍现如今,微服务架构在部署、扩展以及自动化等方面相比传统架构都具有明显的优势,越来越多的系统选择采用微服务架
2、构。2023 深圳站背景介绍当微服务系统发生故障或性能下降时,定位问题根因是非常困难的。在微服务系统中,一个用户请求需要众多服务通过相互调用的方式共同实现,这些实现同一个用户请求的调用被称为一个调用链;调用链有时候是非常复杂的。2023 深圳站背景介绍当性能问题发生时,真正有问题的服务和与它相关的服务,都会出现指标异常以及发出告警;大量的告警让运维人员无法确定哪个微服务及接口才是故障根因。只能逐个去排查,排除掉那些本身并没有异常的服务。对于中大型系统而言,不同的服务是由不同的运维人员甚至不同的部门管理的,因此问题定界定位分析涉及到不同人员甚至不同部门的合作,分析成本非常高。因此,自动化的高效率
3、的性能分析服务对于快速处理基于服务的系统性能故障是非常重要的。2023 深圳站华为云真实案例根因接口特征:接口响应时长排第二调用次数相比其他接口调用次数偏大故障期间接口调用次数相比日常量变化不大现网大概50几个接口出现同步响应时间陡增影响现网用户100+,牵扯3个实体组织共12人,耗费1.5小时定位出问题2023 深圳站接口时延排名第一的原因为连接数据库时间过长2023 深圳站接口时延排名第二的原因为出现慢查询SQL(根因接口)2023 深圳站排名第三接口出现一条慢SQL和数据库连接池时间过长2023 深圳站面临的挑战2023 深圳站挑战 1服务间依赖关系复杂,难以分析性能问题在服务之间的传递
4、挑战 2服务更新迭代频率高,线上的云服务往往需要按需/按日发布版本,导致特征提取困难挑战 3性能异常跨调用链传播,要有跨调用链的共因识别能力,排除假阳性面临的挑战2023 深圳站现有技术分析2023 深圳站 基于长尾任务的性能恶化分析主要缺点:只认为根因会发生在耗时最长的一条恶化调用链中,容易将真实根因排除掉;只考虑服务的耗时情况,没有考虑异常传播问题,导致分析不全面;仅能识别耗时相关问题,对调用链结构异常、参数错误等导致的性能问题不具备识别能力。检测服务性能恶化遍历恶化时间窗口内,服务被调用的N个调用链选耗时最长的调用链对这条耗时最长的调用链做根因分析(基于耗时主导因素)认为得到的根因是整个
5、服务的恶化根因2023 深圳站 基于单调用链模板匹配的性能恶化分析检测服务性能恶化预处理:获取恶化时间窗口内同一接口的成功调用,并聚类形成调用链模板处理待预测调用:对带预测调用链进行基于模板的根因分析根据相似度匹配最佳模板输出性能恶化根因与模板调用链进行比较,保存差异对于模板调用链的差异进行根因分析从历史成功调用链数据中提炼正常调用链模板,对于每个分析对象,匹配最佳模板,再进行差异分析,最后排序推荐根因。主要缺点:仅着眼于根因在单条调用链上的影响因素,忽略了故障在调用链之间的相互影响以及调用链之间的差异;仅能在单条调用链上推荐根因,无法上升到真实场景中更常见的接口粒度根因推荐;无法识别多根因场
6、景。2023 深圳站 基于恶化传播图的性能恶化分析开始结束服务是否发生性能恶化?服务KPI数据通过AD算法检测服务的KPI数据构建恶化传播图节点KPI是否异常存储微服务KPI变更时间点及数据,触发基于随机游走的性能恶化根因分析方法YNNY主要缺点:对于一处异常而言,仅在得到的故障传播图上进行考虑,利用的信息不充分;该方法仍是基于传统随机游走的算法,基于随机游走的方法都存在一个缺陷,即当系统中同时出现多个故障时,服务可能会受到叠加影响,而导致分析的准确性下降。2023 深圳站方案介绍2023 深圳站服务性能恶化检测及定界方案特点1:使用基于历史数据(7天)的机器学习方法,独立学习待分析服务每个接