《A1--郝明鉴--AI智能故障诊断系统在嘉银的落地与实践.pdf》由会员分享,可在线阅读,更多相关《A1--郝明鉴--AI智能故障诊断系统在嘉银的落地与实践.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、AI智能故障诊断系统在嘉银的落地与实践郝明鉴嘉银科技-测试开发专家郝明鉴嘉银科技 测试开发专家嘉银科技-测试架构-测试开发专家,目前主要负责嘉银科技的效能体系设计、质量中台开发。目前完成了主干分支、精准测试平台、测试驾驶舱等平台的开发和建设。基于规则引擎+故障特征模型的故障诊断系统更是为测试、生产环境提升显著的排障效率。目录C O N T E N T S0103040502嘉银故障分析嘉银AI智能故障诊断系统实现与落地实践成果展望未来嘉银故障分析01故障画像应用数据镜像构建错误配置异常应用启动错误注册异常进程异常系统单点异步阻塞同步管道容量错误依赖错误事务异常三方故障流量突增内存溢出远程调用异
2、常缓存故障熔断降级容器故障中间件集群选举异常连接数打满主从延迟同步异常句柄用尽消息堆积容量估算错误配置错误资源抢占内存错乱上下文切换主机资源存储网络&安全宕机假死断电性能磁盘慢磁盘满磁盘损坏带宽丢包光衰网卡DDOSSaas层Paas层Iaas层运行时操作系统故障占比35%30%11%20%4%操作问题硬件故障容量问题配置问题设计缺陷41%12%10%37%代码问题设计缺陷配置问题容量问题35%19%15%15%12%4%操作问题硬件故障容量问题流程问题配置问题设计缺陷40%21%19%11%9%代码问题设计缺陷操作问题配置问题容量问题代码问题、配置问题持平设计缺陷、容量问题有所下降操作问题、设
3、计缺陷持平硬件故障、配置问题有所下降容量问题有所上升故障发生频率故障影响时长故障处理时长分析产线故障平均处理时长38分钟发现定位解决1 分钟10 分钟27 分钟通过监控告警、防资损等策略发现故障通过一键拉起UIOC组织相关人员进行定位问题定位问题后相关领域人员进行解决1分钟内发现问题,优化空间较小。继续追求更快的结果,对故障处理时长的总体帮助不大问题定位的效率取决于人员沟通、获取相关故障信息、领域专家的经验能力等。在部分场景仍有优化空间问题解决的效率取决于故障的层级,往往越底层的问题,解决耗时越长。在Saas和部分Paas层仍有优化空间嘉银AI智能故障诊断系统02故障诊断难点范围广、资源、人力
4、、不可控范围难获取领域专家、原理层,经验、协作经验强依赖根因相同、表现不同、特征拾取难类比推理慢无法复现、快速恢复、丢失现场、根因定位困难偶发丢现场环境复杂高实时性数据量大表里不一不可侵扰资源、人力特征熵增故障诊断优化范围明确经验复用自动化流程数据保留根据告警信息、监控、关系检索等手段,帮助我们给出一个初步的排查范围专家排查问题的思路录入知识库,知识库解析,发生故障的时候,可以快速检索故障发生的时候,有一套自动化流程,像平时一样帮我们完成基础层面的排障工作针对偶发性故障,目前没有特别好的解法,只能尽可能的记录当时的运行时数据,便于日后做根因分析整体架构数据中心数据拉取、推送、转换知识库归档、解
5、析、检索、GPT预测模型模型预测、输出故障点位规则组匹配规则库,诊断根因actionWeb层集合结果、规则配置、日志大屏核心组件数据中心 日志 转换 输入/出故障知识库 故障复盘 混沌工程 知识库预测模型 特征拾取 模型训练 模型预测规则引擎 知识库解析 规则组匹配 handler处理数据组件-数据中心应用水平信息应用垂直信息同时段报警关系锁定日志范围拉取/推送转换输出关系检查日志处理诊断组件-预测模型模 型预 测特 征选 择模 型数 据模 型训 练故障发生时,使用故障运行时数据,预测故障点位通过输入的数据源,解析特征,选择特征根据数据中心获取预测模型数据使用大量数据和各种算法的调试,训练出拟
6、合度较高的模型模型应用算法优化规则组诊断组件-规则引擎数据库解析引擎-DB数据和规则适配器用于check和action的初始化数据检查规则是否命中通过action去定义诊断的结果DataAction支持数学表达式,变量,操作符,常量。支持java语言基 于 s p i 的 扩 展handler,用户可以 实 现 接 口 后 上传。在code规则中使用将ui方式录入的规则,基于规则模板进行运行时转换,降低使用学习成本在规则组匹配过程中,多个规则通过上下文共享规则组内的数据上下文UI转换内置handlerspiMEVL表达式Code RuleUI RuleC