1、智能运维行业数智化转型实践华为网络保障与运维服务 郝秀民高质量运维要求技术演进带来网络变化可靠性&可用性集中式分布式国外产品信创多地多中心运维规模翻4倍云内虚拟网云外物理网多中心骨干网网络变化 物理 虚拟组网云的变化 虚拟化 分布式数据中心变化故障处置(事件)生产事件:1-5-15日常运维(隐患)海量告警,被动处理生产变更(风险)大量生产变更,风险控制2025-3-9 14:30 2025-3-10 14:30,历史24小时内上报的告警(5W+)某数据中心1个月技术变更6800+监管要求:RPO0,监管最低要求15分钟;数据中心运维面临挑战故障工单处置效率低多系统查询耗时长人工操作易失误自动化
2、NPMITSM集中监控Vendor AVendor B软件SDN硬件SDN多厂商传统网络系统间数据割裂,菜单式查询,人工整合耗时30 分钟查主机IP查告警查变更拨测查应用流修复5min20min30min35min60min70min监控范围扩大到网络+业务质量,故障工单数 X 4,处置依赖专家经验人工查看经验手册,一次处置跨3+系统N+步骤,Step2 检查NAT策略Step3 检查防火墙策略Step4 检查LB策略LB负载均衡策略异常Step1 检查出口路由Step5 切换主备LBVMVMVMVMVMVMLB金融运维核心:集中式架构向分布式架构转型带来的变化与挑战面向金融行业分布式场景后的
3、业务高效运维,华为MindOPS运维平台的思考故障发现多图层拓扑统一监控故障分析告警/日志故障分析业务恢复故障隔离和应急处置感知分析处置运维对象数据采集运维能力ICT 基础设施服务器网络存储云平台VMware三方云华为云应用核心信贷其他运维系统告警/性能数据应用日志业务交易数据其他运维数据CMDB拓扑数据调用链数据虚拟网络数据日志中心运维资产告警规则库典型故障资源库AI算法库大模型知识助手分布式中间件应用网关数据库APM/NPM图数据库时序数据流量指纹运维场景化Agent故障分析运维爆炸半径分析告警根因分析推荐业务调用链异常分析数字孪生数据处理业务交易视图应用系统视图业务指标体系全链路监控处置
4、恢复故障智能定级故障应急预案应急演练最小处置单元基础设施视图运维管理报表分析资源管理运维知识库自定义大屏业务流量质差分析观测中心应急中心管理中心业务流程交易请求交易响应networkClientFirewallLeafSpinevSwitchELBCore BankingMiddlewareDatabaseVPC云网应用智AI赋能MindOPS运维平台多源数据统一采集,传输,处理,模型化,实现从数据到信息的转化从采集到建模,构建金融业务可观测技术底座,作为定界和恢复的“Single source of truth”传输Trace数据APMLog数据FilebeateBpf流量指纹普罗探针Met
5、rics数据NPM网管适配器智算网管CI数据告警数据链路数据性能数据云管平台Otel/Skyw拨测数据业务应用类设备&基础设施类检索数据Elastic Search表数据Gauss时序数据Prometheus图数据SQLG、NebulaK-V数据HBase文档数据MongoDB可观测性调用链指标日志网络连接拓扑关系配置告警多云、多厂商、多平台网络设备云管平台虚拟网络容器网络物理机容器进程虚拟机应用全栈数据多工具平台,兼容生态标准统一采集清洗加工协调衍生多模数据统一治理&协调处理配置,告警,系统指标,日志告警规则诊断故障树运维专家知识图谱大模型思维链机器决策规则 思维链协议数据,业务指标,容器日
6、志,流程 多厂家、多类型设备、多种复杂配置人 机器单维 多维智慧知识信息数据网络拓扑还原网络动态路径FlowScopeeDFI外围系统(柜面)全链路业务观测、异常感知,构建业务 基础设施的分层拓扑视图1、站在业务视角,还原业务经过的应用系统间的横向调用关系可观测,比如:业务发起到“授信系统,贷款核算平台,会计核算系统“;2、应用打开,自动还原应用系统内微服务的调用关系,包括微服务与中间件的调用关系可观测;3、下钻到某个微服务实例,自动还原微服务实例对应的纵向资源承载关系可观测,比如微服务实例对应的虚拟机、物理机、接入交换机。授信系统外网系统发起业务请求处理结果返回业务交易成功贷款核算平台接受并