1、首届中国首届中国eBPFeBPF研讨会研讨会gala-gopher:基于eBPF技术的系统白盒观测能力背景介绍背景介绍随着数字社会建设,云计算、云原生等技术的普及,云场景基础设施变得越来越厚重。公开数据显示,云场景重要故障与基础设施密切相关,主流云厂商(AWS/GCP等)月平均故障150+次数1,75%的故障1H,90%5H。根据历史数据统计,云上应用性能劣化、卡顿是根据历史数据统计,云上应用性能劣化、卡顿是TOPTOP问题之一问题之一。基础设施相关的软件包括:操作系统、数据库、中间件、基础库等。其中操作系统承担衔接应用、资源的关键桥梁,其可维护性的重要性不言而喻其中操作系统承担衔接应用、资源
2、的关键桥梁,其可维护性的重要性不言而喻。首届中国首届中国eBPFeBPF研讨会研讨会011 Characterizing User and Provider Reported Cloud Failures,Mehmet Berk Cetin 2021 现状及思考:现状及思考:Bottom-upBottom-up主动式系统级运维主动式系统级运维首届中国首届中国eBPFeBPF研讨会研讨会02TO-BEu OS智能运维方案特征:Bottom-Up;主动运维;以被集成方式,作为TOP-DOWN技术方案的补充。u 典型场景:数据库场景:redis、mysql、openGauss等;分布式存储场景虚拟化
3、WEB/CDN、HPC隐患发现及问题定位业务流实时拓扑构建故障传播图构建应用/系统状态高保真采集低负载探针应用/系统画像应用SLI感知各地域用户体验如何?业务运行是否正常?应用状态监控容器、中间件问题?应用代码问题?BOTTOM-UP 技术方案u 传统运维方案特征:Top-Down;被动运维;感知应用SLI为入口层层下钻。u 局限性:等问题:无法主动发现问题。难监控:服务类应用(比如redis)无法直接观测SLI。无监控:资源类应用(比如ECS)不同使用方式、业务场景,无法定义通用、有效SLI。TOP-DOWN 技术方案应用SLI感知各地域用户体验如何?业务运行是否正常?应用状态监控容器、中间
4、件问题?应用代码问题?资源状态监控资源不足?OS问题?人工介入分析专家会诊故障识别、诊断AS-IS传统运维的局限性举例:u应用SLI有明确定义,等问题:传统运维基于Top-Down方式诊断只能被动“等”问题出现,运维人员总是被动响应。u应用SLI有明确定义,难监控:如DCS场景,租户实际体验的SLI(redis QPS)与DCS拨测结果不一致,难以发现租户层故障。u应用SLI无明确定义,无监控:如ECS场景,资源类服务的SLI受租户行为、应用类型、负载波谷等因素影响,无法明确定义SLI。A-OpsA-Ops系统整体的介绍系统整体的介绍首届中国首届中国eBPFeBPF研讨会研讨会03智能运维平台
5、(智能运维平台(A-Ops)应用运维智能运维HUB硬件故障预测 系统配置溯源系统漏洞巡检基础设施监控系统参数修复应用性能诊断系统性能瓶颈诊断应用性能监控容器逃逸防护变更影响分析应用安全运维工具集自动部署自动化及监控生态伙伴集成客户自定义系统对接广泛的技术支持基础软件运维平台(A-Ops)高保真采集架构感知配置溯源异常检测x-diagnose.大前端监控(移动端/浏览器/小程序)应用监控(功能/性能/调用链)数据中心监控(服务器/网络/存储)系统实时拓扑A-OpsA-Ops工作原理介绍工作原理介绍首届中国首届中国eBPFeBPF研讨会研讨会04STEP1:系统监控白盒化定义系统范围的实体对象OS
6、OS资源/数据应用资源/数据应用STEP2:系统架构拓扑化定义实体对象之间的拓扑关系STEP3:诊断过程可视化定义全栈软件的因果关系规则基础设施至应用的根因推导过程硬件:NIC/DISK/MEM等内核:NET/IO/SCHED/MEM等容器/进程/线程/TCP等应用SLI:数据库QPS等01系统硬件/资源出现故障02故障扩散至内核子系统03故障扩散至容器/进程04故障体现至应用性能劣化定位:云基础设施场景中,针对基础设施灰度故障导致的性能劣化、卡顿系统级故障在线诊断。gala-gopher:作为A-Ops组件之一,承担系统监控白盒化职责,基于包括eBPF在内的多种技术,集成各类探针(包括第三方