《蓝鲸:DeepFlow在小米落地现状以及挑战(37页).pdf》由会员分享,可在线阅读,更多相关《蓝鲸:DeepFlow在小米落地现状以及挑战(37页).pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、蓝鲸 x DeepFlow 可观测性 MeetupDeepFlow在小米落地现状以及挑战谭槊 小米监控系统高级工程师CONTENTS可观测性 Meetup 基于 eBPF 的可观测性实践x01为什么引入为什么引入DeepFlow02DeepFlow在小米内部的部署架构在小米内部的部署架构03落地落地遇到的挑战和解法遇到的挑战和解法04当前落地的业务场景和长期规划当前落地的业务场景和长期规划05小米可观测性的现状与规划小米可观测性的现状与规划0101小米可观测性的现状与规划可观测性 Meetup 基于 eBPF 的可观测性实践x监控系统组为小米集团提供日志、指标、链路等可观测性数据。并通过平台将
2、这些监控系统组为小米集团提供日志、指标、链路等可观测性数据。并通过平台将这些数据结合,帮助业务发现、定位、解决问题。数据结合,帮助业务发现、定位、解决问题。1.历史成果:实现了SREOps-提供覆盖全集团的主机基础指标监控能力,同时提供日志,链路,prometheus监控等各类基于开源社区的单品,主要用户群体为全集团SRE同学。2.当前目标:集中突破DevOps-聚焦可观测性,提供以应用为核心的可观测性拳头产品来帮助业务快速解决问题,主要用户群体为业务研发。3.未来愿景:2023年实现 DevOps能力-覆盖任何应用服务,链路追踪覆盖端到端,向全集团推广可观测性平台。我们的团队是做什么的可观测
3、性 Meetup 基于 eBPF 的可观测性实践x可观测性团队现有产品1.主机的系统指标,包括:cpu,负载,内存,磁盘,网络等linux系统指标。支持指标看板以及告警能力。2.主要用户群体:集团下各个业务线的运维。有一定的使用门槛,主要由SRE同学负责配置报警以及大盘。3.覆盖整个集团全部主机:包括国内,欧洲,新加坡,印度,美国等多个机房/可用区,超过万台主机。4.功能比较完善,目前以维护为主,不做新功能迭代。Falcon-系统基础监控系统基础监控可观测性 Meetup 基于 eBPF 的可观测性实践x日志指标链路日志,链路,指标为多个单品。但数据之间没有互动,没有统一平台,业务需要单独一个
4、个去接入可观测性团队现有产品可观测性 Meetup 基于 eBPF 的可观测性实践x以应用为中心:日志,指标,链路数据均能够和应用关联。用户的大盘,可用性告警,apm性能分析,故障定位均以应用为核心展开,贴近业务研发。Hera可观测性平台可观测性 Meetup 基于 eBPF 的可观测性实践xL1 Ops被动响应,手工运维。各个团队是孤立的,数据集互不关联。烟囱式架构,业务各自实现监控来排查问题。L2 SREOps基于各个单品实现半自动运维。日志、指标覆盖 IaaS、PaaS、应用,SRE同学基于规则手动配置告警,通过 APM 或 Profiling 工具进行性能调优。L3 DevOps(当前
5、重点)(当前重点)基于平台,自动化运维。日志、链路、指标数据能互相关联。日志、指标覆盖任何服务。链路追踪覆盖端到端。L4 AIOps基于数据,智能运维。数据覆盖用户服务的全生命周期,深挖可观测数据实现 AIOps 能力。可观测性团队的规划为什么引入DeepFlow0202可观测性 Meetup 基于 eBPF 的可观测性实践x痛点一:Hera探针接入成本高,覆盖应用不全痛点二:链路信息细节不够,缺少关键的网络层跟踪Hera存在什么痛点可观测性 Meetup 基于 eBPF 的可观测性实践xHera业务方使用前需要接入OTEL探针,有一定改造成本OTEL探针-基于社区版本改造OTEL探针-jav
6、a和golang接入方式不同痛点一:探针接入成本高可观测性 Meetup 基于 eBPF 的可观测性实践xjava业务可以通过字节码注入技术自动加入探针,自动加入hera的探针(可以探测到http dubbo mysql redis等指标/链路等可观测性数据),但是并非自动化接入,仍需要业务进行少量配置改造以及发版。Java服务接入MiTelemetry非常简单,简而言之,下载opentelemetry-javaagent jar包到指定路径,服务启动参数增加-javaagent即可。接入探针后的服务启动命令格式如下:痛点一:探针接入成本高可观测性 Meetup 基于 eBPF 的可观测性实践