当前位置:首页 > 报告详情

07-马千里-可观测系统的多机房实践.pdf

上传人: 张** 编号:171762 2024-07-24 20页 4.62MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了小米在可观测系统多机房实践中的架构、能力现状和面临的关键问题,以及他们的解决方案和排查过程。 小米的监控架构保留了Open-Falcon的元素,并增加了Prometheus相关能力,将Open-Falcon的Alarm提取为告警平台。日志架构以ES为主要方案,Loki用作冷备存储。链路架构中,应用来自不同平台,应用中心提供了应用的管理能力。 面临的关键问题包括: 1. 大文件merge导致查询超时,单个节点负载升高,集群查询请求被间接delay并超时。解决方案包括故障期间将查询切换到备用集群,更新VM版本,增加告警。 2. 存储集群容量不足,迁移数据时影响写入,导致监控数据丢失。解决方案包括适当扩容,限制写入流量上限,增加数据积压的监控报警。 3. 集群负载高,单节点故障影响整个集群,导致监控数据丢失。解决方案包括故障期间将查询切换到备用集群,适当扩容,配置P0报警。 当前工作包括沉淀业务场景、北极星指标,优化原子能力体验,数据治理和自动化运维。
"多机房实践中的监控架构如何确保数据一致性?" "小米如何通过自研组件提升多机房系统的稳定性?" "面对存储集群容量不足,小米采取了哪些应对策略?"
客服
商务合作
小程序
服务号
折叠