1、从“拉群救火”到“AI 排查”:星图端到端智能诊断体系的工程实践宁振航小红书/技术专家目录0102030405大模型驱动的问题排查体系构建能力框架与落地实现路径总结与展望端到端智能诊断的核心挑战背景与思考背景与思考背景与思考研发侧的痛点与破局思考研发侧的痛点研发侧的痛点高频问题消耗大量资源高频问题消耗大量资源现象现象日常工作中,研发同学经常被拉到问题处理群以及收到工单要进行处理,线上问题排查已成为研发团队的日常高频工作 问题量级数百个数百个/周周每周流转至研发值班同学人力投入数十人数十人需多名研发同学轮值支持问题分布拆解问题分布拆解55%55%系统类问题系统类问题5-30 分钟登录失败、接口异
2、常、数据不一致25%25%策略类问题策略类问题5-30 分钟笔记未展示、活动未命中、效果未达预期20%20%咨询类问题咨询类问题3-10 分钟服务归属、接口用法、逻辑说明核心洞察:核心洞察:这种高频的中断,让研发团队在需求交付之外承担了极重的运维包袱,严重拖垮了整体的研发能效严重拖垮了整体的研发能效 核心矛盾与破局思考核心矛盾与破局思考低价值重复工作占比过高低价值重复工作占比过高核心矛盾数据核心矛盾数据问题需研发介入70%必须由懂代码的研发同学才能查清重复老问题40%已有明确排查路径和解决方案这意味着我们正在用 最高昂的研发成本最高昂的研发成本,去处理大量已知路径的重复诊断工作。破局思考破局思
3、考资深研发排查流程:现象感知线索收集根因归因修复建议目标:将专家经验转化为 AI Agent 推理链减少重复排查 常见问题自动化诊断降低值班投入 释放人力聚焦核心开发提升交付效率 响应从小时级降至分钟级核心目标:核心目标:实现 研发专家经验的规模化复制研发专家经验的规模化复制,让AI成为承载排查智慧的执行体。端到端智能诊断的核心挑战端到端智能诊断的核心挑战挑战一:三端观测平台各自为政挑战一:三端观测平台各自为政客户端客户端监控工具监控工具埋点系统、性能监控排查思路排查思路页面行为、埋点数据关注指标关注指标崩溃率、页面加载时长前端前端监控工具监控工具Sentry、前端监控平台排查思路排查思路接口
4、请求、渲染链路关注指标关注指标JS错误率、API响应时间服务端服务端监控工具监控工具Grafana、ClickHouse、Trace排查思路排查思路日志、配置、调用链关注指标关注指标QPS、错误率、P99延迟核心痛点核心痛点工具差异:工具差异:不同端依赖完全不同的工具链(Grafana、Sentry、埋点系统等)排查路径:排查路径:端侧关注容器,前端关注渲染逻辑,服务端关注日志链路知识形态:知识形态:代码、监控、日志、文档、配置、历史工单等多种信息源混杂为什么不能为什么不能 大一统大一统?若采用固定的诊断流程,必然僵化,难以适应不同端对观测平台的特化需求难以适应不同端对观测平台的特化需求 AI
5、需要具备跨端自适应能力,而非单一固定模式挑战二:日志噪音淹没关键信息挑战二:日志噪音淹没关键信息数据量级问题数据量级问题单次请求日志数百条数百条单服务场景跨服务场景数千条数千条微服务架构下完整调用链噪音干扰类型噪音干扰类型接口日志接口日志接口的请求信息,线上无价值有限方法执行流程日志方法执行流程日志打印方法调用链路与执行步骤框架框架/中间件日志中间件日志Spring、Task、MQ等框架自动输出的运行状态日志上下文超限:上下文超限:TokenToken瓶颈瓶颈大模型存在 Token限制限制,无法直接消费原始日志的全量内容。海量噪音不仅掩盖了核心错误,更会 直接撑爆大模型的直接撑爆大模型的Tok
6、en上下文窗口上下文窗口,导致模型失忆或报错。典型模型上下文128K-256K原始日志Token10K-500K超出比例1-4x核心难题:核心难题:如何在海量日志中 精准定位精准定位与问题相关与问题相关的关键片段的关键片段,是上下文工程的首要难题。挑战三:日志与代码脱节挑战三:日志与代码脱节日志能告诉我们什么?日志能告诉我们什么?示例日志:2025-04-17 14:32:15ERROR login check failed:invalid credentialsuerId=12345发生了什么(登录认证失败)错误信息(用户或者密码失效)关联对象(用户ID)日志无法告诉我们什么?日志无法告诉我