1、去哪儿旅行AI运维提效75%落地实践李佳奇|去哪儿旅行李佳奇去哪儿旅行基础架构负责人 技术总监去哪儿旅行技术总监,基础架构负责人,技术中心TC委员、业务架构SIG负责人、负责基础架构部门,在公司推广AI智能体落地。10余年OTA一线研发经验,在高并发高可用系统建设、DDD项目落地、业务域系统价值度量、线上系统防腐治理等领域有代表性作品。在众多专业峰会担任出品人和讲师,和AZone架构院、K+Talk等合作推出线上课程和直播。目 录CONTENTSI.AI研发场景落地背景和规划II.AI巡检落地方案和成果III.告警智能分析落地方案和成果IV.总结与展望AI研发场景落地背景和规划PART 01我
2、们关注的AI大模型能力大模型在研发场景有哪些能力1.自然语言理解2.研发场景的公域知识3.逻辑推理和判断决策4.代码/DSL编写和优化5.自动化执行(搭配平台工具)我们的研发流程全景研发效能全流程AI研发全流程结合AI的机会点从单点到组织流程的重塑研发过程机会点分析阶段环节AI大模型能力价值需求阶段需求FR需求解析、竞品对比快速拆解PRD、挖掘隐性需求开发阶段编码代码生成减少开发心智损耗,减少重复低阶操作自测单测生成和执行,代码缺陷检查相比人更全面稳定的自测质量测试阶段测试和回归生成checklist和case,完善测试步骤、完善回归用例减少设计时间,提高覆盖率,降低维护成本观测业务监控异常检
3、测、波动检测、多指标分析提高检测覆盖率,增加发现问题的机会日志解析日志聚类、异常模式定位提升排查效率运维故障演练生成故障场景,智能混沌工程减少人工设计成本,提高覆盖AI研发全流程结合AI的机会点研发效能全流程+AIAIPRD 分析完善PRD to DesignJira 智能排期技术方案完善AI CodingAI 编译修复AI 自动升级AI 异常修复AI CRAI checklistAI TestAI case生成AI 质量检测AI 故障归因AI 巡检AI 告警定位落地策略1.战略2.团队3.流程4.技术数据要求结果可测量数据能闭环数据基础技术基建技术基建-应用层技术基建技术基建-能力层技术基建
4、技术基建-基础设施层多说一句模型的选择Model_Score=w1Performance+w2Domain_Fitw3Cost+w4Compatibility模型选择参考公式两个落地案例AI巡检告警归因AI巡检落地方案和成果PART 02AI巡检-高峰期巡检高峰期巡检全流程AI巡检-变更巡检变更类巡检流程AI巡检巡检内容AI巡检-高峰期巡检改造后流程AI改造巡检流程AI巡检-技术架构AI巡检技术架构AI巡检-异常识别知识+特征+AI预测AI巡检-变更巡检异常抑制基于知识的抑制AI巡检-异常识别准确率提高主要提升方法AI巡检-高峰期巡检报告AI巡检报告AI巡检-高峰期巡检报告报告中的根因分析AI
5、巡检-变更巡检异常分析报告统计特征详细分析AI巡检AI巡检提效全业务覆盖人力提效75%告警智能分析落地方案和成果PART 03告警处理场景基础平台:网关、中间件、公共服务使用方1使用方2使用方3使用方4基础平台整体指标开发团队快速定位影响整体告警体量需要处理的周告警数1w+平均定位耗时26min 中位数10min难以达成1-5-10问题解决效率目标解决方法治理告警指标完善指标关系自动归因多指标分析治理指标数据人-AI分析指标数据人-AI指标血缘关系总分关系依赖关系逻辑关系总指标:无变量/tag分指标:有变量/tag总指标:foo_qps_count分指标:foo_qps_$source_cou
6、nt:foo_qps_app_countfoo_qps_web_count上游依赖:QPS下游依赖:失败数/耗时上游依赖:entry_qps_count-appA_qps_count下游依赖:api_request_time-db_request_time指标A&B:问题程度指标A|B:问题类型问题程度:app_request&order_count问题类型:api_timeout|api_fail_count关系类型关系特征关系举例血缘关系采集指标库总分关系采集血缘关系采集