《A1--何磊--AMS无人值守系统建设与效能提升.pdf》由会员分享,可在线阅读,更多相关《A1--何磊--AMS无人值守系统建设与效能提升.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、腾讯广告 无人值守建设与效能提升何磊腾讯广告 专家开发工程师何磊腾讯 专家开发工程师腾讯广告团队专家开发工程师,目前在广告团队主要负责研效和SRE系统相关建设。曾打造广告分布式构建、测试环境管理等多个重要系统。目前专注于建设腾讯广告无人值守、一站式研发和AI CODE提效。毕业后曾就职于京东和创业公司,从事电商和短视频后台业务开发等工作目录CONTENTS解决的核心问题0102整体方案设计CICD全流程自动化03AI智能拦截与诊断04未来规划与展望05PART 01无人值守解决的核心问题广告传统的CICD全流程提升发布频率一天一发的班车制无法满足用户需求快速上线场景,特别是需要线上验证的需求显
2、得效率十分低下人力成本高,效率低运维负责整个发布流程,包括发布和指标观测,大模块长达数小时;偶尔出现故障漏拦的CASE缺乏全流程视图需求开发到发布上线涉及多个平台,缺乏统一的视图透视全流程;缺乏数据驱动效率提升的手段无人值守要解决的核心问题成本与效率 解决运维20%人力成本,实现“工业化”全自动化流水线,解放人力 全覆盖,将无人值守能力复用到非DO分离模块 规范化,统一发布平台和部署流程质量与效率 智能发布拦截,建设模块/大盘/模调/基础指标四维智能故障拦截能力,通过智能策略降低漏拦 提升发布效率,优化发布策略,实现一天多发研效能力 全流程智能护航,MR合入到发布全流程透视 智能根因分析,快速
3、解决全流程卡点,提升效率 数据驱动优化,定期复盘全流程数据度量,不断提升各环节效率010302PART 02整体方案设计无人值守全景视图三位一体能力建设依托腾讯研效底座与多工具深度协同,通过tapd需求管理、工蜂、蓝盾CI持续集成、自研的无人值守平台等系统实现了从代码提交到交付上线的全流程自动化贯通全流程自动化引入AI大模型,通过沉淀变更模块的指标分析排查经验知识,在异常变更不漏拦前提下,智能归因是否版本变更引入的指标异常,降低变更监测误拦率AI智能拦截将三个角色的工作过程串联和呈现,并通过度量数据赋能三个角色,不断优化无人值守的各个环节,达成质量、效率和稳定性的三重提升透视与度量无人值守全景
4、视图服务看板度量看板PART 03CICD全流程自动化CICD哪些环节需要人工CI/CD人工介入痛点分析01测试环境问题自动拦截工程链路的测试验证和灰度发布同时进行,如果测试环境发现问题,没有人工及时通知到SRE,则无法实现自动拦截,可能会引起现网灰度环境发布异常02diff评审确认时间长为了保证版本质量,引入现网环境和发布版本的diff结果比对功能。但之前diff噪声较多,需要开发人员逐个进行确认,人力成本高03回滚和pick能力较弱有些新上线的特性没有特性开关,无法实现快速回滚CI环节01发布手动操作多评审通过后,运维人员需要手动创建部署单,手动执行各个部署子任务,每模块每次发布 纯人工操
5、作耗时大概需要10分钟左右(不包括过程中的持续观察时间,这个时间更久)02发布跨度周期大每个模块发布整体耗时在3h+,运维人员需要全周期参与,持续关注服务的发布情况。如果有紧急工作插入,整体发布可能延后,发布时效无法保证03人工盯盘耗时高每个批次发布完成后,如果出现指标异常,则需要立即介入:如果正常则可以继续执行下一批次;如果不正常,则需要终止当前发布进行人工回滚CD环节CI中的测试自动化1.闭环CD阶段的切面,问题版本自动拦截2.研发特性确认提效,评审单的自动审批3.无法确认的特性&问题特性的快速自动回滚及pick整体实现思路建设标准的测试无人值守流水线模板,以流水线为依托,将灰度前拦截能力
6、、评审单自动评审能力、快速revert和出包能力进行串联,同时支持模块的批量快速接入能力版本自动拦截能力根据自动化测试结果自动拦截版本发布评审单自动审批能力diff噪声识别能力,diff确认效率提升49%(15.7h-8h)快速自动回滚及pick能力增加特性开关有效性检查,方便特性快速回滚CI中的测试自动化与要解决的问题CI异常归因智能体CI异常归因智能体CD中的发布自动化蓝盾流水线插件,自动串联完善指标,接入监测AI监测能力拦截异常010302蓝盾流水线插件,自动串联开发蓝盾流水线插件,将基于智研交付流发布的人工操作各流程进行串联,发布的人工操作耗时由