《1-彭程-抖音电商数据仓库治理实践_副本.pdf》由会员分享,可在线阅读,更多相关《1-彭程-抖音电商数据仓库治理实践_副本.pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunCon#2024抖电商数据仓库治理实践演讲:彭程-抖集团-电商数据架构师Contents录现状解读发展阶段解决案思考&展望01现状解读数据规模存储体量:存储体量EB级别,有效数据表总量过万数据源头多:BP团队有超多种数据接式,数据源头数千个计算体量:任务整体万级别,计算量级超万core数据复杂度上游下游组件类型多:多种数据源类型接业务依赖多:多个业务向依赖作业依赖多:超过上万个外部直接/间接依赖下游多:条业务线依赖电商输出场景复杂:包含搜索、推荐、结算等场景使式多:包含KV、OLAP、搜索等式数据域多:电商业务复杂度决定数据域多,超10+数据基础域数据域组合多:多数据域交叉超过2
2、0+组合情况,数据规模激增数据组织形式多:电商玩法多,数据需要不同呈现形式,应层逻辑复杂、体量较02发展阶段03解决案婴期阶段:标准化流程发布缺少管控规范/个规范规范落地效果差规范&效率平衡整合规范:在建表、开发、运维等多个流程中泛听取群众意,结合些关键标,设定对应流程增量管理:重点关注新增资产流程落地情况,尝试结合具做好评审和管控,收敛新增问题分级管理:抓放,根据实际需要,管控主流程,各流程交由各向决策问题思路整体案&效果初评详评需求评审找数流程数流程数据探查分层标准域划分标准SQL研发标准HSQL研发组件使标准服务标准同步作业研发数据质量数据SLA数据成本测试提标准阻断标准发布值班流程应急
3、流程交接流程运维完成各向产研流程管理落地,流程边界清晰、可落地承接率、逾期率均得到幅改善各类主流程变更完成管控升级,结合具化有效控制新增问题发新增资产完成管控,存量资产逐步然消亡统筹形成管理框架,并作为核开发指导原则引导各类流程建设各向根据实际需要灵活调整,达成管理平衡案效果少期阶段:稳定性&质量保障发布缺少管控变更不收敛问题感知滞后事后治理落地差资产基数、管理难增加事前发布管控:在建表、开发、运维等流程中设定稳定性、质量检测流程问题思路增加事中事件管理:增加各类组件稳定性看板、建设巡检能形成主动布防、事中问题处理流程标准化增加事后治理管理具:增加统治理具,助事后问题分析、解决,提升事后治理效
4、率全资产管理:完成资产分层及落地,建设全流程管理标准及推进落地整体案事前事中事后管理开发规范模型规范参数规范编码规范运规范链路检查配置检查编码规范质量规范性能测试质量测试调度前巡检调度中运维调度后跟踪变更巡检依赖巡检组件巡检基线监控组件监控值班运维常问题紧急问题问题复盘治理策略基线异常作业异常组件异常治理能问题分析问题处置三裁定治理效率作台治理分级治理运营资产分层质量标识SLA标识应标识标准落地具集成内部宣导上岗考试标准确定多拉业参考试运事前事中模块功能点描述依赖巡检时依赖巡检检查时任务的完成情况,避免第天凌晨调度才发现问题。依赖任务巡检检查依赖任务的完成情况,避免回溯导致问题。maxpt巡检
5、检查maxpt的依赖是否到期,上游表是否有效。T+2依赖巡检检查依赖的T+2任务是否完成,T+2容易忽略,需要关注。变更巡检表-任务致性检查检查表和任务是否对应,避免因字段不对造成任务失败源系统变更检测源系统变更触发式的响应,通知数据研发,判断是否要起变更。链路变更巡检如果sla链路变更了,巡检是否存在破线延迟的可能。队列巡检夜间回溯巡检检查队列是否有回溯的任务,避免占凌晨峰期的队列资源夜间adhoc巡检检查队列是否有adhoc任务,避免占凌晨峰期的队列资源调度前调度中调度后模块功能点描述险预警Oom预警检测任务的运状态,针对接近oom的任务报警,提醒owner优化。(包括driveroom和
6、executoroom)数据倾斜预警对于数据严重倾斜的任务进预警,提醒owner优化。异常运时预警针对作业较之前波动较的任务进预警,提醒owner优化。失败重跑成功预警针对失败次但重跑后成功的任务,仍需提醒owner优化。状态播报全局运状态播报定时发送作业/基线的运状态,更好的掌握当天任务运情况,环指标,适当进归因。基线状态播报针对基线运情况,适当给出运时间变化的原因。复盘管理报警作业归因建设报警任务的动化归因能,提升归因的准确性。sla复盘出现延迟问题,进复盘并录系统。动问题跟踪事后偏专项类解决某类、某问题场景,具有定体系性、滞后性详细产品化模块,此处不展开案效果数据质量:落地质量专项,按照