当前位置:首页 > 报告详情

《美团增量湖仓Beluga的架构设计与业务实践》.pdf

上传人: Fl****zo 编号:624458 2025-03-31 23页 2.91MB

1、美团增量湖仓Beluga的架构设计与业务实践2025.03.29 北京快元中王萌萌美团数据湖架构团队负责人典型场景2.Beluga的架构与设计3.业务实践4.未来计划1.典型场景-ODS数据入湖 ODS数据语义:全量表、快照表、增量表占存储 可同时存在,物理上相互独立 workload特征:增量数据:存量数据=1:几百keyvaluectimek1v120250322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k4v420250324 12:00:00k5v520250324 13:00:00keyvaluectimek1v120250

2、322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k4v420250324 12:00:00k5v520250324 13:00:00dt=20250322dt=20250323dt=20250324keyvaluectimek1v120250322 12:00:00k2v220250322 13:00:00k1v120250322 12:00:00k2v220250322 13:00:00k3v320250323 14:00:00k1v120250322 12:00:00k2v220250322 13:00:00k3v32025032

3、3 14:00:00k4v420250324 12:00:00k5v520250324 13:00:00dt=20250322dt=20250323dt=20250324快照表全量表增量表典型场景-长周期历史数据更新问题:少数长尾数据的更新,需要对全量数据进行读写,IO放大严重,资源浪费典型场景-流批一体的生产业务数仓的子链路迁移至湖生产全局看同时存流、批下游核设计思路ODS数据入湖MOR,一表三模式长周期历史数据更新基于ChangeLog的计算流批一体的生产兼顾流批共存的读写负载典型场景2.Beluga的架构与设计3.业务实践4.未来计划1.架构概要基于Hudi 0.12,复用TimeLin

4、e设计存储底座:HDFSFileLayout:两层分桶设计,面向流、批不同负载独立的MetaServer服务:维护Timeline、Instant、Bucket等组织关系管理compaction、clean等表服务引擎生态:Flink、Spark、PrestoBeluga的设计-ODS场景一表三模式:基于某时间字段计算数据所属的时序分区 分区数据存在继承关系 分区创建时记录timeline上界 查询时,按需求的语义选择timeline区间,即下界,进一步完成数据的组织增量数据占比少:MOR,减少IO放大 有序数据结构:LSMTreeBaseFileLogFile1LogFile3dt=2024

5、1103BaseFileLogFile1dt=20241102RepairFiledt=20241101全量表快照表增量表LogFile3dt=20241103LogFile1dt=20241102LogFile0dt=20241101BaseFileLogFile1LogFile3LogFile2LogFile2LogFile2dt=20241101BaseFileLogFile0RepairFiledt=20241102LogFile1dt=20241103LogFile2LogFile3timelinedelta commitmajor compactdelta commitdelta

6、commitrepair commitBeluga的设计-ODS场景Beluga的设计-流批下游共存的兼容两级分桶:L0:面向流读流写,HFile,参与批读MORL1:面向批读批写,Parquet动态调整分桶数:计算compact同时计算是否需要rescale分桶数量;流读写:在compact提交后的新事务中,按新L0分桶组织文件,业务可按需调整作业并发;批读写:rescale后启动的批作业应用新的L1分桶数量作为并发Checkdone:标记数据就绪,启动下游批任务调度FileGroup00219-1FileGroup1219220-1FileGroup

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了美团数据湖架构团队负责人王萌萌在2025年3月29日的分享,主要围绕美团的增量湖仓Beluga的架构设计与业务实践展开。Beluga基于Hudi 0.12,采用TimeLine设计,存储底座为HDFS,实现了流批一体的生产,并兼顾流批共存的读写负载。其核心设计思路包括ODS数据入湖、一表三模式、基于ChangeLog的计算、两级分桶设计以及独立的MetaServer服务。业务实践方面,Beluga在ODS数据入湖、基础流量数据的流批一体生产、医药某场景的指标看板等方面有广泛应用。未来计划包括提升能力丰富度、提供端到端的数据运维解决方案、推广至更多业务线以及构建更友好的生产运维平台。
"Beluga架构如何优化数据存储?" "如何通过Beluga实现流批一体生产?" "Beluga在医药行业有哪些应用案例?"
客服
商务合作
小程序
服务号
折叠