当前位置:首页 > 报告详情

《Hudi在华为云的大规模应用实践与深度优化》.pdf

上传人: Fl****zo 编号:624432 2025-03-31 19页 1.53MB

1、Apache Hudi在华为云的规模应实践与深度优化2025.03.29 北京快元中孟涛华为云 EI Lakehouse负责、Apache Hudi Committer华为LakeHouse平台介绍2.基于Apache Hudi的湖仓体架构设计3.Apache Hudi在华为内部规模推和深度优化4.统表格式管理服务1.开放生态演进趋势:基于数据湖LakeHouse架构的实时方案真正实现了流批一体Lambda架构在数据湖批加的基础上,通过Storm/FLink增加实时处理层。实现时效数据的加。批流两套加逻辑,数据致性难保证。基于Doris类的实时架构实时接:借助于ClickHouse、Doris

2、等OLAP引擎的数据实时写能,将实时数据直接到分析型数据库中实时查询:通过分析型数据库直接对外开放数据。实时数据和湖内数据还是分开加,分开存储。仅能在数据接时进次实时加。基于LakeHouse的实时架构流批体实时批流体:基于数据湖内提供的数据实时写,实时加能,实现真正的批流体分层实时加:通过Hudi的增量视图能可以很好地匹配分层加实时模型,不存在数据致性问题。华为云Lakehouse服务概览Lakehouse统数据湖格式湖格式LakeFormation/HMSHDFS/OBSACIDTime travelSchema evolutionIncremental queryFlinkSparkTr

3、ino/prestoDorisHiveLDMS服务元数据管理能优化布局动监控开放性:1.底层存储持HDFS/OBS/S3等通存储格式2.持开放表格式:Hudi,Iceberg、delta Lake,满各类需求智能优化和运维:研LDMS服务,1.持Hudi/Delta lake/Iceberg的管理;2.持元数据健康状态监控动完成表格式元数据,多版本的维护。3.数据布局最优探查:动完成如件合并,clustering,CBO统计信息构建 提升查询性能。湖格式统catalog管理:研LakeFormation对外提供统catalog管理Lakehouse存储(Hudi):提供流批一体、湖仓一体的关键

4、核心技术关键能力 变更数据:支持高效的数据更新,删除能力,基于可插拔的索引保证数据唯一,支持Upsert、Merge语法。实时性:支持CDC数据实时入湖;支持增量数据处理,可基于Flink、Spark进行流式数据处理;支持基于增量通道实现快速增量批量处理。数据事务:支持事务ACID,异常回滚,Snapshot数据隔离。并发性:支持MVCC并发控制,支持读写并发操作 多版本能力:支持基于Time Travel多版本,SavePoint能力 存储优化:支持order/z-order clustering 优化,提高查询能力 表结构变更:支持丰富的表变更操作,向后兼容。数据管理:支持丰富的clust

5、ering、compactions、clean、小文件自动合并操作 生态兼容:丰富的生态集成,支持flink/spark 写入;HetuEngine/hive/spark/flink 做实时/增量查询Hudi 是一个功能丰富的存储管理平台,支持构建具有增量数据管道的流式数据湖,针对处理引擎和常规批处理进行了优化;针对数据探索、BI场景的交互式分析能力进行了优化。Hudi计算引擎核心特性数据加工流存储格式HDFSOBS数据加载结果数据原始数据数据加工作业(批、流)UpsertDelete索引数据合并多版本Arvo行存Parquet列存存储模型Merage On ReadCopy On Write

6、读取方式镜像读增量读快速读批量处理(Hive、Spark)流处理(Flink、Spark-Streming)交互式(HetuEngine/Doris)元数据(HiveMeta)事务ACIDSchema演进Huawei Confidential6华为内部基于Hudi的批流体架构数据集成(可视化、无代码化)l 业务数据入湖和数据湖与数据集市的数据同步l 批量集成负责数据湖初始化和小时级增量数据同步l 实时集成负责秒级的数据同步数据处理(混合负载,资源利用率高)l 批量数据处理与传统大数据批量处理保持一致l 流式处理基于Hudi持久化存储的实现l HetuEngine支持湖内数据秒级分析数据存储(L

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了华为云在Apache Hudi上的大规模应用实践与深度优化。华为云EI Lakehouse负责人孟涛分享了华为内部基于Hudi的湖仓一体架构设计,以及在大规模推广和深度优化中遇到的问题和解决方案。 关键点如下: 1. 华为云Lakehouse服务概览:包括湖格式、湖格式统一管理服务、存储优化等。 2. 实时数据和湖内数据分开加工存储,仅能在数据接入时进行一次实时加工。 3. 基于LakeHouse的实时架构流批一体:实现真正的批流一体分层实时加工,不存在数据一致性问题。 4. 华为云Lakehouse服务优化:引入LDMS服务,实现表服务自动管理、数据布局自动优化等。 5. 在实践优化中,解决了批量作业切换实时作业后集群压力成倍上升、入湖Upsert写入性能不佳等问题。 6. 华为在Hudi方面的开源社区贡献:RFC-84、RFC-87等。 本文最后强调了LDMS(Lake Data Manager service)的重要性,它能为湖格式提供全托管的优化服务,降低使用成本,实现表状态巡检、数据布局自动优化等功能。
"Hudi在华为云如何实现大规模应用与优化?" "湖仓一体架构设计中,Hudi的优势和挑战是什么?" "华为云Lakehouse服务如何推动数据湖平台的实时化构建?"
客服
商务合作
小程序
服务号
折叠