1、Apache Hudi在华为云的规模应实践与深度优化2025.03.29 北京快元中孟涛华为云 EI Lakehouse负责、Apache Hudi Committer华为LakeHouse平台介绍2.基于Apache Hudi的湖仓体架构设计3.Apache Hudi在华为内部规模推和深度优化4.统表格式管理服务1.开放生态演进趋势:基于数据湖LakeHouse架构的实时方案真正实现了流批一体Lambda架构在数据湖批加的基础上,通过Storm/FLink增加实时处理层。实现时效数据的加。批流两套加逻辑,数据致性难保证。基于Doris类的实时架构实时接:借助于ClickHouse、Doris
2、等OLAP引擎的数据实时写能,将实时数据直接到分析型数据库中实时查询:通过分析型数据库直接对外开放数据。实时数据和湖内数据还是分开加,分开存储。仅能在数据接时进次实时加。基于LakeHouse的实时架构流批体实时批流体:基于数据湖内提供的数据实时写,实时加能,实现真正的批流体分层实时加:通过Hudi的增量视图能可以很好地匹配分层加实时模型,不存在数据致性问题。华为云Lakehouse服务概览Lakehouse统数据湖格式湖格式LakeFormation/HMSHDFS/OBSACIDTime travelSchema evolutionIncremental queryFlinkSparkTr
3、ino/prestoDorisHiveLDMS服务元数据管理能优化布局动监控开放性:1.底层存储持HDFS/OBS/S3等通存储格式2.持开放表格式:Hudi,Iceberg、delta Lake,满各类需求智能优化和运维:研LDMS服务,1.持Hudi/Delta lake/Iceberg的管理;2.持元数据健康状态监控动完成表格式元数据,多版本的维护。3.数据布局最优探查:动完成如件合并,clustering,CBO统计信息构建 提升查询性能。湖格式统catalog管理:研LakeFormation对外提供统catalog管理Lakehouse存储(Hudi):提供流批一体、湖仓一体的关键
4、核心技术关键能力 变更数据:支持高效的数据更新,删除能力,基于可插拔的索引保证数据唯一,支持Upsert、Merge语法。实时性:支持CDC数据实时入湖;支持增量数据处理,可基于Flink、Spark进行流式数据处理;支持基于增量通道实现快速增量批量处理。数据事务:支持事务ACID,异常回滚,Snapshot数据隔离。并发性:支持MVCC并发控制,支持读写并发操作 多版本能力:支持基于Time Travel多版本,SavePoint能力 存储优化:支持order/z-order clustering 优化,提高查询能力 表结构变更:支持丰富的表变更操作,向后兼容。数据管理:支持丰富的clust
5、ering、compactions、clean、小文件自动合并操作 生态兼容:丰富的生态集成,支持flink/spark 写入;HetuEngine/hive/spark/flink 做实时/增量查询Hudi 是一个功能丰富的存储管理平台,支持构建具有增量数据管道的流式数据湖,针对处理引擎和常规批处理进行了优化;针对数据探索、BI场景的交互式分析能力进行了优化。Hudi计算引擎核心特性数据加工流存储格式HDFSOBS数据加载结果数据原始数据数据加工作业(批、流)UpsertDelete索引数据合并多版本Arvo行存Parquet列存存储模型Merage On ReadCopy On Write
6、读取方式镜像读增量读快速读批量处理(Hive、Spark)流处理(Flink、Spark-Streming)交互式(HetuEngine/Doris)元数据(HiveMeta)事务ACIDSchema演进Huawei Confidential6华为内部基于Hudi的批流体架构数据集成(可视化、无代码化)l 业务数据入湖和数据湖与数据集市的数据同步l 批量集成负责数据湖初始化和小时级增量数据同步l 实时集成负责秒级的数据同步数据处理(混合负载,资源利用率高)l 批量数据处理与传统大数据批量处理保持一致l 流式处理基于Hudi持久化存储的实现l HetuEngine支持湖内数据秒级分析数据存储(L