《Apache Hudi 在快手AI、BI场景的数据湖实践》.pdf-三个皮匠报告

1、Apache Hudi 在快AI、BI场景的数据湖实践2025.03.29 北京快元中钟靓快数据架构研发专家喻兆靖快数据架构研发专家当前快数据湖的态AIBI应背景应场景架构演进应用场景技术演进社区贡献1.BI 场景2.AI 场景3.未来展望BI 应场景ODS Hudi 的应场景 ODS 层更新流湖&志流湖中间层宽表拼接&增量更新BI 应场景:更新流湖更新流湖单份存储，成本下降 60%就绪时间 3h-10minBI 应场景:志流湖志流湖持动态分区和数据去重01分区数据量动态 shuffle02湖任务时效性提升 2h03BI 应场景:宽表拼接宽表拼接提模型复度降低找数成本分批就绪，加

2、速核指标产出时间应背景应场景架构演进应场景技术演进社区贡献1.BI 场景2.AI 场景3.未来展望BI 技术演进演进向Sort Merge Compaction、细化锁粒度宽表拼接、实时湖阻塞并发、可扩展索引BI 技术演进:阻塞并发（NBCC）背景补数和线上任务不能并发运维难02接难任务依赖太多，搭建链路复杂01多流拼接、流批统法持并发难03BI 技术演进:阻塞并发（NBCC）历史设计的局限线性依赖阻塞问题时间戳成BI 技术演进:阻塞并发（NBCC）全局时间戳单调递增时间单调性保障：通过两种式实现全局时间戳单调递增全局锁+时钟偏移等待（当前实现式）全局时间同步服务（如 Google Sp

3、anner）BI 技术演进:阻塞并发（NBCC）基于双时间区间的存储布局 Requested Time：事务发起的时间 Completion Time：事务实际完成的时间（全局单调递增）BI 技术演进:阻塞并发（NBCC）基于 Completion Time 的件切规则BI 技术演进:阻塞并发（NBCC）收益写链路和 compaction 之间不再有强依赖，宽表依赖减少 70%，补数时间提前 3h+1持实时与实时，实时与离线的并发写2避免因为依赖问题导致的数据致性问题3技术演进:Sort Merge Compaction 背景资源消耗稳定性较差，受流量波动影响，超过阈值耗时会不可控技术演进

4、:Sort Merge Compaction 实现案基于有序的 Base 和 Log 进 Sort Merge 合并03Base 件读取排序02Log 件读取排序01技术演进:Sort Merge Compaction 收益产性能：内存使降低 40%，整体合并性能提升 20%。查询性能：主键有序，基于主键过滤的查询性能提升 200%+稳定性：合并任务稳定性不再受写流量影响，合并任务时间波动从 10 倍降低到 20%以内合并策略合并策略Executor 配置配置合并耗时合并耗时内存占用内存占用CPU 占用占用对照组Hash Compaction8G/5 Core57mins255G128C实验

5、组Sort Merge Compaction3G/5 Core46mins149GB149C技术演进:Extensible Bucket Index 背景预估初始 Bucket 不准数据量持续增业务场景变更技术演进:Extensible Bucket Index 技术演进 Simple Bucket=Partition Bucket=Extensible Bucket技术演进:Extensible Bucket Index 对 Consistent bucket indexConsistent bucket indexExtensible bucket index应背景应场景架构演进应场

6、景技术演进社区贡献1.BI 场景2.AI 场景3.未来展望社区贡献Features that we are contributing/have contributed to CommunityNew featuresImprovementsSort MergeCompactionExtensibleBucket IndexFlink SQLSchemaEvolutionPerformance(9)Usability(14)Bug fix(17)Support Sort Merge Join Compaction：HUDI-8084Introduce extensible bucket layo

《Apache Hudi 在快手AI、BI场景的数据湖实践》.pdf

相关报告