当前位置:首页 > 报告详情

《Apache Hudi 在快手AI、BI场景的数据湖实践》.pdf

上传人: Fl****zo 编号:624433 2025-03-31 47页 6.38MB

1、Apache Hudi 在快AI、BI场景的数据湖实践2025.03.29 北京快元中钟靓快数据架构研发专家喻兆靖快数据架构研发专家当前快数据湖的态AIBI应背景应场景架构演进应用场景技术演进社区贡献1.BI 场景2.AI 场景3.未来展望BI 应场景ODS Hudi 的应场景 ODS 层更新流湖&志流湖 中间层宽表拼接&增量更新BI 应场景:更新流湖 更新流湖单份存储,成本下降 60%就绪时间 3h-10minBI 应场景:志流湖 志流湖持动态分区和数据去重01分区数据量动态 shuffle02湖任务时效性提升 2h03BI 应场景:宽表拼接 宽表拼接 提模型复度 降低找数成本 分批就绪,加

2、速核指标产出时间应背景应场景架构演进应场景技术演进社区贡献1.BI 场景2.AI 场景3.未来展望BI 技术演进 演进向Sort Merge Compaction、细化锁粒度宽表拼接、实时湖阻塞并发、可扩展索引BI 技术演进:阻塞并发(NBCC)背景补数和线上任务不能并发运维难02接难任务依赖太多,搭建链路复杂01多流拼接、流批统法持并发难03BI 技术演进:阻塞并发(NBCC)历史设计的局限线性依赖阻塞问题时间戳成BI 技术演进:阻塞并发(NBCC)全局时间戳单调递增 时间单调性保障:通过两种式实现全局时间戳单调递增 全局锁+时钟偏移等待(当前实现式)全局时间同步服务(如 Google Sp

3、anner)BI 技术演进:阻塞并发(NBCC)基于双时间区间的存储布局 Requested Time:事务发起的时间 Completion Time:事务实际完成的时间(全局单调递增)BI 技术演进:阻塞并发(NBCC)基于 Completion Time 的件切规则BI 技术演进:阻塞并发(NBCC)收益写链路和 compaction 之间不再有强依赖,宽表依赖减少 70%,补数时间提前 3h+1持实时与实时,实时与离线的并发写2避免因为依赖问题导致的数据致性问题3技术演进:Sort Merge Compaction 背景 资源消耗 稳定性较差,受流量波动影响,超过阈值耗时会不可控技术演进

4、:Sort Merge Compaction 实现案基于有序的 Base 和 Log 进 Sort Merge 合并03Base 件读取排序02Log 件读取排序01技术演进:Sort Merge Compaction 收益 产性能:内存使降低 40%,整体合并性能提升 20%。查询性能:主键有序,基于主键过滤的查询性能提升 200%+稳定性:合并任务稳定性不再受写流量影响,合并任务时间波动从 10 倍降低到 20%以内合并策略合并策略Executor 配置配置合并耗时合并耗时内存占用内存占用CPU 占用占用对照组Hash Compaction8G/5 Core57mins255G128C实验

5、组Sort Merge Compaction3G/5 Core46mins149GB149C技术演进:Extensible Bucket Index 背景 预估初始 Bucket 不准 数据量持续增 业务场景变更技术演进:Extensible Bucket Index 技术演进 Simple Bucket=Partition Bucket=Extensible Bucket技术演进:Extensible Bucket Index 对 Consistent bucket indexConsistent bucket indexExtensible bucket index应背景应场景架构演进应场

6、景技术演进社区贡献1.BI 场景2.AI 场景3.未来展望社区贡献Features that we are contributing/have contributed to CommunityNew featuresImprovementsSort MergeCompactionExtensibleBucket IndexFlink SQLSchemaEvolutionPerformance(9)Usability(14)Bug fix(17)Support Sort Merge Join Compaction:HUDI-8084Introduce extensible bucket layo

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了Apache Hudi在快手的AI和BI场景的数据湖实践。核心数据包括:1)Hudi的应用场景,如BI和AI;2)Hudi的技术演进,如Sort Merge Compaction和Extensible Bucket Index;3)Hudi在快手数据湖生态中的贡献,如实时训练、离线训练和查询分析;4)Hudi的社区贡献,如Flink SQL Schema Evolution和Performance improvements。文章还提到了数据湖在AI场景的应用背景、数据价值和应用模式。此外,文章讨论了数据湖在AI场景的架构演进,包括全链路向量化、实时订阅流批统一、数据湖的冷热数据分层和元数据组织优化等。最后,文章提到了未来展望和感谢。
"Apache Hudi如何提升数据湖AI应用效率?" "快手数据湖如何实现实时与离线数据处理?" "数据湖在AI场景下的未来技术演进趋势是什么?"
客服
商务合作
小程序
服务号
折叠