当前位置:首页 > 报告详情

周鸿-Apache Paimon数据湖在抖音集团短视频场景运用.pdf

上传人: Fl****zo 编号:624544 2025-03-31 13页 2.68MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了抖音集团在实时数据处理和数据湖元数据建设方面的实践与挑战。主要内容包括: 1. 实时架构在业务场景的应用与挑战:抖音集团采用流+批、湖仓一体的存储方式,使用Kafka、Hive、ClickHouse/Doris等工具进行ETL和在线分析。目前正尝试统一计算引擎和存储,以降低成本、提高时效,并探索支持多种计算引擎的统一计算架构。 2. 数据湖元数据建设治理:抖音集团面临现代元数据集成与AI融合的挑战,如数据湖元数据缺失、上下游关系不丰富、元数据与Metrics割裂等问题。集团正尝试通过AI辅助的方式,提高元数据管理的效率和质量。 3. 当前探索及未来规划:抖音集团计划通过需求文档生成Pipeline ETL,实现自动化研发;通过全血缘/监控元数据,实现无人值守自动化运维,调优;通过交互式对话,实现泛数据服务。 综上,抖音集团在实时数据处理和数据湖元数据建设方面取得了一定的成果,但仍面临一些挑战。未来将继续探索更高效、智能的数据处理和管理方法。
抖音集团如何运用Apache Paimon数据湖? 实时架构在业务场景中面临哪些挑战? 数据湖元数据建设治理与AI融合有哪些探索和规划?
客服
商务合作
小程序
服务号
折叠