当前位置:首页 > 报告详情

大数据技术沙龙会议报告:网易数据湖调研与实践-范欣欣.pdf

上传人: li 编号:29542 2021-02-07 33页 2.92MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了网易在数据湖建设方面的实践和规划,特别是对Iceberg table format的应用和优化。文章首先指出了数仓平台建设中存在的痛点,包括小时/分钟级别分析需求与T+1天级别延迟之间的矛盾,以及实时计算与离线计算的时效性、量本问题。接着,文章深入讲解了Iceberg的核心原理,包括其作为开放的数据湖table format的特点,以及其在分布式文件系统上的应用和SQL引擎的集成。Iceberg的新partition模式、metadata模式和新API模式都被提出来解决现有数据处理中的问题,提升查询性能和数据处理效率。 网易的Iceberg实践包括ODS层改造,提升了ETL的稳定性和性能;基于Iceberg实现统一存储的准实时数仓; Iceberg基建,完善了Iceberg对接OLAP查询引擎生态,如Impala和HiveSQL;以及Iceberg小文件治理。最后,文章展望了未来规划,包括建设元数据中心、数据资产管理、表权限管理、血缘管理、生命周期管理和小文件合并等Iceberg内核功能,实现从T+1到小时、分钟级的增量计算,以及基于Alluxio的查询加速。
"网易如何利用Iceberg优化数据湖?" "Iceberg如何实现数据的高效管理和计算?" "如何通过Iceberg实现实时数据分析和处理?"
客服
商务合作
小程序
服务号
折叠