爱奇艺数据治理中的数据湖应用实践-杜益凡.pdf

编号:153177 PDF 27页 2.90MB 下载积分:VIP专享
下载报告请您先登录!

爱奇艺数据治理中的数据湖应用实践-杜益凡.pdf

1、爱奇艺数据治理中的数据湖应用实践爱奇艺 杜益凡爱奇艺的企业愿景我们更懂内容爱奇艺数据中台数据中台数据科学科技赋能用户业务合作支撑数据标准集成管理安全治理服务抽取信息提取知识支持决策支持创新智能制作智能体验智能终端支持智能分发数据治理理念理念立体化标准化体系化智能化产品化通过打造离线、近实时和实时数据链路,构建立体化的数据体系,满足业务对时效性和准确性的不同需求面对不同层级的用户,提供相应的数据产品,支持用户进行自助分析,最大限度发挥数据价值通过对数据体系各个环节进行标准化,保证数据质量,有助提高数据流转和使用的效率数据与人工智能深度结合,在为用户提供智能化的同时,数据中台自身也需要智能化实施是

2、从落实角度,对数据治理的标准(包括目标和方式等)进行具体的落地,确保治理工作的正常运转;让数据发挥更大价值数据工作遇到的问题跨业务难度大跨业务难度大口径不一致口径不一致数据资产模糊数据资产模糊资源成本高资源成本高接入成本高接入成本高使用门槛高使用门槛高质量低质量低可靠性低可靠性低数据沼泽数据池数据湖零散零散态态原始方式进行数据开发脚本化管理和运维数据零散,缺乏统筹规划体系缺少标准化2017 201820192020标准化标准化投递规范升级数据加工手册数据仓库建设数据服务平台平台化平台化离线开发平台实时开发平台数据集成和接入智能化智能化组织构建流程规范实施流程工具支撑效果评估2021体系化体系化

3、机器学习平台深度学习平台数据质量模型2022立体化立体化引入Iceberg流批一体链路建设数据治理工作发展过程数据湖是一种大数据技术实现数据存储数据处理数据湖也是一个大数据治理理念Data LakeData WarehouseObject StoreBIDataManagementMachine LearningNoSQL更好更快更廉价的数据仓库数据用户数据湖数据洋数据驱动的数据驱动的决策制定决策制定高度参与自助服务立即使用的数据将来使用的数据所有数据数据湖的价值数据湖数据湖灵活便宜的存储齐全的数据易查的元数据便捷的数据集成高效简单的数据使用可靠的数据管理参考:Alex Gorelik.The

4、 Enterprise Big Data Lake.集成数据 Hive、MySQL、MongoDB 等 15 种数据源之间的数据交换 多集群、多云间的数据同步应用场景应用场景 数据集成数据集成:集成业务数据,打通数据孤岛 数据迁移数据迁移:同步Hive、ClickHouse、MySQL 等数据库数据到不同DC 数据备份数据备份:全托管式的定时数据同步和备份BabelXBabelX数据体系埋点数据业务数据库第三方外部数据一致性维度数据源统一指标体系业务集市主题数仓基线集市奇巴布集市随刻集市文学集市集市用户内容流量交易互动增长应用业务报表内容运营用户运营统一数仓原始数据层(ODS)统一明细数据层(

5、DWD)统一聚合数据层(MID)累积设备库新增设备库元数据中心数据资产中心数据图谱原始数据中间数据数据目录自助分析机器学习原始区工作区产品区敏感数据敏感区大数据存储的选择Pingback埋点数据业务数据合作方数据存储Delta Lake vs Hudi vs Iceberg维度Delta LakeHudiIceberg*规模/成本深度绑定Spark、高级特性仅在商业版支持,不考虑PB级、低成本PB级、低成本行级更新支持支持增量拉取支持支持时效性近实时(5分钟)近实时(5分钟)查询引擎PrestoDB、SparkSQLPrestoSQL、SparkSQL计算引擎Spark友好、Flink较差Sp

6、ark友好、Flink支持好支持好Flink写性能遇到瓶颈写性能好写性能好发展潜力已有功能更完善抽象较好,潜力更强Iceberg是一种数据表格式Iceberg:一种新设计的开源表格式表格式用于大规模数据集分析-不是存储引擎:支持HDFS、对象存储-不是文件格式:使用Parquet存储数据-不是查询引擎:支持Spark/Flink/Presto/HiveIceberg表支持行级更新和ACIDHive vs Iceberg特性特性HiveIceberg规模/成本PB级、廉价PB级、廉价修改粒度分区级覆盖文件级文件级更新,支持跨分区修改提交机制重命名数据文件,对象存储需复制无需重命名下游重新计算修改

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(爱奇艺数据治理中的数据湖应用实践-杜益凡.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠