《郑锴-数据湖存储架构选型_compressed.pdf》由会员分享,可在线阅读,更多相关《郑锴-数据湖存储架构选型_compressed.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、数据湖存储架构选型 阿里巴巴 郑锴 2020-11-1 CONTENT 数据湖是个潮流 01 02 湖存储/加速:挑战很 03 “完美” 选项之 checklist 04 阿云上的 JindoFS 录 02 数据湖是个潮流 什么是数据湖 统、集中地存储全部原始数据 结构化、半结构化、图/视频/频 使 BI + AI 来分析 不只是 SQL 为什么要数据湖 数据孤岛 计算 管理 弹性 数据湖架构 数据湖加速 (JindoFS, Alluxio) 数据湖存储 (OSS, S3, HDFS) 数据湖构建 数据湖管理 元数据服务 数据开发 数据湖集成 数据治理 数据大屏 机器学习 数据报表 数据挖掘
2、数据湖应用 数据湖计算 数据湖 02 湖存储/加速:挑战很 海量数据 数据规模 PB、EB 件规模 亿级件数据 超录 成本 存储和计算分离 吞吐 性能 丰富的计算和场景 AI 训练 数据 分析、交互式、实时计算 计算场景 EMR、ECS 建、云原、混合云 架构升级和迁移 数据 迁移、校验 作业 迁移、对 运维、治理 Ranger 权限、审计 03 “完美” 选项之 checklist CheckList 1. 基于对象存储,规模存储能 2. 录元数据操作能 3. 策略灵活的缓存加速能 4. 和计算打通优化的能 CheckList (contd) 5. 持数据湖新型表格存储的能 6. 归档/压缩
3、/安全存储的能 7. 全的数据+AI态持 8. 强迁移能甚是缝迁移能 04 阿云上的 JindoFS Hadoop OSS 持和优化 元数据优化 百万级件数录,幅提升: list, delete,du,count Rename 优化 百万级件数录,rename 操作: 幅提升,持重试,回退清理 须 rename 的 Jindo Job Committer 读写 IO 优化 充分异步并发,发挥 OSS 吞吐 OSS 多版本持 优化性能开销 OSS 缓存加速系统 数据致性 元数据致性 缓存数据致性 磁盘缓存 写时缓存 读时缓存,避免读放 磁盘负载均衡 位清理 缓存块 LRU 淘汰 基于 OSS 的存储系统 管理元数据 内存缓存 细粒度锁 件数据分块存放 OSS 1 备份 缓存 1 备份 性能优化 元数据操作普遍 HDFS 缓存读 + OSS读 HDFS 扩展 基于 OSS 的 规模平扩展 Ch