《【alluxio】Alluxio在大数据分析场景中的应用.pdf》由会员分享,可在线阅读,更多相关《【alluxio】Alluxio在大数据分析场景中的应用.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、Alluxio 在大数据场景中的应用车赛光2023-12-09目录 Alluxio里程碑回顾 Alluxio用户需求分析 大数据场景典型案例 Alluxio的架构升级Alluxio里程碑回顾PART 1Alluxio 数据编排平台Alluxio 0.2在UC伯克利AMP实验室发布2013Alluxio发布2.0版本大数据分析场景爆发式增长企业上云速度加快机器学习场景爆发式增长Alluxio项目正式开源2015开展商业化进程Alluxio发布1.0版本20162017201820192020202120222023大力拓展中国市场AlluxioDora架构发布Meta 100%Presto 服务
2、使用Alluxio支付宝80%模型训练使用AlluxioAlluxio 数据编排平台成熟的方案更高的性能更短的时间更快的速度更低的成本Alluxio 核心能力Alluxio用户需求分析PART 2大数据分析场景的需求分类性能下降管理复杂成本过高$计算应用缓存加速HDFS集群负载分流供应商产品集成简化多存储间的数据管理对象存储成本控制$单一区域多个区域大数据分析场景典型案例分享PART 3HDFS集群负载分流场景&痛点国内互联网头部企业应用场景 单一IDC Impala&HDFS A/B Testing,用户画像,用户行为分析用户痛点 常见1000亿的查询 上百的并发为常态 100%HDFS硬盘
3、利用率失败比率:查询失败率减少5%HDFS利用率:80%100%降至50%70%超时比率:查询超时减少29%查询性能:IO为主查询提升240%查询平均提升120%解决方案用户收益 SSD节点组成Alluxio集群 Alluxio挂载多个HDFS Alluxio 为 HDFS 提供数据缓存 Alluxio 为多个 HDFS 提供统一命令名空间计算应用缓存加速公司:美国共享出行头部企业(类似滴滴)场景:-单一数据中心-Presto+HDFS的大数据平台-交互式查询、数据批处理背景:-规模大:5000 Presto 节点-负载高:HDFS 90PB 读数据/天-任务多:500K 查询/天需求:-优化
4、Presto的效率(1%的提升,其绝对数也是非常可观的)方案:-以Alluxio为缓存作为基础方案,并加上以下调整-HDFS文件mtime作为缓存数据键值(cache key)的一部分,这个信息用来评判缓存数据的时效性-使用一致性哈希(consistent hashing)策略,确保缓存数据的时候,数据和worker的位置不因worker的变化而受到影响-使用cache filter来管理可缓存的数据,保证Alluxio能够充分缓存热数据,而不是冷数据-从Block到Page,让Presto对Alluxio进行随机读的操作更加高效架构图效果:-40%的批处理集群的节点使用了该方案(1500no
5、des+)-13%Presto Batch任务的IO由HDFS转移到了缓存-数据读取的延迟降低了44%计算应用缓存加速场景&需求美国共享出行头部企业应用场景 单一IDC Presto&HDFS 交互式查询、批处理任务用户需求 规模大:Presto 5000节点 负载高:HDFS 90PB/日 任务多:50万次查询/日 更高效:优化Presto的效率 解决方案用户收益 SSD节点组成Alluxio集群 Alluxio挂载多个HDFS Alluxio 为 HDFS 提供数据缓存 Alluxio 为多个 HDFS 提供统一命令名空间多供应商产品集成简化公司:国内券商头部企业场景:-本地计算访问远端对
6、象存储-numpy&POSIX+oss:/-量化计算痛点-甲方云平台需要集成多个供应商的产品-供应商的产品提供的接口互不兼容,且项目时间紧迫-需要频繁访问大量小文件,且需要控制对象存储的成本-甲方希望能够拓展云平台能力,打造统一数据接入增,在架构上做到“向未来兼容”方案:-Alluxio作为数据编排层,北向为计算应用提供POXIS接口,南向通过OSS协议对接对象存储-提供对象的原数据和数据缓存架构图:中信PPT收益:-Alluxio 桥接不同厂商的存算平台,降低需求方和供应商的系统集成沟通成本-打造云平台数据编排基础能力,为云用户提供异构存储集成、泛化计