【知乎】Alluxio在知乎的应用.pdf

编号:153234 PDF 26页 1.66MB 下载积分:VIP专享
下载报告请您先登录!

【知乎】Alluxio在知乎的应用.pdf

1、Alluxio 在知乎的应用AI与大数据时代的加速方案贾承昆知乎大数据平台负责人目录 背景和介绍 Alluxio for AI Alluxio for Data 总结和展望背景和介绍PART 1背景和介绍知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以让人们更好的分享知识、经验和见解,找到自己的解答为品牌使命。截至 2020 年,已有超过 4000 万名答主在知乎创作,全站问题总数超过 4400 万,回答总数超过 2.4 亿。大模型时代的新挑战 多机房多算力中心 延时敏感 非结构化数据增多架构图Alluxio for AIPART 2 训练加速的

2、场景 超低的访问延时 长时间稳定运行 支持 FUSE 的方式访问场景一 AI 训练加速缓存淘汰策略:TTL LRU No Evit缓存策略问题分析:FUSE 和 Alluxio 的 block size 没有对齐优化思路:对齐 block size,难度较大 Client Memory CacheFUSE 读放大优化 Alluxio FUSE 读取性能达到 NVME 的 90%性能,对比之前 S3Proxy 方案提升 250%GPU 利用率上升,IO wait 明显减少训练加速效果 写立刻读 高并发 跨机房场景二 Model Update S3 Proxy vs FUSE SSD Cache

3、Short-circuit Read Read Ahead优化策略 主动预热 Pros:实现简单,性能好 Cons:用户需要改造适配 被动预热 Pros:无需改造 Cons:性能差 实时预热 Pros:无需改造 Cons:开始较慢,整体快数据预热Alluxio for DataPART 3场景三 Presto 缓存加速Presto RaptorX Based on Alluxio Local Cache Data Cache Footer Cache Fragment CacheWorker 软亲和性Worker 调度策略 一致性 hash Fallback集群软亲和性集群调度策略 根据 SQL 的 table 名字进行一致性哈希,选择一个集群 如果集群繁忙就选择下一个加速效果 平均缓存命中率 60%查询 P50 在 2s,BI 场景更低 排队时间对比之前有大幅度降低场景四 运维平台加速 数千节点 基础组件安装包非常大 一次滚动重启需要数十小时总结和展望PART 4 AI 模型训练和推理加速 统一的数据接入 大数据 OLAP 加速 对象存储加速应用场景总结 进一步提升模型 save/load 的性能,优化大模型训练任务的重启时间和 checkpoint 时间 平台化管理数据集和模型,简化算法工程师的工作未来展望Q&ATHANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【知乎】Alluxio在知乎的应用.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠