报告预览

苏锐-拥抱 AI我们需要什么样的存储系统？.pdf

编号：182419

PDF 40页 4.17MB 下载积分：VIP专享

下载报告请您先登录！

苏锐-拥抱 AI我们需要什么样的存储系统？.pdf

1、拥抱拥抱 AIAI，我们需要什么样的存储系统？我们需要什么样的存储系统？演讲人：苏锐自我介绍苏锐 2017 参与创办 Juicedata，负责商业化与社区发展工作之前做过 Startup founder，PM，Tech Lead 等角色目录目录用户视角下，存储系统选型的挑战有哪些？存储系统选型中的几个难题性能、价格的取舍与平衡一个 LLM 案例分享什么是 JuiceFS？为云设计的分布式文件系统2017 年创立；开源版开源版：易部署，好维护。2021年发布，10.7K stars，最大文件系统超过 70B 文件 100PB 容量；企业版企业版：2019 年开始服务 AI 领域。Ge

2、nAI、自动驾驶、量化交易、生物科技、搜广推等业务广泛使用。01 01 用户视角下，存储系统选型的挑战有哪些？描述存储系统时，需要精确量化的形容词我们经常用到下面这些词描述存储系统：大规模大量，海量大文件小文件高性能快，慢描述存储系统时，需要精确量化的形容词我们习惯于参照过往经验选择形容词，但我们需要更精确的定义。大规模：什么规模，容量，还是文件数量？大量，海量：有人说我们有大量数据，已经超过 50TB；有人说我们数据不多，只有 12PB。大文件：1MB,1GB,或者？小文件：10MB,1MB,1MB，越大越好）更需要存储系统的吞吐能力，小文件（1MB，目前很多时候在 128KB

3、上下）更需要 IOPS 能力性能：主要关注吞吐（20GB/s）和 IOPS（100K QPS），要关注扩展性天花板影响性能的因素调整的难易度一个容量规划例子预期 500TB 容量；5 亿文件规模；大文件是 GB 量级，小文件是 100KB 左右；读吞吐预估 20GB/s，峰值 40GB/s；写吞吐峰值 10GB/s；100K IOPS；业务可能快速增长，在容量、文件规模、性能维度都需要容易扩展。数据快速增长带来的挑战CV 领域MNIST，70K imgs，50MBImageNet，1.5M imgs，150GBOpenImages，9M imgs，500GBLLM 领域GPT，参数 11

4、0M，文本 5.7GGPT-2，参数1.5B，文本 40GGPT-3，参数 175B，文本 45TBGPT-4，参数 1800B，文本 1PB数据集越来越大，模型和 Checkpoint 也越来越大。单机存储必须转为分布式存储，单机训练也必须转为分布式训练。复杂的数据工作流Structured dataSemi-structured dataUnstructured dataParquet,Avro,ORC,Lance Log,CSV,JSON Image,Video,Audio,PCD,PDF,Fastq,XYZ,Bag,FFRecord ingestionclean,convertexpe

5、riment,feature engineeringpre-trainingpost-traininginferenceMegatron-LMMegatron-LMJuiceFS Unified Storage100PB100B10PB110B100TB1PB100M1B110TB10M100M10100TB10K10M如何测试存储系统？功能测试基准性能测试业务负载测试，层层递进。如何测试存储系统？兼容性是容易被忽视的，pjdfstest 和 LTP test 是两个 POSIX 兼容性权威测试集；2022 年测试结果用 S3FS 行不行？S3 LIST API 性能比文件系统慢10 x100

6、 x 倍；没有原子 RENAME 支持；没有追加写；没有 FILE LOCK。功能测试基准性能测试业务负载测试，层层递进。如何测试存储系统？功能测试基准性能测试业务负载测试，层层递进。juicefs bench#最简单的基准测试，适用于所有文件系统如何测试存储系统？同样是 JuiceFS 为什么性能不同？请在自己的环境上测试性能功能测试基准性能测试业务负载测试，层层递进。juicefs bench#最简单的基准测试，适用于所有文件系统如何测试存储系统？要识别业务系统的 I/O 模式：同步 I/O 举例：有算法工程师喜欢用 LMDB 保存数据，它的读取是同步 I/O 模式，Page

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（苏锐-拥抱 AI我们需要什么样的存储系统？.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。