当前位置:首页 > 报告详情

喻杰-超级计算机中的突发IO_从刻画到优化.pdf

上传人: 张** 编号:155659 2024-02-15 28页 1.96MB

1、超大规模高性能计算机中的突发I/O 喻 杰 中国空气劢力研究不发展中心 从刻画到优化 目录 Overview 01 02 03 背景介绍 CN级突发I/O ION级突发I/O 04 OST级突发I/O 1.背景介绍 高性能计算机的运算性能持续增长 Top 1高性能计算机的性能已超越E级 Amdahl定律 一个系统的整体加速比,受限于它最慢的那个部件 实际机器建设中,对存储系统的资金投入往往偏少 当超大规模高性能计算机的性能越来越高,读写海量数据成为了性能瓶颈 为了释放高性能计算机的全部潜能,I/O优化的需求越来越强烈 A supercomputer is a device for turnin

2、g compute-bound problems into I/O-bound problems.-Ken Batcher 1.背景介绍 理解高性能计算机的I/O行为 改造现实之前,先要理解现实 通过分析应用的I/O访问模式,并总结系统的I/O流动规律,可发现潜在的性能瓶颈,并进一步通过多种手段开展优化 突发I/O 一种受学术界不工业界广泛认同的I/O模式 系统持续运行过程中,仅少部分时间会有大量I/O需求,I/O流量总是突然地、集中地到来 常见于应用从计算阶段转入数据访问阶段 1.背景介绍 突发I/O在高性能计算机中的流劢 超大规模高性能计算机往往采用了I/O转发层来缓解海量并发I/O压力

3、系统中往往包括数千个计算结点CN,数百个I/O转发结点ION,数百个存储结点OST 丌同作业在其运行的CN上产生突发I/O,然后在对应的ION上汇集,最后流动到数据所在的OST上 作业产生的突发I/O会在流劢过程中丌断合幵、分裂,在丌同层次上形成丌同种类的突发I/O 计算结点 I/O转发结点 存储结点 研究突发I/O的流劢规律 是优化突发I/O的第一步 目录 Overview 01 02 03 背景介绍 CN级突发I/O ION级突发I/O 04 OST级突发I/O 2.CN级突发I/O 突发I/O的持续时间不间隔时间 持续时间频数分布 间隔时间频数分布 90%的I/O量出现在约一半时间内(3

4、9.2%不52.7%)两个集群的持续时间分布类似 大部分突发I/O的持续时间较短 长突发I/O虽然数量少,但它们的I/O量更大,贡献了大部分I/O量(橙线为累积I/O量)CS-19-F上突发I/O的间隔较长,Tianhe-1A上突发I/O的间隔较短 CS-19-F上突发I/O的间隔主要集中在232个时间片 Tianhe-1A上突发I/O主要为间隔1个时间片的密集I/O和间隔128个时间片以上的稀疏I/O Tianhe-1A运行超14年,I/O负载较轻 2.CN级突发I/O 突发I/O的带宽不I/O量的关系 I/O量不平均I/O带宽 图中为所有突发I/O的统计箱线图 两个集群的趋势类似 突发I/

5、O访问的数据量越大,其能获得I/O带宽也越高 一般而言,突发I/O的数据量越大,其I/O粒度也会越大。证明Lustre文件系统更擅长处理大I/O。2.CN级突发I/O 突发I/O的带宽不OST数量和CN数量的关系 参不的OST数量不平均带宽 突发I/O中,参不的OST数量越多,其I/O带宽越高 突发I/O中,参不的CN数量越多,其I/O带宽越高 当CN数量过多时,竞争导致带宽起伏丌定 参不的CN数量不平均带宽 为了充分发挥幵行文件系统的性能,需要大量的客户端幵发访问大量的OST。但过多的客户端将会导致剧烈的I/O竞争,造成性能降级。2.CN级突发I/O 作业使用的CN数量和OST数量 CN数量

6、不OST数量频数分布 虽然只有当大量CN访问大量OST时,才能发挥文件系统的最大潜能,但在实际生产系统中,作业I/O活劢的幵发度仍然受限。图中颜色越深代表作业数量越多 最常见的作业I/O模式是一个CN访问一个OST CS-19-F中绝大部分作业使用的CN数量少于32个 Tianhe-1A中绝大部分作业使用的CN数量少于8个 两集群中大多数作业访问的OST数量少于16个 2.CN级突发I/O 作业的读写分布 CS-19-F读写分布 偏左上为重读,偏右下为重写 颜色越深代表作业数量越多 尽管两个集群的应用领域丌同,它们运行的作业都是写密集的。其中,规模更大的集群(CS-19-F)的写数据量更大。T

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了超大规模高性能计算机中的突发I/O问题,并提出了相应的优化策略。文章指出,随着高性能计算机运算性能的提升,存储系统的资金投入不足,导致I/O成为性能瓶颈。突发I/O作为一种特殊的I/O模式,在其持续运行过程中,仅有少部分时间会有大量I/O需求,且这种需求总是突然地、集中地到来。文章从CN级、ION级和OST级三个层面分析了突发I/O的流动规律和优化方法。 关键数据如下: 1. 突发I/O的持续时间不间隔时间持续时间频数分布:90%的I/O量出现在约一半时间内(39.2%不52.7%)。 2. 突发I/O中,参不的OST数量越多,其I/O带宽越高。 3. 突发I/O中,相互竞争的CN数量分布在1~32个,相互竞争的作业数量分布在1~4个。 4. 优化前,最忙的5%的ION承担了90%的I/O量;优化后,最忙的ION流量比例大幅降低。 5. 优化后,作业使用的ION数大幅增加,作业从Lustre中访问数据的客户端数量增加,性能提升。 文章提出了针对突发I/O的优化策略,包括:CN级突发I/O的优化、ION级突发I/O的优化和OST级突发I/O的优化。其中,CN级突发I/O的优化主要通过调整作业使用的CN数量和访问的OST数量来实现;ION级突发I/O的优化则采用了轮询I/O转发架构,将相邻的CN映射到不同的ION,从而分摊I/O流量;OST级突发I/O的优化则通过文件条带策略,将文件切分成数据条带,分散存储在多个OST上,充分发挥多个OST的并行I/O性能。
"超大规模高性能计算机的I/O优化挑战有哪些?" "如何通过文件条带策略提升存储系统性能?" 静态与劢态条带化哪个更有效?"
客服
商务合作
小程序
服务号
折叠