当前位置:首页 > 报告详情

会议3_利用现代 GPU 集群基于 GPU 的高效压缩方案加速 MPI ALLREDUCE 通信.pdf

上传人: Ch****l 编号:171248 2024-07-03 21页 2.60MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了两种优化MPI_Allreduce通信算法的设计方法,分别为Ring和Recursive-Doubling AllReduce,它们通过集体级别的在线压缩来加速GPU集群上的数据传输。实验结果显示,这些优化方法显著降低了通信延迟。在Pitzer系统上,Ring AllReduce结合压缩技术,相对于原始Ring算法,通信延迟降低了81.2%。在MRI系统上,这一数字为80.1%。在Frontera系统上,Ring AllReduce的通信延迟降低了69.6%,而Recursive-Doubling AllReduce则降低了74.2%。在Lassen系统上,Ring AllReduce降低了76.6%,Recursive-Doubling AllReduce降低了72.5%。此外,这些优化方法在分布式深度学习训练中也显示出了优势,例如在PyTorch DDP训练中,Ring AllReduce和Recursive-Doubling AllReduce分别可以将训练时间缩短35.7%和32.3%。这些成果证明了在线压缩技术在提高MPI通信效率和加速深度学习训练中的有效性。
"如何加速现代GPU集群上的MPI AllReduce通信?" "在线GPU压缩技术如何提升分布式深度学习训练效率?" "MPI库中的集体级压缩设计对大型DL模型训练有何影响?"
客服
商务合作
小程序
服务号
折叠