当前位置:首页 > 报告详情

大规模 Embedding 训练优化实践.pdf

上传人: 张** 编号:169143 2024-07-06 33页 1.60MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了TensorFlow和PyTorch在处理大规模嵌入式训练时的优化方法。 1. TensorFlow的稀疏操作套件(SOK)是一个Python包,专门用于稀疏训练/推理情况下的GPU加速操作。SOK作为TensorFlow的插件,为嵌入部分提供了模型并行功能。SOK使用分层KV(HKV)哈希表存储嵌入表,可以充分利用GPU内存和主机内存。 2. PyTorch的TorchRec是一个用于在PyTorch中大规模训练推荐系统的域库,允许用户在许多GPU上分片巨大的嵌入表。我们的优化目标是针对MLPerf DLRM-DCNv2模型,不改变其原始API和架构。 3. 我们通过优化CPU启动延迟、使用CUDA图进行MLP和allreduce、为输入分布预取使用多线程内核启动、将D2H复制设置为固定主机内存复制等方式,实现了性能提升。 4. 在16个DGX H100节点上,我们实现了2.25倍的加速,每迭代GPU训练时间从7.68ms降低到3.4ms。
如何使用Sparse Operation Kit加速大规模嵌入式训练? TorchRec优化如何提高Pytorch推荐系统性能? 如何在多GPU环境下高效训练深度学习推荐模型?
客服
商务合作
小程序
服务号
折叠