当前位置:首页 > 报告详情

大模型时代的异构计算平台.百度智能云.[2025-01-01].pdf

上传人: C** 编号:650792 2025-01-01 41页 9.01MB

1、大模型时代的异构计算平台GPT-3开启大模型时代0101超大模型训练对基础设施的需求0202软硬结合的联合优化0303大模型发展推动基础设施演进0404演讲提纲演讲提纲0101GPTGPT-3 3开启大模型时代开启大模型时代3232条样本即可达到条样本即可达到BERTBERT的效果的效果提升提升20%20%提升提升40%40%17501750亿模型带来了质的效果飞跃亿模型带来了质的效果飞跃以OpenAI GPT-3为例大模型带来质的效果飞跃大模型带来质的效果飞跃超大规模模型逐渐具备使用处理各种新任务的通用能力注:基于GPT-3的实验分析数学计算阅读理解多轮问答SAT 考试新词构造指代推理大模型

2、带来大模型带来AIAI通用性显著提升通用性显著提升爆款应用拉动大模型训练需求爆款应用拉动大模型训练需求AIGCAIGC文生图文生图ChatGPTChatGPT大模型训练需要足够数据与算力大模型训练需要足够数据与算力ELMo(90M)BERT(340M)ERNIE 1.0(110M)GPT-2(1.5B)ERNIE 2.0(330M)T5(11B)Turing-NLG(17B)GPT-3(175B)ERNIE 3.0(10B)ERNIE 3.0 Titan(260B)ViT(630M)V-MOE(15B)ViT-G(2B)SwinV2(3B)DALL-E(1.2B)CogView(4B)ERNI

3、E-VILG(10B)Plato-XL(11B)0.050.55505002017/8/142018/9/182019/10/232020/11/262021/12/31模型大小(十亿参数)(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)Jared,et al.2020.模型参数演进Scaling Law三要素以GPT-3为例,1750亿参数模型、3000亿词语,计算量314ZFlops0202超大模型训练对基础设施的需求超大模型训练对基础设施的需求面向大模型的基础设施全景图面向大模型的基础设施全景图超大模型AI框架加速库资源管理层硬件资源ERNIE 3.0 Titan

4、VIMER-UFO 2.0ERNIE 3.0AI平台AI调度器Fleet+PaddlePaddleDeepSpeed/Megatron+PyTorchAI算子库(cuDNN,cuBLAS、AIAK-OP)集合通信库(NCCL,ECCL)GPU/昆仑RDMA存储节点从框架到集群,大模型软硬结合的全栈基础设施存储服务本报告来源于三个皮匠报告站(),由用户Id:247865下载,文档Id:153108,下载日期:2025-01-08从从AIAI框架入手,解决大模型的技术挑战框架入手,解决大模型的技术挑战传统训练:传统训练:小模型、小样本,单卡训练梯度更新前向计算反向计算Training DataGP

5、U 0大模型的变化:大模型的变化:参数量与计算量激增ZFLOPsZFLOPs计算量计算量GPT-3:314 ZFLOPs大规模参数大规模参数175B 参数算力墙算力墙A100算力312TFLOPS单卡需要32年需要分布式加速存储墙存储墙千亿参数需要2TB存储单卡显存80GB,放不下需要更多存储空间对模型和数据进行切分算力墙算力墙 数据并行数据并行GPU 0GPU 1梯度更新前向计算反向计算梯度更新前向计算反向计算梯度同步Training Data数据并行:对数据集进行切分,不同卡模型相同,数据不同 由于数据不同,所以不同卡计算的梯度也不同 为了迭代中多卡参数一致,需要引入梯度同步 梯度同步过程

6、即多卡把各自梯度求平均的过程常见梯度同步策略:同步更新 vs 异步更新策略策略异步更新异步更新同步更新同步更新实现节点异步上报局部梯度,更新并获取全局梯度,不等待其他节点节点间阻塞等待,同步上报局部梯度,并同步更新全局梯度,常用AllReduce实现加速比无阻塞,100%结合通信重叠等优化,在高性能网络下,可以做到95%+收敛性存在梯度滞后、部分更新等问题收敛较稳定数据并行中主要研究方向就是梯度同步,常见评价指标如下:加速比=多卡全局吞吐/(单卡吞吐*卡数)收敛性=精度收敛到一定范围的时间目前大模型训练主要采用同步更新策略目前大模型训练主要采用同步更新策略存储墙存储墙 流水线并行流水线并行流水

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了大模型时代的异构计算平台GPT-3,以及其对基础设施的需求和推动。文章首先指出,GPT-3等超大模型的出现,带来了AI通用性的显著提升,并推动了基础设施的演进。接着,文章详细阐述了超大模型训练对基础设施的需求,包括算力、存储和通信等方面。为了满足这些需求,文章提出了软硬结合的联合优化方案,包括算子融合、计算加速、通信优化等。最后,文章指出大模型的发展将继续推动基础设施的演进,包括算力需求的增长、多模态训练的兴起以及异构资源的利用等。
超大模型训练对基础设施有哪些需求? 软硬件结合的联合优化有哪些策略? 大模型发展如何推动基础设施演进?
客服
商务合作
小程序
服务号
折叠