大模型时代的异构计算平台.百度智能云.[2025-01-01].pdf-三个皮匠报告

1、大模型时代的异构计算平台GPT-3开启大模型时代0101超大模型训练对基础设施的需求0202软硬结合的联合优化0303大模型发展推动基础设施演进0404演讲提纲演讲提纲0101GPTGPT-3 3开启大模型时代开启大模型时代3232条样本即可达到条样本即可达到BERTBERT的效果的效果提升提升20%20%提升提升40%40%17501750亿模型带来了质的效果飞跃亿模型带来了质的效果飞跃以OpenAI GPT-3为例大模型带来质的效果飞跃大模型带来质的效果飞跃超大规模模型逐渐具备使用处理各种新任务的通用能力注：基于GPT-3的实验分析数学计算阅读理解多轮问答SAT 考试新词构造指代推理大模型

2、带来大模型带来AIAI通用性显著提升通用性显著提升爆款应用拉动大模型训练需求爆款应用拉动大模型训练需求AIGCAIGC文生图文生图ChatGPTChatGPT大模型训练需要足够数据与算力大模型训练需要足够数据与算力ELMo(90M)BERT(340M)ERNIE 1.0(110M)GPT-2(1.5B)ERNIE 2.0(330M)T5(11B)Turing-NLG(17B)GPT-3(175B)ERNIE 3.0(10B)ERNIE 3.0 Titan(260B)ViT(630M)V-MOE(15B)ViT-G(2B)SwinV2(3B)DALL-E(1.2B)CogView(4B)ERNI

3、E-VILG(10B)Plato-XL(11B)0.050.55505002017/8/142018/9/182019/10/232020/11/262021/12/31模型大小(十亿参数)（蓝色：语言模型；绿色：中文语言模型；橘色：多模态模型；黄色：视觉模型）Jared,et al.2020.模型参数演进Scaling Law三要素以GPT-3为例，1750亿参数模型、3000亿词语，计算量314ZFlops0202超大模型训练对基础设施的需求超大模型训练对基础设施的需求面向大模型的基础设施全景图面向大模型的基础设施全景图超大模型AI框架加速库资源管理层硬件资源ERNIE 3.0 Titan

4、VIMER-UFO 2.0ERNIE 3.0AI平台AI调度器Fleet+PaddlePaddleDeepSpeed/Megatron+PyTorchAI算子库(cuDNN,cuBLAS、AIAK-OP)集合通信库(NCCL,ECCL)GPU/昆仑RDMA存储节点从框架到集群，大模型软硬结合的全栈基础设施存储服务本报告来源于三个皮匠报告站（）,由用户Id:247865下载,文档Id:153108,下载日期:2025-01-08从从AIAI框架入手，解决大模型的技术挑战框架入手，解决大模型的技术挑战传统训练：传统训练：小模型、小样本，单卡训练梯度更新前向计算反向计算Training DataGP

5、U 0大模型的变化：大模型的变化：参数量与计算量激增ZFLOPsZFLOPs计算量计算量GPT-3:314 ZFLOPs大规模参数大规模参数175B 参数算力墙算力墙A100算力312TFLOPS单卡需要32年需要分布式加速存储墙存储墙千亿参数需要2TB存储单卡显存80GB，放不下需要更多存储空间对模型和数据进行切分算力墙算力墙数据并行数据并行GPU 0GPU 1梯度更新前向计算反向计算梯度更新前向计算反向计算梯度同步Training Data数据并行：对数据集进行切分，不同卡模型相同，数据不同由于数据不同，所以不同卡计算的梯度也不同为了迭代中多卡参数一致，需要引入梯度同步梯度同步过程

6、即多卡把各自梯度求平均的过程常见梯度同步策略：同步更新 vs 异步更新策略策略异步更新异步更新同步更新同步更新实现节点异步上报局部梯度，更新并获取全局梯度，不等待其他节点节点间阻塞等待，同步上报局部梯度，并同步更新全局梯度，常用AllReduce实现加速比无阻塞，100%结合通信重叠等优化，在高性能网络下，可以做到95%+收敛性存在梯度滞后、部分更新等问题收敛较稳定数据并行中主要研究方向就是梯度同步，常见评价指标如下：加速比=多卡全局吞吐/(单卡吞吐*卡数)收敛性=精度收敛到一定范围的时间目前大模型训练主要采用同步更新策略目前大模型训练主要采用同步更新策略存储墙存储墙流水线并行流水线并行流水

大模型时代的异构计算平台.百度智能云.[2025-01-01].pdf

相关报告