张闰清-大模型训练和推理中的前沿优化技术.pdf

编号:1158689 PDF 39页 4.04MB 下载积分:VIP专享
下载报告请您先登录!

1、大模型训练和推理中的前沿优化技术 张闰清|清华大学张闰清 博士清华大学高性能所清华大学计算机系高性能所博士生,导师为翟季冬教授。研究领域为大模型推理系统优化。本科期间曾获得世界大学生超算竞赛ISC24现场赛总冠军。目 录CONTENTSI.背景II.并行方法简介III.Case StudyIV.前沿优化技术V.总结与展望并行训练与推理的背景PART 01为什么需要并行训练与推理-显存压力 并行推理:使用多个GPU同时进行训练/推理 大语言模型规模增长迅速:65B-671B 显存内需要保留:参数、Activation、Optimizer(训练)、KVCache(推理)上下文增加-KVCache空

2、间变大 GPU显存容量有限 32GB,80GB,96GB模型名称发布时间参数量Llama2023 年 2 月65BLlama22023 年 7 月70BLlama3.12024 年 7 月405BDeepseek-R12024 年 12 月671BGPU显存容量可容纳参数(fp8)509032GB32BH80080GB80BH2096GB96B为什么需要并行推理-SLO/高并发 真实场景有成千上万用户并发请求。用户期望对话/搜索系统在百毫秒级响应。单个/少量GPU的算力/显存带宽无法满足要求大语言模型推理过程 自回归大模型:Prefill 阶段:预处理请求中的所有 token 为每个 toke

3、n 生成相应的 KV Cache 计算密集型 Decode 阶段:基于新生成的 token 和已有 KV cache 计算下一个 token 访存密集型Prefill 阶段(计算密集)Decode 阶段(访存密集)并行方法简介PART 02基本并行方法数据并行Data Parallel/DP流水线并行Pipeline Parallel/PP张量并行Tensor Parallel/TP专家并行Expert Parallel/EP数据并行 数据并行会在不同的GPU上复制整个模型 数据并行无法缓解显存压力 开销很小 只有输入数据分发需要通信 多种实现范式 多个推理引擎实例+HTTP负载均衡 单个推理

4、引擎实例内数据并行张量并行 将模型中的张量(矩阵)在某些维度上切开 切开的结果分布到不同的GPU上 可以缓解显存压力、计算压力 通信开销较大 引入Allreduce将各个部分的结果合并 通过规划切分维度减少通信次数 扩展性较差 通信量较大 一般不进行跨机张量并行流水线并行 流水线并行将模型在Layer维度上进行切分 切开的结果分布到不同的GPU上 可以缓解显存压力、计算压力 在运行时,依次在GPU上进行运算 通信开销较小 只需要在切换流水线阶段时点对点发送Activation 问题 流水线气泡 延迟较高专家并行 在MoE模型中,可以将模型在专家维度上分割 不同GPU存储不同专家 缓解显存压力、

5、计算压力 引入All-to-All通信 通信模式复杂 引入负载不均问题 需要进行负载均衡 扩展性较好混合并行 适应不同的GPU数量、网络拓扑 张量并行、流水线并行混合Case StudyDeepSeek-V3PART 03Case Study DeepSeekV3 DeepSeek模型架构:MoE+MLAMoEMLADeepSeekV3-MoE 核心思想:共享专家+大量细粒度路由专家 共享专家:捕获通用知识、降低知识冗余 路由专家:量大、细粒度、灵活组合、方便知识表达 V3:1共享专家+256路由专家、每token激活8个路由专家不同MoE模型架构共享专家+路由专家MoE架构DeekSeekV

6、3-MLA 为了降低大模型推理成本,提出 MLA 架构 核心思想:通过低秩压缩 KV,显著降低推理时 KV cache 的存储空间需求 MLA 存储需求降低,同时可以更好地保持模型精度 MLA的KVCache无法通过张量并行分割MQAMQA:PaLMPaLM、GeminiGemini 等模型采用等模型采用GQAGQA:LLAMA3LLAMA3、ChatGLM3ChatGLM3、DeepSeekDeepSeek V1V1等等模型采用模型采用DeepSeekV3的并行推理部署 DeepSeekV3的参数量为671B 使用fp8推理时,至少需要671GB显存 16张80G显存GPU/8张96G显存G

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张闰清-大模型训练和推理中的前沿优化技术.pdf)为本站 (彩旗) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠