张闰清-大模型训练和推理中的前沿优化技术.pdf-在线下载-三个皮匠报告

1、大模型训练和推理中的前沿优化技术张闰清|清华大学张闰清博士清华大学高性能所清华大学计算机系高性能所博士生，导师为翟季冬教授。研究领域为大模型推理系统优化。本科期间曾获得世界大学生超算竞赛ISC24现场赛总冠军。目录CONTENTSI.背景II.并行方法简介III.Case StudyIV.前沿优化技术V.总结与展望并行训练与推理的背景PART 01为什么需要并行训练与推理-显存压力并行推理：使用多个GPU同时进行训练/推理大语言模型规模增长迅速：65B-671B 显存内需要保留：参数、Activation、Optimizer（训练）、KVCache（推理）上下文增加-KVCache空

2、间变大 GPU显存容量有限 32GB,80GB,96GB模型名称发布时间参数量Llama2023 年 2 月65BLlama22023 年 7 月70BLlama3.12024 年 7 月405BDeepseek-R12024 年 12 月671BGPU显存容量可容纳参数(fp8)509032GB32BH80080GB80BH2096GB96B为什么需要并行推理-SLO/高并发真实场景有成千上万用户并发请求。用户期望对话/搜索系统在百毫秒级响应。单个/少量GPU的算力/显存带宽无法满足要求大语言模型推理过程自回归大模型：Prefill 阶段：预处理请求中的所有 token 为每个 toke

3、n 生成相应的 KV Cache 计算密集型 Decode 阶段：基于新生成的 token 和已有 KV cache 计算下一个 token 访存密集型Prefill 阶段(计算密集)Decode 阶段(访存密集)并行方法简介PART 02基本并行方法数据并行Data Parallel/DP流水线并行Pipeline Parallel/PP张量并行Tensor Parallel/TP专家并行Expert Parallel/EP数据并行数据并行会在不同的GPU上复制整个模型数据并行无法缓解显存压力开销很小只有输入数据分发需要通信多种实现范式多个推理引擎实例+HTTP负载均衡单个推理

4、引擎实例内数据并行张量并行将模型中的张量（矩阵）在某些维度上切开切开的结果分布到不同的GPU上可以缓解显存压力、计算压力通信开销较大引入Allreduce将各个部分的结果合并通过规划切分维度减少通信次数扩展性较差通信量较大一般不进行跨机张量并行流水线并行流水线并行将模型在Layer维度上进行切分切开的结果分布到不同的GPU上可以缓解显存压力、计算压力在运行时，依次在GPU上进行运算通信开销较小只需要在切换流水线阶段时点对点发送Activation 问题流水线气泡延迟较高专家并行在MoE模型中，可以将模型在专家维度上分割不同GPU存储不同专家缓解显存压力、

5、计算压力引入All-to-All通信通信模式复杂引入负载不均问题需要进行负载均衡扩展性较好混合并行适应不同的GPU数量、网络拓扑张量并行、流水线并行混合Case StudyDeepSeek-V3PART 03Case Study DeepSeekV3 DeepSeek模型架构：MoE+MLAMoEMLADeepSeekV3-MoE 核心思想：共享专家+大量细粒度路由专家共享专家：捕获通用知识、降低知识冗余路由专家：量大、细粒度、灵活组合、方便知识表达 V3：1共享专家+256路由专家、每token激活8个路由专家不同MoE模型架构共享专家+路由专家MoE架构DeekSeekV

6、3-MLA 为了降低大模型推理成本，提出 MLA 架构核心思想：通过低秩压缩 KV，显著降低推理时 KV cache 的存储空间需求 MLA 存储需求降低，同时可以更好地保持模型精度 MLA的KVCache无法通过张量并行分割MQAMQA：PaLMPaLM、GeminiGemini 等模型采用等模型采用GQAGQA：LLAMA3LLAMA3、ChatGLM3ChatGLM3、DeepSeekDeepSeek V1V1等等模型采用模型采用DeepSeekV3的并行推理部署 DeepSeekV3的参数量为671B 使用fp8推理时，至少需要671GB显存 16张80G显存GPU/8张96G显存G