计算机行业DeepSeek~V4点评：多层面技术提升训练规模超长上下文进入普惠时代-260426-在线下载-三个皮匠报告

1、DeepSeek-V4点评2026年4月24日，DeepSeek最新模型V4预览版本正式上线并同步开源，包括两个MoE语言模型-DeepSeek-V4-Pro（总参数量1.6万亿，其中激活参数为490亿）和DeepSeek-V4-Flash（总参数量2840亿，其中激活参数为130亿)，两者均支持长达一百万token的上下文长度，DeepSeek-V4系列在架构与优化方面进行了多项关键升级。国信计算机观点：DeepSeek-V4已经具备接近全球第一梯队的综合能力，同时通过极具竞争力的价格体系，打开了大规模企业级AIAgent落地的商业空间。其在长上下文训练中的优化为基础模型的进步提供了全新的方

2、向，后续百万上下文有望成为前沿模型的标配。同时，DeepSeek-V4在国产算力方面积极适配，有望推动整体国产算力需求增长。风险提示：下游需求不及预期、AI应用落地不及预期、硬件技术落地进程不及预期、宏观经济波动等。spadesuit模型层：2026年4月24日，DeepSeek最新模型V4预览版本正式上线并同步开源，包括两个MoE语言模型DeepSeek-V4-Pro（总参数量1.6万亿，其中激活参数为490亿）和DeepSeek-V4-Flash（总参数量2840亿，其中激活参数为130亿)，两者均支持长达一百万token的上下文长度，DeepSeek-V4系列在架构与优化方面进行了多项关

3、键升级：2）mHC（Manifold-ConstrainedHyper-Connections)：把残差连接从经验上有效变成数值上更稳定的可控结构。普通Hyper-Connections虽然能增强表达，但深层堆叠时容易数值不稳定；于是V4把残差映射矩阵约束到doublystochasticmanifold上，使其谱范数受限、残差传播变成non-expansive，从而改善深层训练稳定性。3）把Muonoptimizer真正落到超大规模训练中：不是简单换了个优化器，而是把Muon作为大部分模块的主优化器，同时保留AdamW给embedding、norm、head等部分，再配合hybridNewt

4、on-Schulzorthogonalization去提升收敛和稳定性。4）FP4量化训练（QAT)：DeepSeek把FP4用在两个位置，一是MoEexpertweights，二是CSA里indexer的QK路径；同时还把indexscores从FP32压到BF16，使top-kselector达到2times加速，同时保留99.7%的KV召回率。同时，FP4到FP8的dequantization在其设定下可以无损地复用现有FP8训练框架，这使得低比特方案不只是理论节省显存，而是真正进入了可训练、可rollout、可部署的主干流程。5）后训练专家独立训练+on-policydistillat

5、ion统一蒸馏：不是直接把一个通用模型拿去做混合RL，而是先分别培养数学、代码、agent、instruction-following等领域专家,再通过on-policydistillation把这些能力蒸馏回一个统一模型。设计的意义在于把专才能力最强和最终交付一个通用模型两个目标拆开做，兼顾specialization和consolidation。6）基础设施层面创新：MoE中把通信、计算、访存做成单融合kernel；更细粒度的expertwave调度来隐藏通信开销。这个MoE通信一计算融合方案不只理论可行，DeepSeek在NVIDIAGPUs和HUAWEIAscendNPUs平台上都对细

6、粒度EP调度方案完成了验证，该方案在通用推理负载下可实现1.50-1.73倍的加速，在时延敏感型场景（如RL采样迭代、高速智能体服务）中，最高加速比可达1.96倍。DeepSeek-V4使用超32万亿token数据对模型进行预训练，并辅以完整的后训练流程，以释放并增强模型能力。其中，DeepSeek-V4-Pro-Max（DeepSeek-V4-Pro的最高推理强度模式）在核心任务上重新定义了开源模型SOTA，性能超越其前代模型。DeepSeek-V4系列在长上下文场景下具有

计算机行业DeepSeek~V4点评：多层面技术提升训练规模超长上下文进入普惠时代-260426（13页）.pdf

计算机行业DeepSeek~V4点评：多层面技术提升训练规模超长上下文进入普惠时代-260426（13页）.pdf