《ODCC:2025扁平化智算网络架构研究报告(48页).pdf》由会员分享,可在线阅读,更多相关《ODCC:2025扁平化智算网络架构研究报告(48页).pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、开放数据中心标准推进委员会ODCC2025年9月扁平化智算网络架构研究报告扁平化智算网络架构研究报告编号 ODCC-2025-03006版权声明版权声明ODCC(开放数据中心委员会)发布的各项成果,受 著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用(开放数据中心委员会)发布的各项成果,受 著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为
2、,”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。及有关单位将追究其法律责任,感谢各单位的配合与支持。编写团队编写团队项目经理:项目经理:温华锋温华锋华为技术有限公司华为技术有限公司工作组长:工作组长:何泽坤何泽坤腾讯科技(深圳)有限公司腾讯科技(深圳)有限公司贡献专家:贡献专家:李军李军华为技术有限公司华为技术有限公司王少鹏王少鹏中国信息通信研究院中国信息通信研究院潘灏涛潘灏涛华为技术有限公司华为技术有限公司董鹏董鹏华为技术有限公司华为技术有限公司陈祥玉陈祥玉华为技术有限公司华为技术有限
3、公司王海波王海波华为技术有限公司华为技术有限公司袁辉袁辉华为技术有限公司华为技术有限公司卢琛达卢琛达华为技术有限公司华为技术有限公司林友熙林友熙华为技术有限公司华为技术有限公司胡秀丽胡秀丽华为技术有限公司华为技术有限公司前言前言大模型巨大的算力需求,持续提升了集群的规模,产生了大规模的 Scale-out 网络。模型稀疏化的演进趋势,又驱动了更大规模局部大带宽互连需求,产生了逐渐扩大的 Scale-up 网络。本研究报告通过剖析智算网络训练与推理两大场景的业务负载及变化趋势,梳理不同网络类型的核心需求,对业界组网架构现状展开优缺点分析,进而提出扁平化优化方向,并展望未来网络架构发展方向。需强调
4、:扁平化架构的实现亟需产业链深度协同,关键在于突破端侧网卡与 I/O Die、及网侧交换机的高扇出能力、低功耗低时延且开放的光电互连能力、及端网协同的负载均衡与故障隔离等核心技术,这要求芯片商、设备商及最终用户形成联合攻坚生态。目录一、智算网络场景.1(一)业务负载说明.1(二)三种网络类型.6二、现有组网架构讨论.10(一)SO网络架构.10(二)SU网络架构.20三、扁平化智算网络架构优化方向.26(一)SO网络.26(二)SU网络.31四、未来网络架构趋势展望.33(一)大规模低直径的网络.34(二)多网融合.36五、附录.37六、参考.37图 目 录图 目 录图 1 大模型训练的并行技
5、术示意.2图 2 DistServe 论文中分离部署实测效果对比.4图 3 AE 分离部署仿真效果.5图 4 智算网络的分类.6图 5 胖树拓扑.9图 6 Meta 智算集群拓扑.11图 7 阿里智算集群拓扑.12图 8 不同集合通信算子对收敛的容忍度.14图 9 稠密模型和稀疏模型通信模式的差异.16图 10 多轨组网示意,图为 8 轨道.17图 11 单轨组网示意.17图 12 Dragonfly 拓扑示意图.19图 13Dragonfly+拓扑示意图.20图 14 NVL72 超节点的拓扑示意.21图 15 NVL576 超节点的拓扑示意.22图 16 H100 NVL256 成本分析.
6、22图 17 Google TPU 集群的网络架构演进.23图 18 Torus 拓扑的 Alltoall 通信性能仿真数据.24图 19 Torus 拓扑的 Allreduce 通信性能仿真数据.24图 20 AMD 的 SU 网络架构示意.25图 21 nD-FullMesh 拓扑示意图.25图 22 多平面扩展接入带宽.27图 23 Ideal Multi-Plane Network:Each NIC is equipped with multiple physicalports,each connected to a distinct network plane.A single qu