1、(2026 年 1 月)中兴通讯超节点技术白皮书第 2页目录目录1 1 AIAI 算力架构演进:从芯片堆砌迈向系统级协同算力架构演进:从芯片堆砌迈向系统级协同.4 42 2 超节点系统架构设计超节点系统架构设计.4 42.1芯片:从计算到互联的协同演进.62.1.1 算力芯片的演进.62.1.2 高速互联技术的突破.72.2单体超节点与 Matrix 超节点.122.2.1 Nebula 单体超节点.142.2.2 Nebula Matrix 集群超节点.223 3 以超节点为核心:打造以超节点为核心:打造 AIAI 工厂工厂.25253.1核心理念:从项目到工厂的范式转变.253.2构建路径
2、.263.2.1 大规模集群网络:突破集群扩展的规模限制.273.2.2 软件栈:超节点的“操作系统”.283.3AI 工厂的核心优势与商业价值.344 4 中兴通讯:全栈协同的中兴通讯:全栈协同的 AIAI 基础设施构建者基础设施构建者.3535中兴通讯超节点技术白皮书第 3页5 5 缩略语表缩略语表.38386 6 参考文献参考文献.3939图图目录目录图 2-1OEX 互联示意图.14图 2-2 OEX 与 Cable Tray 方案对比.15图 2-3Scale-Up 和 Scale-Out 融合和独立组网对比.25图 3-1算力仿真平台.32图 3-2MoE MMA 算子算力强度.3
3、3图 3-3Qwen3-235B 不同超节点形态最优切分下各部分耗时.33图 4-1中兴通讯:全栈协同的 AI 基础设施构建者.36中兴通讯超节点技术白皮书第 4页1AIAI 算力架构演进:从芯片堆砌迈向系统级协同算力架构演进:从芯片堆砌迈向系统级协同随着 AI 模型参数规模突破万亿量级,算力需求已从单纯的 GPU 堆叠,转向全维度的系统架构重构。受限于单芯片物理功耗密度、互连带宽与内存容量瓶颈,其算力增长边际效益递减。当前研究与工程实践表明,系统级协同架构(如高带宽域互联)成为突破单芯片性能上限的主要技术路径。这一转型的根本动因,在于单颗芯片的物理极限已成为制约算力发展的核心瓶颈。当模型规模
4、远超单芯片的算力与显存容量时,传统分布式训练方法面临通信开销剧增、算力利用率骤降等严峻挑战。在此背景下,通过高速无损互联技术,将数十甚至上百个 GPU 芯片从逻辑层面整合为统一计算单元,对外可视为一台功能极强的“超级计算机”,已成为全球主流 AI 基础设施厂商与研究机构公认的下一代算力架构核心突破方向。这一架构革新不仅实现算力密度的跃升,更是达成系统级高效协同、降低大模型训练与推理综合成本的关键技术路径。2超节点超节点系统架构设计系统架构设计超节点是通过高速互联协议与专用交换芯片构建的高带宽域(High-BandwidthDomain),将数十至数百颗 GPU 芯片在逻辑上整合为统一编址、低延
5、迟、高带宽的协同计算系统。该架构保留 GPU 的物理独立性,通过统一虚拟内存地址空间与无损互联,实现类单机的编程与调度体验。超节点并非 GPU 的简单物理堆砌,而是融合多芯片、整机硬件、高速互联与配套软件的集成系统,依托算法仿真、工程设计、软硬联合优化等综合手段,构建的极致协同计算系统。超节点对芯片的算传存基础能力,硬中兴通讯超节点技术白皮书第 5页件设计的集成能力,高带宽高可靠可扩展的互联能力,以及面向底层算法要求的软硬协同能力都提出了极高的要求,需实现端到端全链路的平衡与优化,方能构建真正意义上的最优“单一”算力产品形态超节点。为实现这一系统级协同,构建超节点,需要遵循以下四大核心前提:第
6、一,芯片能力的均衡性。第一,芯片能力的均衡性。构建超节点芯片需要满足算力、显存与互联带宽的均衡,并非所有的 GPU 芯片都具备构建超节点的潜力。比如,算力被裁剪的芯片,其计算能力难以匹配高规格的互联带宽,易造成带宽资源浪费;反之,芯片算力充足,但互联总带宽不足、互联链路数量过少,也无法支撑 GPU 互联规模的扩大,导致算力无法充分发挥。第二,互联架构的有效性。第二,互联架构的有效性。超节点互联架构需兼顾通信效率、扩展性与场景适配性三大核心要求。原则上超节点内任意 GPU 间的互联带宽是机间互联的 8 倍左右,有助于降低通信开销、提高 GPU 的 MFU(模型 FLOPs 利用率)。而传统总线(