1、华为384超节点测试验收白皮书引言近年来,随着数字化创新的深入推进,各行业正从传统业务向大数据、人工智能等新型应用转型。数据中心需要承载参数量从百亿向万亿跨越的大规模模型训练任务,同时面对 PB 级海量数据的高效吞吐和复杂的 I/O、计算调度,这对基础设施提出了极高的性能和稳定性要求。为应对上述挑战,华为提出了昇腾384超节点架构。昇腾384超节点是专为大模型时代设计的高性能 AI 算力基础设施,通常基于华为 Atlas 900 A3 SuperPoD 构建,通过规模化的硬件整合和创新的互联技术,解决了传统集群在大模型训练时的效率瓶颈。本白皮书基于龙岗数据对该平台的验收测试结果与工程经验,呈现
2、技术细节、测试方法、结果映射与落地建议。近日,深圳首例昇腾384超节点算力集群在深圳福田河套建成并正式投用,深圳市龙岗区数据有限公司负责完成了其中的384超节点验收测试,基于昇腾AI基础软硬件和openEuler操作系统获得了和设计时指标相一致的测试结果。继2025年9月以上海练秋湖384超节点环境进行验收测试后,龙岗数据公司还测试了广东韶关电信384超节点环境,两次测试均获得了一致的测试结果,创造了384超节点在深圳首例商用的验收测试纪录。超节点是通过高速互联协议将AI处理器组成更大内存空间的系统。要成为实用的超节点系统,必须同时具备“三大核心能力”:大带宽、低时延、内存统一编址。其中,大带
3、宽与低时延是突破设备间通信瓶颈的基础;内存统一编址则是实现“One NPU/GPU”统一编程与调度的必要条件。昇腾超节点系统创新应用全总线架构,采用高速互连技术将384张910C智算卡紧密耦合形成大型算力单元,还消耗了3168根光纤,6912个400G光模块。该架构在大幅降低模型并行通信时延的同时,还需要解决好资源调度与并行策略设置复杂性变高的问题;需要针对不同业务场景的资源和并发策略进行灵活设置,才能最大限度发挥算力单元整体性能,将算力单元与大模型的亲和度提升至最佳。架构创新概述超节点物理架构龙岗数据携手中国电信基于昇腾384超节点圆满达成深圳首个华为超节点验收里程碑硬件构成:基于 Atla
4、s 900 A3 SuperPoD 的计算单元,单台服务器配备 8 个昇腾 NPU;整套超节点由多台此类计算节点、灵衢总线板、IO 框、CPU 抽屉等组成。整机采用 8U 机框、支持 19 英寸机柜安装,机内采用正交盲插架构以提高维护性与可扩展性。互联创新:在超节点内部采用灵衢总线与全光互联实现全连接拓扑,提供 NPU 对等互联能力;跨超节点采用 400Gbps/NPU RoCE 或更高带宽方案作为异构互联保障。超节点内部互联带宽相比传统 8 卡服务器实现了数量级提升。计算与主机耦合:整机配套华为鲲鹏 920 系列 CPU,支持高核心数与 DDR5-5200 内存,从而在主机内存与 NPU 之
5、间提供更高的 I/O 吞吐能力,优化 D2H/H2D 路径。测试环境部署了 4 台和 8 台 Atlas 900 A3 SuperPoD 计算节点,所有节点通过灵衢总线或光纤全互联,并挂载 NFS-Turbo 或高性能文件系统(HPFS)共享存储,亦可使用本地 NVMe 存储。测试体系主要包括以下核心模块:(D2H/H2D、D2D、P2P、FP16算力、功耗、ROCE、集合通信、CPU/存储基准等)工具链:ascend-dmi、SPECint、FIO、mpirun/MPICH 等。D2H指从NPU到系统内存的带宽测试,D指NPU,H指主机内存。H2D和D2H一样,只是方向是从主机内存到NPU。
6、ROCE用于超节点之间的通信方式。CPU性能是由SPECINT工具来测试的,存储由FIO工具测试,包含本地盘存储和数据盘存储。其中D2H、H2D、P2P测试的是灵衢(UnifiedBus)的互联带宽。体系结构要点为了全面验证昇腾384超节点平台的性能,测试体系涵盖了从基础硬件到大模型应用的多维度指标,具有体系化和全面性的特点。测试方法与评测体系本次测试围绕大规模分布式训练与推理场景,同时覆盖芯片基础性能、通算、智算、网络与存储等关键模块,系统评估昇腾384超节点在高并发、高带宽通信条件下的性能表现与扩展能力。结合功耗与稳定性指标,进一步验证其在业界流行大模型下的工程可用性与运行可靠性。测试目标