1、Azalea-开放型算力基础设施开源评测框架,中兴通讯,2025/11/15,刘兴,刘兴中兴通讯专家级工程师,10年基础设施研发及运维经验,CONTENT,目录,01,智算中心建设面临的挑战,02,Azalea-总体介绍,03,Azalea-功能介绍与实践,04,Azalea-开源生态建设,智算中心建设面临的挑战,3,智算集群验收与训前检查,2,智算集群-复杂组网,1,智算集群-大规模,智算集群-大规模,超万卡集群承载万亿模型,器件满负荷运转规模大且存在异厂家可能,对智算中心建设、运维带来巨大挑战,整体规模10X增加,部件数线性10X增长,大规模面临的挑战,智算相关能力:1、云底座区:云平台、
2、AI算力平台,RoCE无损网络管理平台等2、训练&推理区:AI服务器3、RoCE网络区:RoCE参数面网络,RoCE存储面网络4、存储区:高性能文件存储5、TCP网络区:管理/存储/业务等交换设备6、出口区,图例说明,带外管理网络,25G,100G,磁盘阵列,.,核心交换机,业务交换机,GE,.,RDMA参数面,100G,200G,Spine,Leaf,Spine,AI服务器,NAS 接入,管理/存储交换机,100G,100G,25G,25G,业务交换机,管理/存储交换机,业务交换机,RoCE,RoCE,Leaf,100G,管理节点,AI算力平台节点,ROCE管理节点,云底座区,通算节点,裸金
3、属节点,管理/存储交换机,互联网,安全设备,汇聚交换机,带外管理Leaf,10G,RDMA存储面,400G,lustre OSS&MDS,2,3,1,4,5,B机房,A机房,6,智算集群-复杂组网,低延迟、高带宽的无损网络,配置与管理复杂性高、故障定位困难,复杂组网面临的挑战,智算集群验收与训前检查,面临的挑战:硬件异构性强、规模大、配置复杂、交付周期紧、跨团队协同难,多型号设备配置兼容性检查,各硬件厂家工具接口差异大,自动化脚本开发复杂,依赖多厂家到场支持,验收标准不统一,异厂家检查工具各异,规模庞大,导致故障定位耗时,跨厂家协作效率低,集成设计,硬件安装/布线,自检整改,测试验收,自动化工
4、具,训前检查,CONTENT,目录,01,智算中心建设面临的挑战,02,Azalea-总体介绍,03,Azalea-功能介绍与实践,04,Azalea-开源生态建设,Azalea-总体介绍,1,Azalea是什么,2,Azalea能做什么,Azalea是什么,快速健康检查,保障后续智算作业正常启动。自动化压力测试,及时发现系统性能瓶颈,提升系统稳定性。,智算基础设施以AI模型的训练与推理为中心,保障长稳训练与高效推理,60+项 版本、配置、性能基线检测 巡检成功后,智算作业启动成功率95%+,全覆盖:从软件到硬件、从固件到配置、从板卡节点到集群的全覆盖高效:分钟级启动训练/性能一致性检测分钟级
5、启动模型压测 最快分钟级完成多机集合通信检测秒级完成单项快检易用:一键测试 灵活配置测试指令 自定义长稳巡检 自动生成/判定验收结果,集合通信测试allreduce、allgather、alltoall等,GPU硬件检测GPU算力检测、GPU带宽检测、GPU压力测试,网络检查压测参数面连通性检测、样本面连通性检测、参数面带宽检测、样本面带宽检测、网卡压力测试,模型测试预训练、推理性能、推理精度,Azalea能做什么,基础硬件检查服务器CPU、内存、硬盘,网卡、GPU驱动及固件检查,CONTENT,目录,01,智算中心建设面临的挑战,02,Azalea-总体介绍,03,Azalea-功能介绍与实
6、践,04,Azalea-开源生态建设,Azalea-功能介绍与实践,1,节点管理,2,基础检查,3,网络检查,4,模型测试,5,实践,Azalea-节点管理,Azalea-基础检查,基础检查,集中化、自动化基础检查,提高智算作业启动成功率,一体化健康检查:同时采集计算、网络、存储设备的所有信息进行联合健康检查,效率提升80%一键自动健康检查:实现各类资源在训前以及训中的健康度检查,输出健康报告。,解决方案,计算设备,网络设备,存储设备,CPU/内存/硬盘/RAID卡版本检查拓扑检查网卡检查,光模块健康度检查GPU检