智算基础设施运维：架构解析与能力展望-柳巍.pdf-三个皮匠报告

1、架构解析与能力展望智算基础设施运维龙蜥智算基础设施联盟运维TG组长中兴通讯智算云底座产品运维域规划经理柳巍01运维架构解析能力展望通智算场景扫描与分析CPUDDR内存SATA/SSDScale up/out网络HBM显存NVMe高速盘存储介质多样故障粒度到卡/光模块容灾备份硬件统一管理资源可弹缩通用服务器以太网交换机IB交换机AI服务器NVMe普通盘GPUNPU存储以容量优先200G/400G大带宽高并发/无损网络普通交换机10G/25G网络端口密度低，拓扑相对简单超节点Roce交换机风冷机房液冷机房42U机柜45U机柜单柜4-8KW功率单柜12-24kW功率磁阵分布式文件存储分布式块存

2、储1.计算：GPU是核心算力，结合虚拟化/云原生平台，构建智算集群系统。2.存储：按业务属性分级存储（热、温、冷层），热层需求高速IO存储。3.网络：训推任务参数面、样本面网络，超节点Scale up/out网络，使得网络拓扑更复杂。4.运维：训推任务是“时间敏感性”业务，需要秒级/微妙级高精度监控；业务的连续性需求故障快速定位和故障自愈能力。1.智算集群“千卡-万卡-超万卡”规模演进，运维对象增加、组网复杂，业务层次变多，导致全景全链路呈现难、关联分析复杂性叠加。2.系统规模扩大，故障点增加，故障率上升（光模块故障、GPU掉卡/卡死等），故障处理效率低下。3.高频运行GPU损坏率大大增加，G

3、PU资源利用率不高，成本与收益不成正比。GPU型号多样，异构管理需求迫切。4.部分领域标准/规范缺失，影响集成/运维效率，增加了项目交付难度。故障粒度整机/服务标准化监控高速IO存储专用存储网络高精度监控NVlink/PCIe监控系统可靠性安全管理集群管理自动诊断故障智算场景对比分析智算运维面临的挑战02场景扫描能力展望面向智算业务、用户视角、端到端的运维架构运维对象范围1、网络、计算、存储硬件基础设施。2、智算集群IaaS、CaaS平台基础设施。3、智算作业（训练、推理）。架构设计原则1、分层、解耦运维能力按对象分层定义，横向聚焦基础数据的采集与管理。运维组件以用户视角设计，功能内聚，组件间

4、松耦合，可分可合。运维组件可作为独立工具使用，也可组合为统一运维平台。2、可扩展运维组件可横向扩展，覆盖智算项目建设全场景，智算业务全流程。3、微服务化运维组件支持微服务化、云原生化部署。目标1、构建面向用户的、端到端的运维体系标准。2、按需为用户提供场景化、可组装的运维解决方案。网络计算存储IB交换机以太网交换机Roce交换机AI服务器通用服务器超节点分布式块存储磁阵分布式文件存储设备纳管配置管理性能管理告警管理日志管理硬件管理GPU运维GPU配置管理GPU驱动管理GPU指标监控GPU健康检查GPU故障诊断性能压测虚拟资源监控容器资源监控性能管理告警管理日志管理智算集群运维拓扑可视化网络检

5、测网络故障诊断网络优化网络运维作业监控作业可观测作业劣化分析作业故障诊断性能调优作业运维虚拟化平台宿主机操作系统VMBM.云原生平台宿主机操作系统PODvcjob.训推框架推理引擎硬件管理：整体方案可参考通算、特定场景需作能力增强交换机：1、配置/性能监控（分钟级）、告警数据采集：SNMP V2C/V3协议。2、日志管理：syslog RFC3164/5424。3、高精度、实时性能数据采集：Telemetry 指标订阅/推送。NMS/Tool交换机交换机SNMP get/TrapSyslogTelemetryNMS/Tool服务器超节点SNMP IPMIRedfishSyslog？NMS/To

6、ol分布式存储磁阵REsSTfulSyslogSMI-SSNMP服务器：1、配置/性能监控（分钟级）、告警数据采集：SNMP、Redfish。2、日志管理：syslog RFC3164/5424。3、电源管理：（整机/风扇/电源）传感器指标/状态监控：IPMI超节点：业界产品形态各异，互联技术多样，无标准。分布式存储（块、文件）：1、存储服务器节点：同服务器。2、存储软件系统：产品自定义RESTful接口管理，无统一标准。磁阵：管理方式：SNMP、SMI-S智算硬件设备管理可复用通算的管理方案与标准，高精度/实时监控场景需求需重点关注，超节点/分布式存储运维有待制定标准。GPU运维：统一标准、

智算基础设施运维：架构解析与能力展望-柳巍.pdf

相关报告