1、Inspur ServerFault Diagnosis System文档版本 1.0发布日期 2022-09-05浪潮服务器故障诊断系统技术白皮书ISFDS尊敬的用户:版权 浪潮 2022.版权所有未经事先书面同意,本文档的任何部分不得复制或以任何形式或任何方式修改、外传注:您购买的产品、服务或特性等应受浪潮集团商业合同和条款的约束。本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,浪潮集团对本文档内容不做任何明示或默示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建
2、议不构成任何明示或暗示的担保。Inspur和“浪潮”是浪潮集团的注册商标。Windows是微软公司的注册商标。Intel、Xeon是Intel公司的注册商标。其他商标分别属于其相应的注册公司。技术服务电话:4008600011地址:中国济南市浪潮路1036号 浪潮电子信息产业股份有限公司邮编:250101目录1 引言2 概述2.1 IS-FDS介绍2.2 术语3 IS-FDS整体架构3.1 服务器故障分类3.2 服务器故障处理单元3.3 服务器故障处理流程3.4 支持产品4 IS-FDS关键技术4.1 故障实时检测与隔离4.2 故障精准定位与上报4.3 故障智能预警与修复4.4 为浪潮服务器定
3、制的带内外故障监管系统5 IS-FDS功能简介5.1 CPU 故障检测与处理5.2 内存故障检测与处理5.3 PCIe通用部件故障检测与处理5.3.1 硬盘5.3.2 GPU5.3.3 存储卡5.3.4 网卡5.4 主板故障检测与处理5.4.1 服务器故障指示灯5.4.2 主板VR故障检测预处理5.4.3 异常掉电问题处理0103040405060608091010101011111212121313131314141416165.4.4 上电超时问题处理5.4.5 主板防烧板功能设计6 ISBMC 故障监测与诊断6.1 系统运行日志记录6.1.1 开机自检码监测及日志记录6.1.2 屏幕快照
4、6.1.3 Mainteance Log介绍6.2 系统宕机日志记录 6.2.1 宕机截屏及宕机录像6.2.2 日志收集下载界面6.2.3 宕机诊断案例 6.2.4 非宕机监测案例6.3 系统事件日志记录 6.3.1 系统事件记录6.3.2 故障上报 6.3.3 日志设置6.3.4 IDL日志及处理建议 6.4 整机系统健康状态监测6.4.1 系统概要6.4.2 Sensor汇总列表6.4.3 审计日志记录6.4.4 资产信息 02161617171718181919202122222224262729293032341 引言随着“新基建”、“东数西算”、“元宇宙”等数字化浪潮的推进,全社会数
5、字化转型加速,数字化建设飞速发展,当今数字化在国家和企业层面均已上升到战略高度。通用、存储、超融合、AI服务器等作为支撑数字化计算服务的基础设施硬件,在云计算、大数据、物联网、AI等各领域的大批量部署呈指数级不断增长,并且其承载的业务也越来越多,计算压力,存储能力,网络带宽正在经受严峻的考验。另外,服务器本身作为计算、存储、网络等新技术应用的复杂软硬件集合体,由处理器、内存、存储设备(RAID卡/HDD/SSD)、AI加速卡(GPU卡/ASIC加速卡/FPGA加速卡)、网卡(以太网卡/Infiniband网卡/智能网卡)、主板、电源设备、散热设备、BIOS固件、BMC管理软件等组件组成,其软硬
6、件复杂度也在不断提升;所以,在所难免会存在不可预期的故障造成宕机,影响数字化业务正常运行,特别是关键业务的宕机造成的客户损失及影响是难以估量的。当前,海量服务器数据中心正面临着高昂的运维成本支出和维护管理复杂度的巨大挑战,所以提升服务器的维护体验,能够确保服务器连续稳定地运行,实时掌握服务器运行健康状态,即使在出现故障的情况下也可以及时修复恢复业务运行,逐步成为服务器需要具备的基础保障功能。浪潮专有和保密信息版权所有浪潮电子信息产业股份有限公司03Inspur ServerFault Diagnosis System浪潮服务器故障诊断系统技术白皮书OSPOSTInspur ServerISMD