智算基础设施RAS能力增强探索与实践-吴保锡.pdf

编号:1152847 PDF 19页 3.48MB 下载积分:VIP专享
下载报告请您先登录!

1、基于龙蜥OS的GPU RAS能力增强智算基础设施RAS能力增强探索与实践智算联盟 RAS技术工作组 Maintainer吴保锡挑战思路探索挑战智算基础设施体系结构日趋复杂、连接数呈数量级增长,可靠性挑战不容忽视GPUs 互联规模智算时代,更严峻的可靠性挑战 复杂的体系结构+连接数量呈数量级增长 Scale-up+Scale-out网络,系统的结构化维度提升,熵增指数级累计,MTBF对数级下降 MTBF设计要求:千卡30天,万卡23天Form Engineering at Meta,POSTED ON JULY 22,2025 TO DATA INFRASTRUCTURE智算中心在集成加速器时面

2、临多种挑战,主要由于软件复杂性和异构实现方式导致。这些问题阻碍了新产品的快速部署和有效管理。GPU启动时无法检测容量可用性MTBFTTM延迟需要提供原因代码,说明为何GPU无法被检测到,如PCIe训练问题、Boot ROM损坏或微代码更新问题等。硬件错误导致性能下降工作负载执行SLA需要对硬件错误有足够的可见性,以了解它们如何影响性能,如错误风暴、链路退化或因热问题导致的性能节流。GPU运行时脱离总线容量可用性MTBFVM崩溃需要原因代码说明GPU为何脱离总线,如未包含的ECC错误、行重映射ECC失败或PCIe链路状态问题等。硬件错误导致静默数据损坏客户信心丧失需要充分的检测能力来最小化SDC

3、率,并对已检测到的错误进行足够的错误隔离,以防止使用损坏的数据。运维挑战故障率高且不稳定GPU相关故障率高,故障修复难度大,经常出现修A坏B的情况链路问题问题定位难复杂链路由于日志及告警信息不全,需要反复复现排查定位诊断修复耗时长诊断工具分散,单一覆盖不全,导致问题诊断耗时长、故障诊断维修缺乏标准化的规则设计,大多依赖专家经验智算基础设施加速设备集成挑战提高节点正常运行时间降低中断率,提升平均故障间隔时间(MTBF)。通过实施各种RAS功能,检测、纠正和隔离错误,减少硬件故障导致系统崩溃的概率,避免系统重置。提升可维护性缩短平均修复时间(MTTR)。通过精确识别故障组件至现场可更换单元(FRU

4、)级别,实现快速精准的故障定位和修复,减少维护成本和停机时间。支持根本原因分析(RCA)提供硬件和固件错误遥测数据,支持根本原因分析,满足基于问题严重性的SLA时间要求。利用大规模硬件错误数据学习,改进硅片质量,降低故障率。改善上市时间(TTM)从超大规模用户角度,加快现有和新型加速器硬件的上市时间。通过标准化接口和测试方法,减少集成障碍,使供应商能够无缝对接多个超大规模客户。智算基础设施RAS能力关键目标思路通过软硬协同,从“上市前”、“运行时”、“故障后”等关键环节着手增强RAS能力智算基础设施系统级RAS能力视图模块RAS能力要求内存包括内存错误检测、更正和报告等要求。此外,还需要系统级

5、功能,例如 OS 页面脱机(s OS page offline)、行重映射、坏页映射和错误遏制缓存包括缓存错误检测、更正和报告。此外,还需要系统级功能,例如坏页映射和错误遏制。GPC包括计算机核心逻辑中的各种类型的错误检测、纠正和报告。PCIe I/O包括 PCIe 规范定义的错误检测、纠正和报告,作为“高级错误报告”(AER)的一部分,以及根端口外设 I/O(RP_PIO)错误报告。此外,还需要系统级功能,例如“下游端口遏制(DPC)”、“意外热插拔”。互联和交换UBB 设计具有额外的交换机和互连,并支持供应商特定的错误检测、纠正和报告。此外,还需要遥测来检测链路完整性(detect lin

6、k integrity)问题。重定时器像 UBB design 这样的系统具有重定时器,需要收集与 PCIe 链路信号完整性和协议错误相关的错误,并报告带内和/或带外。内核(AER/DPC/HP处理程序)包括处理 UBB 特定故障事件所需的内核组件,例如 AER 处理程序、DPC 处理程序和热插拔处理程序。这还包括设备驱动程序的接口和带内管理代理GPU 驱动程序(错误处理程序)包括通过驱动程序管理的特定于 UBB 的错误处理程序,以及各种特定于 UBB 供应商的 RAS 操作AMC包括错误收集和存储在持久空间中,以便通过 BMC 和超大规模基础设施工具离线收集错误日志带内管理代理包括从 UBB

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(智算基础设施RAS能力增强探索与实践-吴保锡.pdf)为本站 (表表) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠