当前位置:首页 > 报告详情

陈文潇-智算集群故障诊断算法研究与实践-已ok.pdf

上传人: 彩旗 编号:1158724 2026-03-02 28页 4.08MB

1、智算集群故障诊断算法研究与实践陈文潇|华为技术有限公司 陈文潇华为天才少年 智能体软件专家华为天才少年,智能体软件专家,清华大学NetMan实验室博士,一直从事AIOps,人工智能,网络自动运维等工作。在WWW、INFOCOM、FSE等国内外学术会议上发表演讲,担任SIGMETRICS,AAAI,WWW等多个国际会议期刊审稿人。担任openFuyao核心技术负责人,与科大讯飞、蚂蚁集团、清华大学共同打造昇腾生态竞争力。目 录CONTENTSI.背景II.问题/痛点III.解决思路/整体方案IV.具体实现/技术实践V.总结与展望背景:讯飞大模型的发展PART 01从0到1,讯飞星火大模型实现从快

2、速追赶到自主创新首发星火大模型七大核心能力发布大模型评测体系发布23年5月6日V1.0突破开放式问答多轮对话能力升级数学能力再升级6月9日V1.5突破代码能力多模态交互再升级8月15日V2.0通用模型对标GPT-3.5中文超越英文相当10月24日V3.0多项能力大幅提升星火语音大模型接近GPT-4 Turbo24年1月30日V3.5各项能力持续提升支持长文本、长图文、长语音等能力星火图文大模型4月26日V3.5七大能力全面提升首发内容溯源能力对标GPT-4 Turbo当前水平6月27日V4.0底座能力再次升级多模态视觉交互超拟人数字人交互多语言大模型10月24日V4.0 Turbo深度推理模型

3、X1语音同传大模型星火底座全面升级25年1月15日V4.0 Turbo&X1深度推理模型X1升级中文数学各项任务中均实现领先3月3日V4.0 Turbo&X1深度推理模型X1升级通用能力全面提升具备深度推理模式4月20日星火X1-0420讯飞持续探索全栈国产化无人区Logo或标识讯飞星火实现了训练和推理的全国产化,星火大模型持续引领国产平台发展“飞星一号”平台2024年全年平均使用率达到95%2024年“飞星一号”集群优化过程中创新积累智算集群规模的再次跃迁讯飞&华为联创探索“开车换车轮”规模无关的断点续训新方案可支持集群规模再次倍增“飞星二号”达到万P00.20.40.60.81新一代语音大

4、模型强化学习训练MoE语音大模型图文大模型长序列认知大模型开箱性能当前性能基于昇腾的大模型训练效率持续优化未来基于国产算力的大模型自主技术创新,探索新模型新算法的持续适配及智算集群规模的再次跃迁75%模型训练适配优化平台耗时优化500+次解决基础软硬件问题30+项新增框架和平台特性150+个基础、通信和融合算子优化痛点:智算集群维护PART 02大模型的能力及效果受多种因素影响,集群算力是驱动大模型创新的基础数据集质量更好的数据质量更长的训练时间新训练范式强化学习决定模型对齐程度Agent决定使用工具、上下文记忆能力多模态决定模型功能丰富度MOE决定特定复杂任务处理能力集群大算力是支撑更高质量

5、大模型创新落地的最关键基础“算力规模 参数量*数据量/训练时长”国内TOP企业计算规模较国外存在近10倍差距1601501009065AmazonGooglexAI微软Meta集群规模(万)美国TOP企业已达百万级 总规模算力需求与数据量成正比多模态数据训练需求是文本数据的320倍算力需求与模型参数成正比百亿百卡、千亿千卡算力需求与序列长度成正比32K+序列的模型已商用,1M+序列已出现精度需求要匹配合适的浮点运算综合使用FP32/BF16/FP16以快速模型收敛Grok4算力分配:通过RL压强投入获得模型能力大幅提升从0到1,讯飞星火大模型实现从快速追赶到自主创新24年6月业务挑战:海量光纤

6、/模块问题难排查联创特性:集群健康检查,光路故障分析2024:面向基础设施智能运维24年12月业务挑战:故障涉及算、网、存,跨产品难定位联创特性:训练作业故障诊断25年3月业务挑战:作业劣化/卡死发现晚、定界时间过长,难以精准恢复联创特性:训练作业劣化分析,训练作业卡死分析25年6月业务挑战:新业务、新硬件迭代快,能力建设加速联创方向:基于大模型的智能作业故障分析2025:面向作业智能运维整体方案:运维智能化PART 03将华为CCAE融入集群日常运维流程,提升运维智能化水平(告警观测、日志观测,告警/日志分析检索等)数据集管理训练作业管理模型管理K8S集群管理(Volcano)计算设备存储设

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **智算集群运维痛点**:集群算力是驱动大模型创新的基础,国内TOP企业算力规模较国外存在近10倍差距,故障诊断依赖专家,耗时天级。 2. **解决方案**:华为CCAE融入运维流程,LogAnalyzer基于大模型分析日志,实现故障自动感知定界,诊断准确率85%+,未知故障准确率84.3%。 3. **技术实践**:通过异常日志感知、故障传播链分析、HCCL透视图等技术,将定位时长从天级缩短至分钟级,4个月诊断72个故障。 4. **未来方向**:打造智算DevOps,结合AI Agent实现代码提交、部署调度、故障分析全流程智能化,支撑大模型训练与推理全国产化。
**智算故障诊断?** **大模型运维难题?** **集群效率如何提升?**
客服
商务合作
小程序
服务号
折叠