当前位置:首页 > 报告详情

华为:2025大模型训练性能瓶颈定位流程案例(15页).pdf

上传人: d*** 编号:603674 2025-02-08 15页 1.65MB

下载:

1、MindStudio7.0.0大模型训练性能瓶颈定位流程案例大模型训练性能瓶颈定位流程案例文档版本文档版本01发布日期发布日期2025-01-13华为技术有限公司华为技术有限公司 版权所有版权所有 华为技术有限公司华为技术有限公司 2025。保留一切权利。保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商标声明商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。注意注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您

2、的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。文档版本 01(2025-01-13)版权所有 华为技术有限公司i 安全声明安全声明 产品生命周期政策产品生命周期政策华为公司对产品生命周期的规定以“产品生命周期终止政策”为准,该政策的详细内容请参见如下网址:https:/ 漏洞处理流程漏洞处理流程华为公司对产品漏洞管理的规定以“漏洞处理流程”为准,该流程的详细内容请参见如下网址:https:/ 华为初始

3、证书权责说明华为初始证书权责说明华为公司对随设备出厂的初始数字证书,发布了“华为设备初始数字证书权责说明”,该说明的详细内容请参见如下网址:https:/ 华为企业业务最终用户许可协议华为企业业务最终用户许可协议(EULA)本最终用户许可协议是最终用户(个人、公司或其他任何实体)与华为公司就华为软件的使用所缔结的协议。最终用户对华为软件的使用受本协议约束,该协议的详细内容请参见如下网址:https:/ 产品资料生命周期策略产品资料生命周期策略华为公司针对随产品版本发布的售后客户资料(产品资料),发布了“产品资料生命周期策略”,该策略的详细内容请参见如下网址:https:/ 文档版本 01(20

4、25-01-13)版权所有 华为技术有限公司ii目目 录录1 常见性能问题场景常见性能问题场景.12 问题定位方法问题定位方法.22.1 性能问题定位流程.22.2 Ascend PyTorch Profiler 采集性能数据.32.3 Mindstudio Insight 定位.43 性能调优案例性能调优案例.93.1 案例描述.93.2 MindStudio Insight 分析定位.93.3 mstt advisor 辅助定位.11MindStudio大模型训练性能瓶颈定位流程案例目 录文档版本 01(2025-01-13)版权所有 华为技术有限公司iii1 常见性能问题场景常见性能问题

5、场景大模型从外部设备迁移到昇腾设备,并在昇腾设备上训练的过程中,可能会出现性能问题。常见的两大性能问题场景是开箱性能优化开箱性能优化场景和性能长跑劣化性能长跑劣化场景。开箱性能优化开箱性能优化:主要是用户在昇腾平台使用模型时,发现性能差,直接进行性能层面的优化。性能长跑劣化性能长跑劣化:一般是用户在训练过程中,由于不可预知的引入,导致模型出现了一些性能劣化的问题,需要定位性能劣化的原因,并解决问题。图图 1-1 场景介绍MindStudio大模型训练性能瓶颈定位流程案例1 常见性能问题场景文档版本 01(2025-01-13)版权所有 华为技术有限公司12 问题定位方法问题定位方法性能问题定位

6、流程Ascend PyTorch Profiler采集性能数据Mindstudio Insight定位2.1 性能问题定位流程性能问题定位流程大模型训练的基本性能调优流程如下:图图 2-1 基本性能调优流性能调优最重要的就是对症下药,先定界问题,再对问题进行针对性优化。1.首先进行性能数据采集,可以使用Ascend PyTorch Profiler提供的接口进行数据采集和解析;2.接下来,使用MindStudio Insight可视化工具定界性能问题,定界结果通常分为计算、调度、通信三个方向的问题;MindStudio大模型训练性能瓶颈定位流程案例2 问题定位方法文档版本 01(2025-01

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文档介绍了MindStudio 7.0.0大模型训练性能瓶颈定位流程案例,主要内容包括: 1. 常见性能问题场景:开箱性能优化和性能长跑劣化。 2. 问题定位方法:性能问题定位流程、Ascend PyTorch Profiler采集性能数据、Mindstudio Insight定位。 3. 性能调优案例:使用Ascend PyTorch Profiler采集性能数据,使用MindStudio Insight和mstt advisor定位和解决性能问题。 本文档提供了详细的性能问题定位和调优方法,帮助用户解决大模型训练中的性能瓶颈问题。
如何使用Ascend PyTorch Profiler采集性能数据? MindStudio Insight如何定位多模态模型训练中的性能问题? 如何使用mstt advisor辅助定位多模态模型训练中的性能问题?
客服
商务合作
小程序
服务号
折叠