当前位置:首页 > 报告详情

张君-大模型推理加速的优化实践.pdf

上传人: 哆哆 编号:630916 2025-04-19 37页 7.29MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了大模型推理加速的优化实践。首先,作者指出大模型推理面临的主要挑战包括计算和内存需求高、延迟和吞吐量难以兼顾、从单模态到多模态推理成本增加等。接着,作者详细介绍了大模型推理加速技术的发展现状,包括算法层优化、算子层优化和框架层优化。然后,作者重点介绍了昇腾大模型推理框架MindIE-LLM的加速实践,包括FlashAttention和FlashDecoding、Continuous Batching、SplitFuse、PD分离部署、多机推理和通信计算融合、并行解码等。最后,作者简要介绍了昇腾Transformer领域加速库ATB,并对其进行了总结与展望。
大模型推理加速技术如何优化? 昇腾大模型推理框架MindIE-LLM有哪些特点? ATB加速库如何提升Transformer模型性能?
客服
商务合作
小程序
服务号
折叠