当前位置:首页 > 报告详情

肖彬-大模型推理框架升级之路.pdf

上传人: 张** 编号:177542 2024-10-01 26页 5.56MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了DataFunSummit # 2024关于大模型推理框架的优化升级之路。主要内容包括:1)量化投机采样:通过量化、投机采样等技术,降低显存占用,提高模型性能,如Weight-int8和Activation int8A8等;2)通信优化:针对不同卡型的通信耗时问题,采用ISOsequence内的overlap方法等策略,提高计算通信占比均衡性,如4090卡和A800卡的优化;3)TTFT与TPOT优化:通过chunk prefill、Split fused等技术,降低decode间隔时间,提高计算利用率,如PD分离策略;4)模型结构设计路线:尝试使用前置候选token信息辅助后续token预测,如Clover模型结构设计。此外,还提到了loss优化、Regressive attention block output projector结构提升、增加Augmenting Block层数等方法。总体来看,这些优化方法在提高大模型推理框架性能、降低成本、提升推理速度等方面取得了显著成果。
"大模型推理框架如何实现性能优化?" "投机采样技术如何提升大模型推理效率?" "通信优化策略在大模型推理中的应用是什么?"
客服
商务合作
小程序
服务号
折叠