《计算加速套件TACO+Kit:构建全生态的计算加速方案成就极致AI算力.pdf》由会员分享,可在线阅读,更多相关《计算加速套件TACO+Kit:构建全生态的计算加速方案成就极致AI算力.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、大模型时代AI基础设施集群最佳实践-推理+、训练+叶帆 腾讯云异构计算AI研发专家工程师主讲人:目录大模型训练l 星脉网络及TCCLl 共享存储方案l 监控和运维故障处理流程l 基于k8s自动化故障自愈方案l H800 FP8收敛性研究l 案例分享大模型推理l LLM推理瓶颈分析l Taco-LLM赋能生产l Continuous batchingl 预测解码l 量化l 分布式推理由于推理的串行计算特点,只能通过增大batch_size来进一步挖掘GPU算力batch_size的上限依赖于剩余显存,增大batch_size会导致显存首先达到瓶颈除此之外,LLM推理还存在GPU利用率低,吞吐量低
2、以及商业落地昂贵的成本问题显存占用 模型参数显存占用+kv cache显存占用 12*h*h*l+batchsize*sequence_len*h*l*2推理场景显存占用分析以65B模型为例,hidden size=8192(固定),l=80(固定)sequence_len=2048,数据格式采用FP16为例:模型参数显存占用:12*h*h*l*2bytes=120 GBk,v cache显存占用:bs*s*h*l*2*2bytes=bs*5G当batchsize=96时,需要消耗480GB kvcacheA800/H800均为80G显存,需要8张卡容纳120+480=600GB模型推理数据L
3、LM推理业务背景介绍:显存和带宽是当前LLM模型的主要瓶颈推理:串行计算过程,单并发无法有效发挥硬件算力Time Step#1satDecoder-OnlyArchitecturethedogTime Step#2downDecoder-OnlyArchitecturethedogsatTime Step#3Decoder-OnlyArchitecturethedogsatdownFinal Generated OutputthedogsatdownTaco-LLM全方位大模型推理优化高吞吐量与低延迟全面兼容hugging face主流模型,包括但不限于:LLaMA,GPT,Falcon,op
4、t等等全面兼容主流模型从现实的生产需求出发,保障客户在实际落地中的产品需求面向生产落地极大提高吞吐量。优化客户端的延迟吞吐兼容生产原有Nave batching的流水线执行方式会导致提前完成以及延迟加入的问题。这些都会造成显存的利用率下降,导致带宽瓶颈。Taco-LLM可以控制任务迭代中产生的等待时间,采取并行推理的策略最大化减少推理中的“气泡”结合FIFO(先进先出)的原则,保障客户体验的连贯性Taco-LLM的核心技术优化方向:Continuous BatchingTaco-LLM的核心技术优化方向:预测解码我们观察到具有相似词表的小型模型能够更快的产生一些列准确率较高的token数据。这
5、样能够更加快速的完成推理任务,提高推理的效率。Taco-LLM推理过程中,当大模型全部接受小模型的输出时,推理流程会取得非常明显的加速;当大模型拒绝小模型的某个输出时,大模型会从对应分布中重新采样,然后由小模型继续生成新的输出。Prompt提示词Draft model预测模型Target model原始模型Whataniceworld!ENDDraft model generate 4 tokensTarget model accepts them all并行计算(增加seq维度并行度)自回归解码(串行生成)MynameKevin,andyouisDraft model generate 4
6、tokensTarget model accepts 2 and reject the 3rd.Then,the draft starts again.Prompt提示词Draft model预测模型Target model原始模型情形一Speculative Inference TimelineSpecSpecSpecTreeVerifySpecSpecSpecTreeVerifytot4t1 t2 t3 t4 t5 t6 t7 t8 技术原理情形二niceKevin,to!niceworldENDTaco-LLM的核心技术优化方向:量化权重量化:在大模型普遍低秩的情况下,用更低比特的位宽来