《袁镱-一念LLM 大语言模型推理加速.pdf》由会员分享,可在线阅读,更多相关《袁镱-一念LLM 大语言模型推理加速.pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、一念LLM 大语言模型推理加速腾讯 袁镱Transformer结构的大语言模型一个token的推理流程:Step 2:按照指定的采样策略,选择下一个tokenStep 1:根据已有信息,估计下一个token的概率分布Step 1:根据已有信息,估计下一个token的概率分布Transformer结构的特性:当前token对结果的影响只与前面的token有关。KvCache的由来前面的token的计算结果可以被缓存起来复用优化后:decoding阶段计算量与前面的token数无关导致:计算量与前面的token数量成正比两个阶段的GPU工作状态以Batch方式提高硬件计算资源利用率输入越长,pre
2、fill和decoding阶段的并发token计算差异越大batch size受显存大小限制2024 A Survey on Efficient Inference for Large Language Models显存消耗的趋势input token的KVCache消耗生成token的KVCache消耗M 是模型参数占用的显存 是每个请求推理过程中的显存占用BS 是batch size 是每个token对应的kv cache所需的显存TN 是缓存kv cache的token数量Mem 是GPU的显存大小。TA 是batch内请求的token平均数量 表示batch中不同请求之间token复用
3、kv-cache的比例一念LLM的基本框架高效调度,提高吞吐算子择优,降低耗时多硬件支持,统一框架手写模型,优化显存ContinuousBatching+PagedAttention 优化BS有效BS越来越低及时填充新请求,维持有效BSkv-cache的操作成本高Paged Attention按block组织kv-cache,降低显存操作的粒度Prefix Caching 优化Prefix Caching实现了两个级别的显存和计算复用1.batch中请求之间2.batch之间Prefix Caching 优化Prefix Caching本身会占用显存,命中率决定了收益需要平衡命中率提升和传统路
4、由的负载平衡,容灾等策略CPU/GPU混合推理 优化M扩词表,词表变大以Llama 13B为例:3.2万的词表占据1.2%30万的词表占据11.8%token embedding变大吞吐提升10%+Generative RecommendationActions Speak Louder than Words:Trillion-Parameter Sequential Transducers for Generative RecommendationsMeta推荐场景推理成本占AI推理成本的72%ISCA2020 RecNMP 模型大小GB/TB 单个请求需要1000+item推理 耗时要求10ms以下 资讯业务请求量大(10000请求/秒)业务需求Generative Recommendation基于历史序列预测对候选item的action单个用户大量item的预测正是prefix caching的场景输入成千上万,只有最后一个token不同计算量与item数量线性相关A*(prefix_token_num+1)*item_numA*(item_num+prefix_token_num)Q/A实习生和正式员工招聘中联系方式:一念LLM技术交流群(微信)