高效且高度可配置的大模型推理引擎与服务-史树明.pdf

上传人：张**

编号：153231

2024-01-15

PDF 36页 4.96MB

《高效且高度可配置的大模型推理引擎与服务-史树明.pdf》由会员分享，可在线阅读，更多相关《高效且高度可配置的大模型推理引擎与服务-史树明.pdf（36页珍藏版）》请在三个皮匠报告上搜索。

1、高效且高度可配置的大模型推理引擎与服务史树明腾讯AI Lab2023/12/29Transformer推理https:/jalammar.github.io/illustrated-transformer/大模型推理引擎：关键需求及核心技术推理速度吞吐率显存/内存占用易用性/多模型支持结果质量大模型推理引擎：关键需求及核心技术推理速度吞吐率显存/内存占用易用性/多模型支持算子融合高效张量运算KV缓存动态批处理(dynamic batching)推测解码(speculative decoding)将KV缓存和embedding矩阵放入内存多卡推理按层切分按矩阵切分混合切分并行解码(多token预

2、测)量化权重量化KV缓存量化基于原子技术点的组合泛化框架结果质量GPU/CPU混合推理CPU:多线程+SIMD指令分组查询注意力(GQA)Flash decoding解码策略Inferflow:高效且高度可配置的大模型推理引擎与服务推理速度吞吐率显存/内存占用易用性/多模型支持算子融合高效张量运算KV缓存动态批处理(dynamic batching)推测解码(speculative decoding)将KV缓存和embedding矩阵放入内存多卡推理按层切分按矩阵切分混合切分并行解码(多token预测)量化权重量化KV缓存量化基于原子技术点的组合泛化框架结果质量GPU/CPU混合推理CPU:多

3、线程+SIMD指令分组查询注意力(GQA)Flash decoding解码策略大模型推理引擎：关键需求及核心技术推理速度吞吐率显存/内存占用易用性/多模型支持算子融合高效张量运算KV缓存动态批处理(dynamic batching)推测解码(speculative decoding)将KV缓存和embedding矩阵放入内存多卡推理按层切分按矩阵切分混合切分并行解码(多token预测)量化权重量化KV缓存量化基于原子技术点的组合泛化框架结果质量GPU/CPU混合推理CPU:多线程+SIMD指令分组查询注意力(GQA)Flash decoding解码策略两大类量化方法量化感知训练(Quantiz

4、ation-aware training,QAT)效果好，需要大量训练数据（甚至需要访问原始训练数据），计算开销大训练后量化(Post-training quantization,PTQ)1,2,3,4,5,6类型1：基于校准数据的量化（量化时间在几小时或更长）类型2：无数据（data-free）校准量化类型3：快速量化（量化时间在几分钟以内）大模型量化1.Elias Frantar,Saleh Ashkboos,Torsten Hoefler,and Dan Alistarh.GPTQ:Accurate Quantization for Generative Pre-Trained Tran

5、sformers.ICLR 2022.2.Tim Dettmers,Mike Lewis,Sam Shleifer,and Luke Zettlemoyer.8-bit Otimizers via Block-wise Quantization.ICLR 2022.3.Tim Dettmers,Mike Lewis,Younes Belkada,and Luke Zettlemoyer.LLM.int8():8-bit Matrix Multiplication for Transformers at Scale.arXiv preprint arXiv:2208.07339,2022.4.b

6、itsandbytes:https:/ Yao,Reza Yazdani Aminabadi,Minjia Zhang,Xiaoxia Wu,Conglong Li,and Yuxiong He.ZeroQuant:Efficient and affordable post-training quantization for large-scale transformers.arXiv preprint arXiv:2206.01861,2022.6.Ji Lin,Jiaming Tang,Haotian Tang,Shang Yang,Xingyu Dang,and Song Han.AWQ

高效且高度可配置的大模型推理引擎与服务-史树明.pdf

相关报告