《高效且高度可配置的大模型推理引擎与服务-史树明.pdf》由会员分享,可在线阅读,更多相关《高效且高度可配置的大模型推理引擎与服务-史树明.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、高效且高度可配置的大模型推理引擎与服务史树明腾讯AI Lab2023/12/29Transformer推理https:/jalammar.github.io/illustrated-transformer/大模型推理引擎:关键需求及核心技术推理速度吞吐率显存/内存占用易用性/多模型支持结果质量大模型推理引擎:关键需求及核心技术推理速度吞吐率显存/内存占用易用性/多模型支持算子融合高效张量运算KV缓存动态批处理(dynamic batching)推测解码(speculative decoding)将KV缓存和embedding矩阵放入内存多卡推理按层切分按矩阵切分混合切分并行解码(多token预
2、测)量化权重量化KV缓存量化基于原子技术点的组合泛化框架结果质量GPU/CPU混合推理CPU:多线程+SIMD指令分组查询注意力(GQA)Flash decoding解码策略Inferflow:高效且高度可配置的大模型推理引擎与服务推理速度吞吐率显存/内存占用易用性/多模型支持算子融合高效张量运算KV缓存动态批处理(dynamic batching)推测解码(speculative decoding)将KV缓存和embedding矩阵放入内存多卡推理按层切分按矩阵切分混合切分并行解码(多token预测)量化权重量化KV缓存量化基于原子技术点的组合泛化框架结果质量GPU/CPU混合推理CPU:多
3、线程+SIMD指令分组查询注意力(GQA)Flash decoding解码策略大模型推理引擎:关键需求及核心技术推理速度吞吐率显存/内存占用易用性/多模型支持算子融合高效张量运算KV缓存动态批处理(dynamic batching)推测解码(speculative decoding)将KV缓存和embedding矩阵放入内存多卡推理按层切分按矩阵切分混合切分并行解码(多token预测)量化权重量化KV缓存量化基于原子技术点的组合泛化框架结果质量GPU/CPU混合推理CPU:多线程+SIMD指令分组查询注意力(GQA)Flash decoding解码策略两大类量化方法量化感知训练(Quantiz
4、ation-aware training,QAT)效果好,需要大量训练数据(甚至需要访问原始训练数据),计算开销大训练后量化(Post-training quantization,PTQ)1,2,3,4,5,6类型1:基于校准数据的量化(量化时间在几小时或更长)类型2:无数据(data-free)校准量化类型3:快速量化(量化时间在几分钟以内)大模型量化1.Elias Frantar,Saleh Ashkboos,Torsten Hoefler,and Dan Alistarh.GPTQ:Accurate Quantization for Generative Pre-Trained Tran
5、sformers.ICLR 2022.2.Tim Dettmers,Mike Lewis,Sam Shleifer,and Luke Zettlemoyer.8-bit Otimizers via Block-wise Quantization.ICLR 2022.3.Tim Dettmers,Mike Lewis,Younes Belkada,and Luke Zettlemoyer.LLM.int8():8-bit Matrix Multiplication for Transformers at Scale.arXiv preprint arXiv:2208.07339,2022.4.b
6、itsandbytes:https:/ Yao,Reza Yazdani Aminabadi,Minjia Zhang,Xiaoxia Wu,Conglong Li,and Yuxiong He.ZeroQuant:Efficient and affordable post-training quantization for large-scale transformers.arXiv preprint arXiv:2206.01861,2022.6.Ji Lin,Jiaming Tang,Haotian Tang,Shang Yang,Xingyu Dang,and Song Han.AWQ