天津大学：2024大模型轻量化技术研究报告-三个皮匠报告

1、大模型轻量化技术张鹏2024.8.24目录01大语言模型轻量化的技术需求02大语言模型轻量化的技术概览03大语言模型轻量化技术的详细讲解04大语言模型轻量化技术的未来展望l 语言模型是自然语言处理任务中的核心技术，大语言模型的发展取得突破性进展l 自然语言处理是国家重大战略需求国务院新一代人工智能发展规划自然语言自然语言处理技术自然语言处理信息检索数字媒宣多模态内容理解算力资源消耗大可解释性差语言模型背景语义计算维数灾难模型设计不可解释应用部署参数量大语义概率空间条件概率：(!|.!#)发展阶段关键难题联合概率：(,$.!)总体思路：用轻量化的方式解决大模型实际应用部署过程中遇到的问题

2、语言模型的发展历史和关键难题大模型参数规模Param:0.3BBERTT5GPT-3PaLMChatGPT/GPT 4Param:11BParam:540BParam:1800 B2018.102019.102020.052022.102023.03大语言模型涌现高存储成本和计算成本推理速度受限Param:170B196ms/token73ms/token但是大模型轻量化目标轻量化技术体积更小跑的更快预训练语言模型压缩后的预训练语言模型压缩大模型轻量化的细粒度解析RMS NormEmbeddingSelf-Attention(Grouped Multi-Query Attention)with

3、 KV CacheRMS NormFeed ForwardRotary Position Embedding 参数量占比较大，对存储及显存计算造成压力多头注意力计算造成大量的计算成本，影响计算速度，参数量占比较大。此外，KV Cache部分使用空间换取时间，造成缓存压力。QKV作为中间表示存于内存中，也会对存储造成压力 Embedding层，语义表示的初始化，影响效果，占据一定的参数量LLaMA2 为例大模型轻量化技术为模型在实际应用和发展中带来更多便利和机遇大模型轻量化技术模型压缩推理加速硬件模型手机应用智能家居大模型轻量化技术的意义手机端侧大模型应用：将大模型应用于移动端，进行家居控制智

4、能驾驶舱应用：将大模型应用于智能车仓，提升个性化服务医疗大模型医疗文书决策辅助患者管理医师培训医疗大模型工业大模型应用：辅助医疗应用：解决生产效率问题等目录01大语言模型轻量化的技术需求02大语言模型轻量化的技术概览03大语言模型轻量化技术的详细讲解04大语言模型轻量化技术的未来展望轻量化技术总览大模型轻量化技术量化知识蒸馏稀疏化低秩分解减少模型计算复杂度和内存占用，同时尽可能保持性能和泛化能力结构化稀疏非结构化稀疏矩阵分解张量分解其它技术参数共享硬件加速参数量化激活量化减少计算量目标保留泛化能力减少计算量高效训练推理加速减少模型参数量轻量化相关理论u轻量化的优化目标降低参数数量更多的参数数

5、量通常意味着模型更复杂通过提高参数压缩比，可以降低存储和计算需求减少占用存储空间大小模型参数越多，模型文件需要的存储空间越大压缩存储空间可以降低部署成本，提高模型在存储设备上的传输效率降低浮点运算数（FLOPs）模型参数越多，通常意味着在一次前向传播中所需的浮点运算数量越多降低FLOPs可以为模型带来更快的推理速度模型参数数量模型大小LLaMA3-8B8B16GBLLaMA3-70B70B145GB轻量化相关理论u轻量化模型减轻硬件压力显存（GPU Memory）用于存储训练、推理中的模型参数、梯度和激活值减少显存占用可降低对显卡设备的要求，增加训练批次大小，减少训练时间。带宽（Ban

6、dwidth）代表数据在处理器和内存之间的传输速度降低带宽占用可以减少因数据传输带来的延迟，提高计算速度。内存（RAM）用于存储训练数据、模型参数和中间计算结果降低内存空间需求可以减少磁盘交换操作，提升训练效率。性能有限设备上LLM难以部署轻量化相关理论u轻量化模型评估指标吞吐量（Throughput）单位时间内模型输出token的数量高吞吐量表示模型能够更高效地处理大批量数据,适用于需要高处理能力的应用。内存占用（Memory Footprint）模型在运行过程中占用的内存大小。较小的内存占用有助于在内存受限的设备上高效运行模型。模型推理视频编码数据传输其他总内存参数压缩比（Compre

天津大学：2024大模型轻量化技术研究报告（125页）.pdf

相关报告