3-杨仝.pdf-三个皮匠报告

1、北北京京大大学学数数据据结结构构实实验验室室FairyClaw：全端侧部署、轻量安全的复数模型智能体杨仝北京大学PKU-DS实验室负责人ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026北北京京大大学学数数据据结结构构实实验验室室杨杨仝仝北北京京大大学学iFairy：首首个个2比比特特 1,i复复数数基基座座大大模模型型推推理理仅仅加加法法，手手机机可可部部署署2第一部分ClawCon2026ClawCon2026ClawCon2026ClawCo

2、n2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026北北京京大大学学数数据据结结构构实实验验室室报报告告结结构构研研究究背背景景从从实实数数模模型型到到复复数数模模型型2比比特特高高效效量量化化算算法法iFairy高高效效推推理理iFairy模模型型ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026北北京京大大学学数数据据结结构构实实验验室室PART 01研研究究背背景景Re

3、search Background4ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026北北京京大大学学数数据据结结构构实实验验室室5大大模模型型同同时时面面临临时时间间瓶瓶颈颈和和空空间间瓶瓶颈颈大大语语言言的的空空间间瓶瓶颈颈参参数数量量巨巨大大现代大模型通常拥有千千亿亿甚至万万亿亿个个参参数数，存储这些参数非常昂贵。我们希望尽可能减减小小存储每每个个参参数数所需的空间。大大语语言言的的时时间间瓶瓶颈颈推推理理成成本本高高大模型推理的计算成本很

4、高，其核心是GEMM，即矩矩阵阵乘乘法法。计算慢、功耗高。ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026北北京京大大学学数数据据结结构构实实验验室室6模模型型量量化化量化通过降低模型权重和激活值的精度来实现这一点，本质上是将高高精精度度参参数数（例如 FP32 浮点数）转转换换为为低低精精度度格格式式（例如 FP16、BF16、INT8、NF4）。模模型型尺尺寸寸更更小小：量化大幅减少了模型所需的存储空间，使其更易于存储和分发。内内存存使使用

5、用量量减减少少：在推理阶段（模型用于进行预测时），量化后的模型占用更少的内存，从而能够在资源有限的设备上运行。推推理理速速度度更更快快：许多硬件平台针对低精度计算进行了优化，在这些平台上运行量化模型可以显著加快推理速度。ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026北北京京大大学学数数据据结结构构实实验验室室7PTQ和和QAT 根据量化方案的不同，可以分为训训练练后后量量化化（PTQ）和和训训练练时时量量化化（QAT）。PTQ（Post Tra

6、ining Quantization）无无需需再再训训练练，而是直接对预训练模型应用量化。PTQ 实实现现简简单单，但对模型性能的影响较大，复杂的PTQ算法会降降低低推推理理速速度度。QAT（Quantization Aware Training）将权权重重量量化化融融入入LLM训训练练过过程程。通过在训练过程中模拟低精度操作，模型能够学习适应量化噪声，从而提升性能。训练时做过，推理精度高。本工作关注极低比特QAT量化ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026ClawCon2026C

3-杨仝.pdf

相关报告