共建大模型推理生态：Mooncake、KTransformer 与 SGLang-区庆亮.pdf-三个皮匠报告

1、区庆亮：清华大学研究生，KTransformers 核心开发者https:/ SPR+8*DDR5-4800规格80GB VRAM，2 TBps$15,0008*64GB DRAM，8*40GB/s$8,000带宽成本$7.5 per GBps$25 per GBps容量成本$187 per GB$15.6 per GB注：价格随时间波动大，仅供意会适合稀疏 5B（128K 上下文）17B654B注意力模块线性变换&共享专家模块路由专家模块模块容量计算强度高中低卸载到 CPU 处理由 GPU 处理解码（Decode）预填充（Prefill）设备间协同开销大CPU/GPU 重叠不充分CUDA G

2、raphNuma 感知的张量并行专家推迟机制最新工作：Expert Parallelism Load BalanceCPU 是计算密集阶段的瓶颈先进 CPU 指令集：Intel AMX最新工作：Layerwise Prefill难点:CPU-CPU 协同开销大现代 CPU 通常包含多个 NUMA 节点，跨 NUMA 节点访问的延迟和带宽都差于节点内部访问。解决方案:Numa 感知的张量并行均匀切分专家权重，放置在各个 NUMA 节点，尽可能使 CPU 只访问本地内存，避免高成本的跨节点内存访问。合入原精度适配Layerwise PrefillExpert Parallelism Load Ba

3、lance 更强的大模型量化失效按通道（per-channel）量化的 INT4 几乎无效Qwen3：在前几层存在过多离群值Kimi K2 Thinking：按通道量化生成质量较差更长的上下文误差累积即使是 AWQ/GPTQ 也无法阻止显著的累计量化误差已适配的原精度模型DeepSeek：R1,V3,V3.2 GLM：4.7,4.7-FP8Kimi：K2-Thinking,K2.5MiniMax：M2,M2.1Qwen3：235B-A22B,30B-A3B,Next-80B-A3B 原版代码长文本 Prefill 场景下，CPU 的 MoE 计算成为瓶颈 Layerwise Prefill

4、将权重传回 GPU，利用 SGLang 的Kernel 进行计算。额外耗费一层的显存从 CPU aware 格式到 GPU 格式的转换将 weight 和 scale 按照 GPU 格式进行转换再传输，实现在内存中仅保存一份权重。转换与传输异步利用 cuda stream 将传输步骤重叠，掩盖格式转换开销长文本 Prefill 速度大幅提升16K-64K 场景下提升速度可达 7-9 倍对标 llama.cpp精度：FP8 原精度，无量化误差Prefill：4.5 倍的提升Decode：30%的提升同一场景下中间层 Experts 的激活呈现显著的冷热分化和高度时间稳定性。动态专家更新：在 l

5、ayerwise prefill 阶段根据当前批次的实际激活专家分布动态调整 GPU 专家放置，使系统能够自适应工作负载模式。设计多种专家放置策略Decode 性能提升 10-30%。实验平台边缘 AI 基础设施-之前的专业用户：研究人员、极客、大学生-未来目标用户：非专业用户模型/硬件覆盖与易用性-支持消费级 CPU-支持国产硬件-支持更多模型趋势：LLM 的规模增长已接近停滞大多数模型参数用于存储“事实”，而非提升推理能力边缘端硬件性能持续提升核心洞见：端侧智能依赖于 Agents，而 Agents 不需要海量参数。拐点：当边缘端硬件达到某个性能阈值时，设备就能自主运行智能体。KTransformers 使命：通过持续优化边缘侧性能，加速这一拐点的到来。T h a n k s

共建大模型推理生态：Mooncake、KTransformer 与 SGLang-区庆亮.pdf

相关报告