当前位置:首页 > 报告详情

共建大模型推理生态:Mooncake、KTransformer 与 SGLang-区庆亮.pdf

上传人: 表表 编号:1152896 2026-02-14 16页 2.06MB

1、区庆亮:清华大学研究生,KTransformers 核心开发者https:/ SPR+8*DDR5-4800规格80GB VRAM,2 TBps$15,0008*64GB DRAM,8*40GB/s$8,000带宽成本$7.5 per GBps$25 per GBps容量成本$187 per GB$15.6 per GB注:价格随时间波动大,仅供意会适合稀疏 5B(128K 上下文)17B654B注意力模块线性变换&共享专家模块路由专家模块模块容量计算强度高中低卸载到 CPU 处理由 GPU 处理解码(Decode)预填充(Prefill)设备间协同开销大CPU/GPU 重叠不充分CUDA G

2、raphNuma 感知的张量并行专家推迟机制最新工作:Expert Parallelism Load BalanceCPU 是计算密集阶段的瓶颈先进 CPU 指令集:Intel AMX最新工作:Layerwise Prefill难点:CPU-CPU 协同开销大现代 CPU 通常包含多个 NUMA 节点,跨 NUMA 节点访问的延迟和带宽都差于节点内部访问。解决方案:Numa 感知的张量并行均匀切分专家权重,放置在各个 NUMA 节点,尽可能使 CPU 只访问本地内存,避免高成本的跨节点内存访问。合入原精度适配Layerwise PrefillExpert Parallelism Load Ba

3、lance 更强的大模型量化失效按通道(per-channel)量化的 INT4 几乎无效Qwen3:在前几层存在过多离群值Kimi K2 Thinking:按通道量化生成质量较差 更长的上下文误差累积即使是 AWQ/GPTQ 也无法阻止显著的累计量化误差 已适配的原精度模型DeepSeek:R1,V3,V3.2 GLM:4.7,4.7-FP8Kimi:K2-Thinking,K2.5MiniMax:M2,M2.1Qwen3:235B-A22B,30B-A3B,Next-80B-A3B 原版代码长文本 Prefill 场景下,CPU 的 MoE 计算成为瓶颈 Layerwise Prefill

4、将权重传回 GPU,利用 SGLang 的Kernel 进行计算。额外耗费一层的显存 从 CPU aware 格式到 GPU 格式的转换将 weight 和 scale 按照 GPU 格式进行转换再传输,实现在内存中仅保存一份权重。转换与传输异步利用 cuda stream 将传输步骤重叠,掩盖格式转换开销长文本 Prefill 速度大幅提升16K-64K 场景下提升速度可达 7-9 倍对标 llama.cpp精度:FP8 原精度,无量化误差Prefill:4.5 倍的提升Decode:30%的提升同一场景下中间层 Experts 的激活呈现显著的冷热分化和高度时间稳定性。动态专家更新:在 l

5、ayerwise prefill 阶段根据当前批次的实际激活专家分布动态调整 GPU 专家放置,使系统能够自适应工作负载模式。设计多种专家放置策略Decode 性能提升 10-30%。实验平台 边缘 AI 基础设施-之前的专业用户:研究人员、极客、大学生-未来目标用户:非专业用户模型/硬件覆盖与易用性-支持消费级 CPU-支持国产硬件-支持更多模型趋势:LLM 的规模增长已接近停滞大多数模型参数用于存储“事实”,而非提升推理能力边缘端硬件性能持续提升 核心洞见:端侧智能依赖于 Agents,而 Agents 不需要海量参数。拐点:当边缘端硬件达到某个性能阈值时,设备就能自主运行智能体。KTransformers 使命:通过持续优化边缘侧性能,加速这一拐点的到来。T h a n k s

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **KTransformers核心优化**:针对大模型推理瓶颈,提出Layerwise Prefill技术,16K-64K上下文场景下Prefill速度提升7-9倍,Decode提升30%,支持FP8原精度无量化误差。 2. **专家并行优化**:采用NUMA感知张量并行和动态专家更新策略,解决CPU-CPU协同开销大问题,Decode性能提升10-30%。 3. **硬件与模型适配**:支持A100/Xeon SPR等硬件,已适配DeepSeek、GLM、Qwen3等原精度模型,解决量化失效问题(如Qwen3前层离群值)。 4. **边缘智能趋势**:认为LLM规模增长停滞,端侧智能依赖Agents,KTransformers通过边缘性能优化加速智能体自主运行拐点到来。
**边缘AI如何突破?** **量化失效怎么办?** **专家如何动态优化?**
客服
商务合作
小程序
服务号
折叠