1、区庆亮:清华大学研究生,KTransformers 核心开发者https:/ SPR+8*DDR5-4800规格80GB VRAM,2 TBps$15,0008*64GB DRAM,8*40GB/s$8,000带宽成本$7.5 per GBps$25 per GBps容量成本$187 per GB$15.6 per GB注:价格随时间波动大,仅供意会适合稀疏 5B(128K 上下文)17B654B注意力模块线性变换&共享专家模块路由专家模块模块容量计算强度高中低卸载到 CPU 处理由 GPU 处理解码(Decode)预填充(Prefill)设备间协同开销大CPU/GPU 重叠不充分CUDA G
2、raphNuma 感知的张量并行专家推迟机制最新工作:Expert Parallelism Load BalanceCPU 是计算密集阶段的瓶颈先进 CPU 指令集:Intel AMX最新工作:Layerwise Prefill难点:CPU-CPU 协同开销大现代 CPU 通常包含多个 NUMA 节点,跨 NUMA 节点访问的延迟和带宽都差于节点内部访问。解决方案:Numa 感知的张量并行均匀切分专家权重,放置在各个 NUMA 节点,尽可能使 CPU 只访问本地内存,避免高成本的跨节点内存访问。合入原精度适配Layerwise PrefillExpert Parallelism Load Ba
3、lance 更强的大模型量化失效按通道(per-channel)量化的 INT4 几乎无效Qwen3:在前几层存在过多离群值Kimi K2 Thinking:按通道量化生成质量较差 更长的上下文误差累积即使是 AWQ/GPTQ 也无法阻止显著的累计量化误差 已适配的原精度模型DeepSeek:R1,V3,V3.2 GLM:4.7,4.7-FP8Kimi:K2-Thinking,K2.5MiniMax:M2,M2.1Qwen3:235B-A22B,30B-A3B,Next-80B-A3B 原版代码长文本 Prefill 场景下,CPU 的 MoE 计算成为瓶颈 Layerwise Prefill
4、将权重传回 GPU,利用 SGLang 的Kernel 进行计算。额外耗费一层的显存 从 CPU aware 格式到 GPU 格式的转换将 weight 和 scale 按照 GPU 格式进行转换再传输,实现在内存中仅保存一份权重。转换与传输异步利用 cuda stream 将传输步骤重叠,掩盖格式转换开销长文本 Prefill 速度大幅提升16K-64K 场景下提升速度可达 7-9 倍对标 llama.cpp精度:FP8 原精度,无量化误差Prefill:4.5 倍的提升Decode:30%的提升同一场景下中间层 Experts 的激活呈现显著的冷热分化和高度时间稳定性。动态专家更新:在 l
5、ayerwise prefill 阶段根据当前批次的实际激活专家分布动态调整 GPU 专家放置,使系统能够自适应工作负载模式。设计多种专家放置策略Decode 性能提升 10-30%。实验平台 边缘 AI 基础设施-之前的专业用户:研究人员、极客、大学生-未来目标用户:非专业用户模型/硬件覆盖与易用性-支持消费级 CPU-支持国产硬件-支持更多模型趋势:LLM 的规模增长已接近停滞大多数模型参数用于存储“事实”,而非提升推理能力边缘端硬件性能持续提升 核心洞见:端侧智能依赖于 Agents,而 Agents 不需要海量参数。拐点:当边缘端硬件达到某个性能阈值时,设备就能自主运行智能体。KTransformers 使命:通过持续优化边缘侧性能,加速这一拐点的到来。T h a n k s