当前位置:首页 > 报告详情

10.XSAI:以CPU的编程范式支持现代LLM核函数 .pdf

上传人: B**** 编号:963958 2025-11-02 17页 1.42MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要围绕XSAI(ξ)硬件支持现代LLM内核展开,关键点如下: 1. **动机与现状**:采用RISC-V架构和GEMM运算优化CPU性能,当前支持高带宽L2缓存和异步GEMM。 2. **GEMM的重要性**:即使在解码和消费端,GEMM运算也至关重要,解码在云端不是内存受限。 3. **Transformer块进化**:从MHA到GQA再到MLA,减少缓存占用,提高计算/内存比。 4. **解码优化**:使用推测性解码提高效率,降低内存带宽需求。 5. **RISC-V与GEMM结合**:利用RISC-V的软件生态系统和编译器优化GEMM运算。 6. **XSAI计算需求**:通过优化MFU、高带宽L2缓存、异步GEMM和量化精度来满足。 7. **高带宽L2缓存**:容量1-2MB,带宽256-512 Bytes每周期,延迟约12周期。 8. **异步MMA支持**:在标量核心中实现异步MMA操作,提高效率。 9. **量化与TFLOPS**:使用MXFP8量化增强,提高计算精度和效率。 10. **未来工作**:硬件支持Hadamard变换和预硅端到端调优框架。
GEMM加速的秘密?" XSAI如何突破内存瓶颈?" 高效GEMM背后的技术"
客服
商务合作
小程序
服务号
折叠