报告预览

陈祥麟-Ktransformers：单卡完成千亿参数大模型推理任务.pdf

编号：630969

PDF 42页 10.67MB 下载积分：VIP专享

下载报告请您先登录！

陈祥麟-Ktransformers：单卡完成千亿参数大模型推理任务.pdf

1、陈祥麟趋境科技研发负责人清华大学硕士，多年大数据与AI全栈开发经验，曾负责数个千万级产品研发与交付。开源项目 Ktransformers 核心开发者之一，实现业界首个单张GPU本地支持千亿大模型、支持1M超长上下文推理的高性能推理框架。演讲主题：Ktransformers：单卡完成千亿参数大模型推理任务Ktransformers：单卡完成千亿参数大模型推理任务趋境科技：陈祥麟趋境科技公司专注大模型推理加速解决方案帮助企业低成本落地私有化大模型公司创始团队均来自清华大学计算机系具备多年学术与产业实践经验清华系团队牵头公司CEO：艾*-清华博士，10年以上产品化经验，百人以上团队管理经验，

2、主导多个千万级产品交付首席战略官：陈*-清华工程博士在读、MIT&杜克大学双硕士，主导多家技术驱动科技企业的投资与孵化研发负责人：陈*-清华硕士，全栈技术负责人，5年以上大数据与AI相关产品研发经验联合技术创新团队：清华大学武*教授、章*教授所带领的 KVCache.AI 团队公司研发团队技术实力深厚，团队成员90%以上为硕士、50%以上为博士，均毕业于清华、新加坡国立、北航、北邮、北理等国内外知名院校。研发实力深厚拥有 OSDI、SOSP、ASPLOS 等国际顶级期刊一作论文数十余篇，数个国家级创新奖项，在AI和存储领域有深入的学术研究。团队成员来自英特尔、百度、字节、深信服等行业知名企业，

3、负责关键产品的研发与交付，拥有丰富的技术实践经验。产品技术路线业内首创，精准解决行业私有化大模型落地关键难题，实际效果显著领先于行业其他解决方案。产品已在安全、教育、科技等多个领域客户侧落地背景&思路千亿参数模型使用单卡本地推理1M长文本推理以存换算全系统协同优化未来工作与展望大模型能力发展的同时其使用成本也大幅度提升更多的数据+更大的模型+更长的上下文窗口=更高的智能但是推理成本高响应延迟长算力缺口大所用数据越多算力缺口越大模型越大推理成本越高输入越长响应延迟越长推理场景下，访存带宽成为了关键瓶颈1）相比高端显卡上提供的 NVLink，端侧的 PCIe 等互联协议带宽更低2）相比模型大小

4、的的增长速度，高性能存储容量的增速也更缓解决思路：CPU/GPU 异构推理1030 GB容量算力带宽100 GB600 GBps 300 GBps 100 TFLOPS 10 TFLOPSMoE稀疏性AttentionFFNDecoder Layer FFN 算算子子稀稀疏疏的的来来源源：MoE 结结构构Offload 到 CPU/DRAM 上进行计算 Attention算子稀疏的来源：Attention 自身的稀疏性基于计算强度的 Offload 策略Offload 优优先先级级：Routed Experts Shared Experts MLA Attentionhttps:/ CPU 算

5、子框架 CPUInfer 基于 llama.cpp 的 ggml 量化格式和 llamafile 的高性能算子进一步改造增加多线程、任务调度、负载均衡、NUMA 感知等优化高性能 GPU 算子Marlinhttps:/ 异构混合推理：本地 MoE 模型推理 11GB显存+130GB内存运行 236B 大模型数倍于 llama.cpp 的性能和更大的灵活性https:/ 基于模板的替换策略实现将 Routed Experts 替换成基于 llamafile 实现的 CPU 量化 kernel将 Shared Experts 替换成基于 Marlin 实现的 4bit GPU kernelKT

6、ransformers:灵活高效的本地 LLM 推理实验框架 Hugging Face Transformers+基于模板规则的注入/替换框架平衡兼容性/灵活性/易用性与性能 CUDA Graph 和 CPU/GPU kernel 是主要的性能优化来源适合集成各类单算子优化做组合测试提供 UI/API/Windows 等支持多种算子及进一步自定义的支持基于一套模板类，可以轻松的自定义添加。比如实际上多卡 PP 功能就是实现了一个新的算子并基于模板注入实现的更多MoE模型的支持1M超长上下文推理AttentionFFNDecoder Layer FFN 算子稀疏的来源：MoE 结构Off

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（陈祥麟-Ktransformers：单卡完成千亿参数大模型推理任务.pdf）为本站（哆哆）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。