1、陈祥麟趋境科技研发负责人清华大学硕士,多年大数据与AI全栈开发经验,曾负责数个千万级产品研发与交付。开源项目 Ktransformers 核心开发者之一,实现业界首个单张GPU本地支持千亿大模型、支持1M超长上下文推理的高性能推理框架。演讲主题:Ktransformers:单卡完成千亿参数大模型推理任务Ktransformers:单卡完成千亿参数大模型推理任务趋境科技:陈祥麟趋境科技公司 专注大模型推理加速解决方案 帮助企业低成本落地私有化大模型 公司创始团队均来自清华大学计算机系 具备多年学术与产业实践经验清华系团队牵头公司CEO:艾*-清华博士,10年以上产品化经验,百人以上团队管理经验,
2、主导多个千万级产品交付首席战略官:陈*-清华工程博士在读、MIT&杜克大学双硕士,主导多家技术驱动科技企业的投资与孵化研发负责人:陈*-清华硕士,全栈技术负责人,5年以上大数据与AI相关产品研发经验联合技术创新团队:清华大学武*教授、章*教授所带领的 KVCache.AI 团队公司研发团队技术实力深厚,团队成员90%以上为硕士、50%以上为博士,均毕业于清华、新加坡国立、北航、北邮、北理等国内外知名院校。研发实力深厚拥有 OSDI、SOSP、ASPLOS 等国际顶级期刊一作论文数十余篇,数个国家级创新奖项,在AI和存储领域有深入的学术研究。团队成员来自英特尔、百度、字节、深信服等行业知名企业,
3、负责关键产品的研发与交付,拥有丰富的技术实践经验。产品技术路线业内首创,精准解决行业私有化大模型落地关键难题,实际效果显著领先于行业其他解决方案。产品已在安全、教育、科技等多个领域客户侧落地背景&思路千亿参数模型使用单卡本地推理1M长文本推理以存换算全系统协同优化未来工作与展望大模型能力发展的同时其使用成本也大幅度提升 更多的数据+更大的模型+更长的上下文窗口=更高的智能 但是推理成本高响应延迟长算力缺口大所用数据越多算力缺口越大模型越大推理成本越高输入越长响应延迟越长推理场景下,访存带宽成为了关键瓶颈1)相比高端显卡上提供的 NVLink,端侧的 PCIe 等互联协议带宽更低2)相比模型大小
4、的的增长速度,高性能存储容量的增速也更缓解决思路:CPU/GPU 异构推理1030 GB容量算力带宽100 GB600 GBps 300 GBps 100 TFLOPS 10 TFLOPSMoE稀疏性AttentionFFNDecoder Layer FFN 算算子子稀稀疏疏的的来来源源:MoE 结结构构Offload 到 CPU/DRAM 上进行计算 Attention算子稀疏的来源:Attention 自身的稀疏性基于计算强度的 Offload 策略Offload 优优先先级级:Routed Experts Shared Experts MLA Attentionhttps:/ CPU 算
5、子框架 CPUInfer 基于 llama.cpp 的 ggml 量化格式和 llamafile 的高性能算子进一步改造 增加多线程、任务调度、负载均衡、NUMA 感知等优化高性能 GPU 算子Marlinhttps:/ 异构混合推理:本地 MoE 模型推理 11GB显存+130GB内存运行 236B 大模型 数倍于 llama.cpp 的性能和更大的灵活性https:/ 基于模板的替换策略实现将 Routed Experts 替换成基于 llamafile 实现的 CPU 量化 kernel将 Shared Experts 替换成基于 Marlin 实现的 4bit GPU kernelKT
6、ransformers:灵活高效的本地 LLM 推理实验框架 Hugging Face Transformers+基于模板规则的注入/替换框架 平衡兼容性/灵活性/易用性与性能 CUDA Graph 和 CPU/GPU kernel 是主要的性能优化来源 适合集成各类单算子优化做组合测试 提供 UI/API/Windows 等支持多种算子及进一步自定义的支持 基于一套模板类,可以轻松的自定义添加。比如实际上多卡 PP 功能就是实现了一个新的算子并基于模板注入实现的更多MoE模型的支持1M超长上下文推理AttentionFFNDecoder Layer FFN 算子稀疏的来源:MoE 结构Off