《郑杨_面向多元AI芯片的算子库和编译器.pdf》由会员分享,可在线阅读,更多相关《郑杨_面向多元AI芯片的算子库和编译器.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、面向多元AI芯片的算子库&编译器建设实践与思考智源研究院 郑杨2025.12目 录CONTENTS众智 FlagOS 软硬件统一生态概览大模型通用算子库 FlagGems多元芯片统一编译器 FlagTree众智 FlagOS 发展历程与生态建设众智 FlagOS:面向多元 AI 芯片的系统软件栈各种AI芯片各种的智算集群各种大模型各种深度学习框架统一自主软件栈:统一支持深度学习框架(PyTorch,PaddlePaddle,etc)AI大模型(语言大模型,多模态大模型,MoE架构等)语言模型DeepSeek,Qwen,Seed-oss,GPT-oss,Step,Grok,Llama 等多模态模
2、型智源 EMU,面壁 CPM,Qwen-VL系列,ERNIE4.5,Llava系列具身智能模型智源 RoboBrainPai-0已支持大模型众智FlagOS v1.5:面向多种AI芯片的系统软件栈芯片 A芯片 B芯片 C底层通信库 A后端编译器 A底层通信库 B后端编译器 B底层通信库 C后端编译器 C已支持的硬件架构:GPGPU,DSA/NPU,RISC-V AI,ARM 芯片企业:超过10家芯片企业,20多款不同芯片数据中心(train&Inference)边缘(inference)机器人(cloud-edge cooperation)开源工具FlagGEMs:通用大模型算子库FlagSc
3、ale:训练推理并行框架FlagTree:统一编译器FlagCX:统一通信库开源核心库FlagRelease自动迁移和发版工具FlagPerf多芯片评测工具Triton-Copilot算子自动生成工具FlagGems:为多硬件生态构建 AI 通用算子层https:/ Triton 语言实现的大模型通用算子库 平均加速比达到130%85%以上的算子性能持平或优于 PyTorch ATenspeedup1speedup1FlagGems:为多硬件生态构建 AI 通用算子层替代CUDA算子库,全球最大、支持芯片种类最多的大模型通用算子库:实现了超过200个算子,平均性能优于CUDA 支持了16家芯片
4、厂商的25款AI芯片,且覆盖 GPGPU、DSA/NPU、RISC-V AI 和 ARM 多种架构模型名称覆盖度性能优化前优化后Qwen2.5-7B-Instruct100%35%95%Qwen3_30A_A3B100%25%92%Qwen3_8B92%98%104%提升推理场景覆盖度和性能:重点模型全覆盖,且性能逐渐追平原生 持续优化算子性能部分性能低洼算子,性能超越 CUDA 30%以上算子优化技术hstack/stack/cat批处理融合,减少kernel 启动次数slice_scatter/select_scatter统一内存访问,后维乘积预计算,避免kernel内昂贵的除法/取模运算
5、full/full_like/fill/fill_应用dynamic_pointwise 装饰器,自动代码生成cumsum/cummin根据输入张量形态,细化设计三种kernelFlagGems:为多硬件生态构建 AI 通用算子层 基于 CPP JIT Runtime 的算子封装层实现了 CPP 的算子封装层替代原有的 Python 算子封装层。累计 20 个算子升级为 CPP 封装层,单个算子的性能提升 20%以上。Wrapper timelibtorch(cpp)torch(python)triton(python)triton(cpp)add14.44us14.44us61.11us14
6、.44ussum_dim17.78us18.89us82.22us16.67usKernel timetorchtritonadd2.126us2.097ussum_dim8.805us4.538usFlagGems:为多元 AI 芯片提供更好的性能问题:online AutoTune 造成推理耗时陡增方案:采用离线搜寻机制,建立Shape与内核参数对应关系,online 直接查表获取内核参数,避免搜索耗时 核心亮点 通过预执行自动调优提升效率,彻底消除运行时开销 持久化存储使Pretune结果可复用、可共享,并便于分发 借助多级缓存加速自动调优即使缓存部分命中也能节省时间 技术实现 基于SQ