郑杨_面向多元AI芯片的算子库和编译器.pdf

上传人：柒柒

编号：1268188

2026-06-13

PDF 34页 6.56MB

《郑杨_面向多元AI芯片的算子库和编译器.pdf》由会员分享，可在线阅读，更多相关《郑杨_面向多元AI芯片的算子库和编译器.pdf（34页珍藏版）》请在三个皮匠报告上搜索。

1、面向多元AI芯片的算子库&编译器建设实践与思考智源研究院郑杨2025.12目录CONTENTS众智 FlagOS 软硬件统一生态概览大模型通用算子库 FlagGems多元芯片统一编译器 FlagTree众智 FlagOS 发展历程与生态建设众智 FlagOS：面向多元 AI 芯片的系统软件栈各种AI芯片各种的智算集群各种大模型各种深度学习框架统一自主软件栈：统一支持深度学习框架（PyTorch,PaddlePaddle,etc）AI大模型(语言大模型，多模态大模型，MoE架构等)语言模型DeepSeek，Qwen，Seed-oss，GPT-oss，Step,Grok，Llama 等多模态模

2、型智源 EMU，面壁 CPM，Qwen-VL系列，ERNIE4.5,Llava系列具身智能模型智源 RoboBrainPai-0已支持大模型众智FlagOS v1.5：面向多种AI芯片的系统软件栈芯片 A芯片 B芯片 C底层通信库 A后端编译器 A底层通信库 B后端编译器 B底层通信库 C后端编译器 C已支持的硬件架构:GPGPU,DSA/NPU,RISC-V AI,ARM 芯片企业：超过10家芯片企业，20多款不同芯片数据中心(train&Inference)边缘(inference)机器人(cloud-edge cooperation)开源工具FlagGEMs:通用大模型算子库FlagSc

3、ale:训练推理并行框架FlagTree:统一编译器FlagCX:统一通信库开源核心库FlagRelease自动迁移和发版工具FlagPerf多芯片评测工具Triton-Copilot算子自动生成工具FlagGems：为多硬件生态构建 AI 通用算子层https:/ Triton 语言实现的大模型通用算子库平均加速比达到130%85%以上的算子性能持平或优于 PyTorch ATenspeedup1speedup1FlagGems：为多硬件生态构建 AI 通用算子层替代CUDA算子库，全球最大、支持芯片种类最多的大模型通用算子库：实现了超过200个算子，平均性能优于CUDA 支持了16家芯片

4、厂商的25款AI芯片，且覆盖 GPGPU、DSA/NPU、RISC-V AI 和 ARM 多种架构模型名称覆盖度性能优化前优化后Qwen2.5-7B-Instruct100%35%95%Qwen3_30A_A3B100%25%92%Qwen3_8B92%98%104%提升推理场景覆盖度和性能：重点模型全覆盖，且性能逐渐追平原生持续优化算子性能部分性能低洼算子，性能超越 CUDA 30%以上算子优化技术hstack/stack/cat批处理融合，减少kernel 启动次数slice_scatter/select_scatter统一内存访问，后维乘积预计算，避免kernel内昂贵的除法/取模运算

5、full/full_like/fill/fill_应用dynamic_pointwise 装饰器，自动代码生成cumsum/cummin根据输入张量形态，细化设计三种kernelFlagGems：为多硬件生态构建 AI 通用算子层基于 CPP JIT Runtime 的算子封装层实现了 CPP 的算子封装层替代原有的 Python 算子封装层。累计 20 个算子升级为 CPP 封装层，单个算子的性能提升 20%以上。Wrapper timelibtorch(cpp)torch(python)triton(python)triton(cpp)add14.44us14.44us61.11us14

6、.44ussum_dim17.78us18.89us82.22us16.67usKernel timetorchtritonadd2.126us2.097ussum_dim8.805us4.538usFlagGems：为多元 AI 芯片提供更好的性能问题：online AutoTune 造成推理耗时陡增方案：采用离线搜寻机制，建立Shape与内核参数对应关系，online 直接查表获取内核参数，避免搜索耗时核心亮点通过预执行自动调优提升效率，彻底消除运行时开销持久化存储使Pretune结果可复用、可共享，并便于分发借助多级缓存加速自动调优即使缓存部分命中也能节省时间技术实现基于SQ

郑杨_面向多元AI芯片的算子库和编译器.pdf

相关报告