《trake1-开源构建AI系统软件堆栈-智源-朱其罡.pdf》由会员分享,可在线阅读,更多相关《trake1-开源构建AI系统软件堆栈-智源-朱其罡.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、开源构建AI系统软件堆栈朱其罡FlagOS社区秘书长New Era of AI hardware architectureDeepSeek-AI.Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures.https:/arxiv.org/pdf/2505.09343AI 芯片硬件不再孤独,创新的软件与硬件架构联合设计开启AGI黄金时代!DeepSeek的AI计算民主化突破 CUDA的影响及成功因素 CUDA的成功不仅源于其性能优势,还在于NVIDIA的战略布局、生态
2、构建与发展势能的协同作用。CUDA的统治地位是通过持续投入、平台控制与市场反馈循环共同实现的,这些要素他人难以复制。CUDA的替代方案及挑战 尽管有多个替代方案(如OpenCL、TVM、XLA等),但至今未有其他方案能攻克CUDA的难题。挑战包括技术桎梏、战略困局以及生态碎片化。AI编译器的现状与局限 现代AI编译器(如TVM和XLA)在自动化代码生成和优化方面取得了进展,但在应对现代生成式AI工作负载和实现硬件性能最大化方面仍存在局限。MLIR编译器框架作为潜在解决方案,尽管引发了行业突破,但仍面临治理困境、激励机制错位与领导力挑战。硬件公司构建AI软件的挑战 硬件公司在构建AI软件方面面临
3、激励错位、优先级冲突和低估软件投入规模等挑战。英伟达通过CUDA建立的强大生态系统使得其他硬件公司难以追赶,实现AI算力的民主化需要彻底重构游戏规则。背景:Chris Lattner的启示为什么统一、开源的系统软件至关重要?当前AI创新面临的挑战大模型算法验证成本极高:单次验证可能耗资数百万美元;单一组织无法覆盖所有环节:数据、基准、工具链等准备成本过高;计算资源昂贵且难以获取:多数研发团队难以承担高昂成本。碎片化软件生态阻碍AI芯片大规模产业落地各厂商专有生态割裂:用户切换芯片需重写代码,迁移成本极高芯片AAI大模型(LLM、VLM、VLA等)深度学习框架(pytorch 等)Operato
4、r libraryAProg.Lang.AParallel frameworkAComm.library A(ACCL)系统软件ACompiler AOperator libraryBProg.Lang.BParallel frameworkBComm.library B(BCCL)系统软件BCompiler B芯片BOperator libraryCProg.Lang.CParallel framework CComm.library C(CCCL)系统软件CCompiler C芯片C 芯片公司能力有限:算子库支持不全;难以跟上模型和优化技术的高速迭代 芯片间无兼容性:迁移需投入大量研发资源
5、FlagOS:面向多种AI芯片的开源统一系统软件栈深度学习框架(PyTorch,等)AI 大模型(大语言模型(LLM)、视觉语言模型(VLM)、视觉行动模型(VLA)等)语言模型多模态模型具身智能模型支持的大模型类型FlagOS:面向多种AI芯片的统一系统软件栈芯片A芯片B芯片CLow-level comm.library ABackend compilerALow-level comm.library BBackend compilerBLow-level comm.library CBackend compilerC目标硬件架构:GPGPU、DSA、RISC-V AI、ARM 等多厂商芯片
6、支持:11家全球厂商、18款芯片各种AI大模型各种 DL 框架各种AI芯片各种AI计算集群统一系统软件栈:全栈支持数据中心(训练+推理)边缘端(推理)机器人(云边协同)FlagGems:通用 AI 算子库FlagScale:训练-推理并行框架FlagTree:多架构编译器FlagCX:统一通信库核心模块FlagRelease自动迁移和发布工具FlagPerfAI系统基准工具工具FlagOS 核心价值FlagGems:基于Triton的高性能算子库 76%的 FlagGems 运算符速度快于或等于 CUDA 24%的 FlagGems 运营商比 CUDA 慢图1.FlagGems 算子和 CUD