trake1-开源构建AI系统软件堆栈-智源-朱其罡.pdf

上传人： s****e

编号：944378

2025-10-19

PDF 17页 5.49MB

《trake1-开源构建AI系统软件堆栈-智源-朱其罡.pdf》由会员分享，可在线阅读，更多相关《trake1-开源构建AI系统软件堆栈-智源-朱其罡.pdf（17页珍藏版）》请在三个皮匠报告上搜索。

1、开源构建AI系统软件堆栈朱其罡FlagOS社区秘书长New Era of AI hardware architectureDeepSeek-AI.Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures.https:/arxiv.org/pdf/2505.09343AI 芯片硬件不再孤独，创新的软件与硬件架构联合设计开启AGI黄金时代！DeepSeek的AI计算民主化突破 CUDA的影响及成功因素 CUDA的成功不仅源于其性能优势，还在于NVIDIA的战略布局、生态

2、构建与发展势能的协同作用。CUDA的统治地位是通过持续投入、平台控制与市场反馈循环共同实现的，这些要素他人难以复制。CUDA的替代方案及挑战尽管有多个替代方案（如OpenCL、TVM、XLA等），但至今未有其他方案能攻克CUDA的难题。挑战包括技术桎梏、战略困局以及生态碎片化。AI编译器的现状与局限现代AI编译器（如TVM和XLA）在自动化代码生成和优化方面取得了进展，但在应对现代生成式AI工作负载和实现硬件性能最大化方面仍存在局限。MLIR编译器框架作为潜在解决方案，尽管引发了行业突破，但仍面临治理困境、激励机制错位与领导力挑战。硬件公司构建AI软件的挑战硬件公司在构建AI软件方面面临

3、激励错位、优先级冲突和低估软件投入规模等挑战。英伟达通过CUDA建立的强大生态系统使得其他硬件公司难以追赶，实现AI算力的民主化需要彻底重构游戏规则。背景：Chris Lattner的启示为什么统一、开源的系统软件至关重要？当前AI创新面临的挑战大模型算法验证成本极高：单次验证可能耗资数百万美元；单一组织无法覆盖所有环节：数据、基准、工具链等准备成本过高；计算资源昂贵且难以获取：多数研发团队难以承担高昂成本。碎片化软件生态阻碍AI芯片大规模产业落地各厂商专有生态割裂：用户切换芯片需重写代码，迁移成本极高芯片AAI大模型（LLM、VLM、VLA等）深度学习框架（pytorch 等）Operato

4、r libraryAProg.Lang.AParallel frameworkAComm.library A(ACCL)系统软件ACompiler AOperator libraryBProg.Lang.BParallel frameworkBComm.library B(BCCL)系统软件BCompiler B芯片BOperator libraryCProg.Lang.CParallel framework CComm.library C(CCCL)系统软件CCompiler C芯片C 芯片公司能力有限:算子库支持不全；难以跟上模型和优化技术的高速迭代芯片间无兼容性:迁移需投入大量研发资源

5、FlagOS：面向多种AI芯片的开源统一系统软件栈深度学习框架（PyTorch,等）AI 大模型(大语言模型（LLM）、视觉语言模型（VLM）、视觉行动模型（VLA）等)语言模型多模态模型具身智能模型支持的大模型类型FlagOS：面向多种AI芯片的统一系统软件栈芯片A芯片B芯片CLow-level comm.library ABackend compilerALow-level comm.library BBackend compilerBLow-level comm.library CBackend compilerC目标硬件架构：GPGPU、DSA、RISC-V AI、ARM 等多厂商芯片

6、支持：11家全球厂商、18款芯片各种AI大模型各种 DL 框架各种AI芯片各种AI计算集群统一系统软件栈：全栈支持数据中心（训练+推理）边缘端（推理）机器人（云边协同）FlagGems:通用 AI 算子库FlagScale:训练-推理并行框架FlagTree:多架构编译器FlagCX:统一通信库核心模块FlagRelease自动迁移和发布工具FlagPerfAI系统基准工具工具FlagOS 核心价值FlagGems:基于Triton的高性能算子库 76%的 FlagGems 运算符速度快于或等于 CUDA 24%的 FlagGems 运营商比 CUDA 慢图1.FlagGems 算子和 CUD

trake1-开源构建AI系统软件堆栈-智源-朱其罡.pdf

相关报告