《王豪杰_面向异构计算的统一智能计算架构及开源生态.pdf》由会员分享,可在线阅读,更多相关《王豪杰_面向异构计算的统一智能计算架构及开源生态.pdf(56页珍藏版)》请在三个皮匠报告上搜索。
1、面向异构计算的统一智能计算架构及开源生态启元实验室/清华大学 王豪杰目 录CONTENTS1.背景2.九源统一智能计算架构3.九源训练/推理框架4.九源智能计算生态与人才培养体系背景国产智能算力困境与破局机遇算力安全已成为发展重点构建一套面向国产芯片的智能计算平台及配套生态体系已成为破局的关键智能芯片在制造与采购等环节的限制,使大规模依赖国际芯片愈发困难。从基础性能方面,国产芯片已逐步逼近国际水平,高性价比的国产平台建设正在加速推进。然而,当前国内算力仍以国际芯片为主,大量已建成的国产算力因智能基础软件不完善、开发者生态滞后处于闲置状态。人才层面系统性地培养开发者和用户,通过课程建设、赛事举办
2、等多元举措,引导产业界和学术界力量融入国产生态,为平台的持续发展注入源头活水。01课程建设02赛事实践03激励机制04社区活动05就业指导技术层面研发能屏蔽底层芯片差异、支撑不同国产芯片高效运行的统一基础软件栈,从根本上打通底层适配难题。异构硬件计算平台模型应用各类国产芯片训练/推理框架基础/垂类模型各类智能体国产智能计算生态建设的主要挑战硬件高度异构硬件层软件复杂繁多软件层生态难以构建生态层不同于英伟达体系下硬件层高度统一,国产智能计算硬件种类繁多、架构各异,各厂商独立维护软件栈,导致生态难以构建。人工智能系统的架构分析芯片厂商提供硬件运行时 CudaRT硬件编程接口计算 cuDNN/cuB
3、las/通信 NCCL语言 CUDA C国际芯片硬件层领域编程语言Triton基础框架训练框架Megatron-LM推理框架通信原生实现,性能更高语言、计算、通信、运行时语言编译器各类大模型、小模型及智能应用开源为主生态活跃快速演进系统层模型层统一、稳定、高效的底层基础支撑,包括语言、计算、通信、存储、运行时等,是保障上层开源生态持续快速演进的基础。人工智能系统生态分析与破局思路71.需要具有对标英伟达底层基础软件的中间层语言和算子库,提供统一、稳定的硬件层接口,作为上层软件与生态的基础保障;2.领域编程语言迅速发展,各具特色,对于用户需求的 Helion、Triton、TileLang 等各
4、类领域编程语言,需要实现全面支持,任何领域编程语言的代码无需修改即可在任何国产卡上无缝运行;3.智能模型需要在各类国产加速卡上实现高性能运行,使用中间层语言和算子库之后,相比加速卡原生软件栈损失不超过3%;4.需要有良好的开源社区运营基础,实现生态的自演进。“九源”智能计算平台架构设计九源统一智能计算架构九源统一硬件运行时 InfiniRT九源统一算子库计算库InfiniOP通信库InfiniCCL各类智能芯片集成九源张量级领域编程语言面向异构系统一致性抽象编程接口抽象算力抽象各类模型与智能应用九源训推框架大模型推理InfiniLM大模型训练InfiniTrain小模型推理InfiniTens
5、or兼容开源框架Megatron-LM提供统一、稳定、高效的硬件级接口通过统一中间层IR,支持各类领域编程语言运行于各类国产芯片对标 CudaRT原生跨平台训练/推理框架广泛支持各类智能芯片九源智能计算平台Github 开源组织:https:/ ninetoothedTritonTVM九源统一中间层IR技术路线分析硬件厂商提供Triton编译器基础算子通信库基础编程语言及编译器路线1:基于Pytorch的推理/训练引擎依赖厂商提供的Pytorch版本,没有从根本上解决跨平台问题。路线2:基于Triton的算子库仅解决计算内核,不解决资源管理、算子调用等运行时层面的兼容性问题。对不支持 Trit
6、on 编译器的芯片无法兼容,对依赖该算子库的开源软件存在限制。重要算子与原生算子库存在性能差异。“单点式”路线“平台式”路线,“架构级”解决方案PyTorch、飞桨等编程框架、自研训练/推理框架等“架构级”支持:面向异构系统一致性抽象1、原生算子/通信库接入:对厂商深度优化的原生算子进行直接接入,最大限度保证性能2、统一中间层IR:实现不同的高层DSL对各类低层DSL的全兼容,减少底层编译器的冗余开发3、Triton扩展优化:提供更简洁编程接口,自动处理复杂并行和内存管理,提高开发效率4、统一运行时:统一不同硬件平台、不同算子库调用流程和资源管理流程,简化异构适配,支撑一套代码运行于不同平台。