1、异构算力跨架构技术与开源生态,中国移动研究院,2025/11/15,赵奇慧,系统的核心竞争力在于软件生态,智算系统呈现异构化发展趋势,多元异构算力协同面临智算竖井生态挑战,业界跨架构技术路线分析,算子与功能接口的标准化,形成单一领域算法接口,但需依赖厂商工具链进行多次开发,有明显领域局限性,通用性较差,路线一:统一框架或领域算法接口,NVDIA,Intel,AMD,Huawei,主流Pytorch,Paddle为代表的深度学习框架,仅仅是工程应用所依赖众多框架中的一个分支,图像处理框架|大数据框架|医学数据分析框架|通信框架.,框架层:与行业及领域强相关,接口各异、规模 数万,基础软件层:各自
2、建立系统抽象形成开发语言、编译、链接一体的 十余个基础软件,硬件层:各有特色及性能侧重不同厂商、不同代际,架构种类 数十 个,路线2:Linux基金会UXL项目、Intel oneAPI、HSA等,异构系统模型及机制统一,形成统一编程和系统接口,应用仅需一次开发,即可实现与各厂商运行时适配对接,通用性较高,路线二:统一基础软件,硬件指令集标准统一,形成各厂商工具链共同遵循的统一虚拟指令集,但需要厂商深度更改硬件架构,通用性强但实现难度较大,路线三:统一指令集,路线3:中科院vISA、openGPU等,路线1:微软-ONNX、阿里-ODLA、上智-DeepLink等,强,弱,通用性、部署灵活性、
3、可持续性,工程实现性、产业推动难,难,易,屏蔽多类异构计算系统差异、涉及多类软硬件“交叉”技术领域,是典型的复杂系统工程。当前产学研各界开展了广泛的研究,在框架、基础软件、硬件等不同层级进行了多路径的探索,路线二在业务通用性和实现可行性上具备优势,算力原生新型技术机制屏蔽异构差异,算力原生核心理念是在框架与底层硬件之间构建相对通用的统一的算力抽象机制与接口,向上为用户提供统一编程入口,向下使能底层硬件一体适配,通过四大关键技术,实现应用一次开发、跨芯迁移部署,任务式自适应执行的目标,算力原生关键技术:算力抽象技术,算力原生关键技术:自适应动态运行时,算力原生关键技术:统一编程模型技术,算力原生关键技术:跨架构编译优化技术,算力原生跨架构平台“芯合”,“芯合”跨架构基础软件系统,主要包括“统一编程套件、源源转换工具、跨架构编译器、自适应运行时、高性能计算库、跨架构推理引擎”六大通用基础功能组件,融入用户业务,支撑实现“智算应用一次封装、跨芯部署随需迁移”的任务目标,算力原生跨架构平台“芯合”,“芯合”开源进展及计划,谢谢聆听,