1、版权声明本白皮书版权属于主编和联合编写发布单位,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点应注明来源。标准引用格式为“IaaS on DPU(IoD):下一代高性能算力底座技术白皮书,2024 年7 月,中科驭数等”。违反上述声明者,版权方将追究其相关法律责任。前言DPU 是当下算力基础设施的核心创新之一。如果把 CPU 比做大脑,那么 GPU 就好比是肌肉,而 DPU 就是神经中枢。CPU 承载了应用生态,提供了通用型算力;GPU 提供了高密度各类精度的算力,特别是在智算领域,对系统算力大小有决定性作用;DPU负责数据在各种 CPU 之间、CPU 与 GPU、以及 GPU
2、 与 GPU 之间高效流通,很大程度上决定了系统是否能协同工作。DPU 作为数据中心的第三颗“主力芯片”,主要通过其专用处理器优化数据中心的网络、存储、安全等处理性能,助力服务器运行效率显著提升,有效降低成本。因此,在新型数据中心建设时,围绕 DPU 构建数据中心网络的基础设施,在其上挂载了各种计算、存储资源的节点,对于系统的资源弹性、运行效率、性能都大有益处。但是这种使用方式的变化,需要对现有云计算架构进行一定程度的变革,才能充分发挥出 DPU的优势。云计算中的头部企业 AWS 与阿里云在 DPU 的应用方面也有成功案例,借助其软硬件全栈自研的优势,快速完成了云计算系统的改造工作,实现了 D
3、PU 大规模落地部署,在降低自身运营成本的同时为客户提供更好的使用体验,并产生了可观的经济效益。这种正向循环促进了相关技术栈的快速迭代与成熟,也帮助他们发展成为云计算业务领域的领军企业。随着众多芯片厂商投身到 DPU 技术领域后,业界对 DPU 的产品形态定义逐渐清晰,DPU 的技术标准也在不断完善。从此 DPU 不再是行业巨头的“专享”技术,基础设施与云计算相关产业参与者都在寻求一种简单高效的方法,将 DPU 的优势运用到自身业务系统之中,例如 Red Hat、VMware、Palo Alto 等公司纷纷推出相关解决方案。这些方案背后共同的本质思想是:将云计算的 IaaS 层组件从服务器侧卸
4、载后围绕 DPU 构筑高性能算力底座,与 AWS、阿里云的技术路线不谋而合。我们将这种思想所代表的技术路线统一归纳命名为“IaaS on DPU(IoD)”技术路线,简称 IoD。本文重点阐述了 IoD 技术的构成以及与当前主流云计算体系的融合方案,从计算、网络、存储、安全、管控等几个方面进行深度分析,论证了基于 DPU 构建云计算基础设施服务(IaaS)的性能优势与建设路径。随着 DPU 技术的成熟,不论从功能完备性、系统稳定性还是性价比角度,DPU 均已经具备在大规模生产环境落地应用的条件。某种程度上,IoD 技术已成为下一代高性能算力底座的核心技术与最佳实践。目录前言ii第 1 章 云计
5、算发展趋势11.1云计算系统已经成为数字世界的“操作系统”.11.1.1云计算的发展历程.11.1.2云计算技术特点.21.2AI 产业催生高性能云计算需求.31.2.1AI 技术发展概述.31.2.2云计算性能对 AI 计算影响重大.41.2.3主流 AI 训练的云计算支撑架构.51.3IaaS on DPU(IoD)算力底座技术路线.61.3.1IoD 发展历程.61.3.2IoD 技术路线解析.71.3.3高性能云计算的规格定义.101.4IoD 高性能云计算应用范式.131.4.1“兼容并包”的公有云.131.4.2“安全强大”的私有云.141.4.3“小巧精美”的边缘云.151.4.
6、4“异军突起”的智算云.151.4.5“电光火石”的低时延云.16第 2 章 云计算业务模型分析182.1当前主流云计算体系结构.182.1.1硬件部分.182.1.2基础软件.192.1.3云管平台.192.1.4业务服务.202.2计算业务分析.202.2.1裸金属服务器.21目录2.2.2虚拟机.212.2.3容器.222.2.4GPU 服务器.222.2.5应用场景与选择策略.232.3网络业务分析.242.4存储业务分析.252.5安全业务分析.262.6平台服务业务分析.272.6.1数据库.272.6.2中间件.272.6.3服务治理.28第 3 章 高性能云计算基础设施建设路径