1、使用GPU切片和虚拟化技术优化AI工作负载,蔚来云端工程部训练加速负责人,2025/10/29,李鹏,密瓜智能研发工程师,2025/10/29,李孟轩,李孟轩密瓜智能研发工程师HAMi MaintainerVolcano Approver,李鹏蔚来云端工程部训练加速负责人,CONTENT,目录,01,第一章:GPU算力集群现状,02,第二章:异构集群的设备复用方案,03,第三章:蔚来技术团队的实践,第一章:GPU算力集群现状,异构算力集群是未来推理集群的趋势,异构算力的发展迅猛,目前未见收敛迹象集群管理是收敛的,集群中异构算力管理会是一个长期的课题,第一章:GPU算力集群现状,异构算力集群的痛
2、点:利用率不足,异构算力的规格越出越大但是小模型依然有很大的场景利用率成为普遍痛点,第一章:GPU算力集群现状,异构算力集群的痛点:难以统一管理,每个卡都有自己的拓扑亲和性每个设备厂商都有配套的优化调度组件互相之间的调度优化组件很可能无法兼容每个设备需要一个独立的集群来维护,升腾910系列互联拓扑,沐曦互联拓扑,第二章:异构集群的设备复用方案,device-plugin 的多资源名上报,核组1,核组2,AWS神经网络芯片:1个设备包含 2 个核组,申请一个核组,1,申请一个设备,1,设备插件,通过设备插件上报不同的资源名进行虚拟化管理不同厂商的实现方式不同只支持单卡虚拟化,第二章:异构集群的设
3、备复用方案,DRA:Dynamic Resource Allocation,待补充,灵活的设备过滤:使用通用表达式语言(CEL)对特定设备属性进行细粒度过滤。设备共享:多个容器或 Pod 可通过引用对应的资源声明共享同一资源。集中式设备分类:设备驱动程序和集群管理员可以使用设备类(device class)为应用操作者提供针对不同用例优化的硬件类别细化Pod请求:使用 DRA 时,应用操作者无需在 Pod 资源请求中指定设备数量。相反,Pod 引用资源声明,该声明中的设备配置会应用到 Pod。,第二章:异构集群的管理方案,DRA:Dynamic Resource Allocation,DRA
4、Driver,1g.5gb,2g.10gb,3g.20gb,7g.40gb,DeviceClass,3g.20gb,Pod,ResourceClaim:core2&memory15g,基于筛选式的设备复用:DRA Driver可以上报若干个DeviceClass,可供ResourceClaim或ResourceClaimTemplate选择,但是其可选择的范围不能超过DeviceClass所提供的内容,所以自由度欠缺,第二章:异构集群的设备复用方案,HAMi:Heterogeneous AI computing middleware,第二章:异构集群的设备复用方案,HAMi的使用方式,容器中可
5、见的GPU数量 每个GPU可使用的显存大小,若不填则为使用整卡 每张卡使用的算力百分比,第二章:异构集群的设备复用方案,Volcano vGPU,第二章:异构集群的管理方案,HAMi vgpu用户,第二章:异构集群的管理方案,HAMi 2.72.8新特性,v2.7新特性(已经支持):主要特性:显存/算力资源配额NVIDIA 拓扑感知新增设备复用支持:AWS神经网络芯片昆仑芯,v2.8新特性(正在进行,预计12月或1月发布):主要特性:提升大规模集群稳定性WebUI增加异构设备新增设备复用支持:阿里PPUAMD Mi300 xCloudMatrix,第三章:蔚来技术团队的实践,蔚来云端集群vGPU方案,第三章:蔚来技术团队的实践,vgpu性能评测,Vgpu性能评测:借鉴hami的思路但方向转向对ai任务的性能优化提供辅助优点:无侵入,不需要import 包,无需改代码可实时分析,感谢大家参加我们的session,Github https:/http:/project-hami.io/HAMi用户微信群可以通过添加右图小助手加入,进群小助手,feedback,