1、全链路提升自动驾驶/具身智能模型训练与推理效率阿里云-计算平台-PAI程孟力PAI-TurboX:面向自动驾驶的训练推理加速框架技术背景核心技术亮点实测性能速度提升在PAI平台中使用PAI-TurboX未来规划0102030405技术背景介绍自动驾驶/具身智能领域面临的挑战及PAI-TurboX的解决方案剖析行业难题及PAI-TurboX应对之策行业挑战与解决方案行业核心挑战数据量大,1000w clips预处理复杂模型复杂:多模态+多任务千卡训练:稳定性、快慢卡PAI TurboX 解决方案PAI-TurboX为自动驾驶/具身智能场景提供复杂数据预处理、离线大规模模型训练和实时智能驾驶推理的
2、全方位加速解决方案挑战模型复杂:多模态融合,多任务训练训练数据量大,预处理复杂1000w clips超大规模:千卡训练核心技术亮点从系统、数据、模型三方面阐述 PAI TurboX 的优化措施Support ModelGame FormerSparse DriveOpen VLABEV FusionMap QRSystemDataModelCPU affinity/Python GC/Huge PageCompile(triton/cutlass/numba)Pipeline ParallelOSOptimizationFast Pre-ProcessingEfficient Data Loa
3、derDynamic BatchingOperator OptimizationPlacementQuantizationTraining Strategy介绍系统侧的各项优化技术系统侧优化 CPU Affinity亲和性优化,减少上下文切换和跨socket数据传输;优化Python垃圾回收机制,降低GC频率;优先HugePage分配,大页异步清零,提升内存分配和释放效率;共享内存cache,减少mumap/mmap的开销01丨系统级性能调优 模型动态编译技术,自动cluster可以编译的区域 优化symbolic shape推导,降低shape推导失败的概率 扩展dynamo,减少graph
4、 break,扩大可编译区域 多进程共享编译,提升编译速度02丨模型动态编译 基于Ray的CPU和GPU subtask异步调度执行 H2D数据拷贝,模型训练,日志保存异步执行;多任务/head/loss multistream并行执行.03丨动态调度执行 自研内核:系统CPU资源消耗低,内存分配效率高;memory boost:内核调优工具,针对不同任务设置不同策略;动态cpu频率:提升训练进程的cpu频率,跟上gpu/ppu的节奏04丨操作系统(OS)优化说明数据侧提升数据处理效率的方法数据侧优化高性能 DataLoader 引擎RepeatDataLoad:通过循环加载数据,消除进程启动
5、开销,减少Epoch之间的等待;CudaDataLoad:利用锁页内存和multistream,加快数据从CPU到GPU的传输效率;Tensor传输优化:对tensor分组合并和量化,减少大量小tensor拷贝和重建的开销;1深度重构预处理流程预处理缓存,减少跨epoch重复计算(image_resize);remote dataloader:offload到远程ecs cpu进行处理,解决cpu/内存瓶颈;gpu offload:将适合gpu计算的预处理offload到gpu上处理numba jit:使用numba jit优化循环和numpy计算2智能训练样本分组根据图像的大小和点云数据的大
6、小动态分组,保证训练进程的步调一致3RemoteDataloader 解决方案背景随着单机GPU算力增强,GPU处理数据速度比CPU加载和预处理数据更快,为充分利用GPU算力资源,提出 Remote Dataloader 解决方案。解决方案Remote Dataloader 解决方案将数据加载和预处理与GPU处理机器分离,通过其它节点预先加载和预处理数据。Workload Relocation高性能Module优化讲述模型侧提升训练与推理速度的手段模型侧优化 heatmap/voxelization occupancy nms kernel/scatter points deformable