PAI+-+TurboX:面向自动驾驶的训练推理加速框架-程孟力.pdf

编号:1152826 PDF 26页 4.26MB 下载积分:VIP专享
下载报告请您先登录!

1、全链路提升自动驾驶/具身智能模型训练与推理效率阿里云-计算平台-PAI程孟力PAI-TurboX:面向自动驾驶的训练推理加速框架技术背景核心技术亮点实测性能速度提升在PAI平台中使用PAI-TurboX未来规划0102030405技术背景介绍自动驾驶/具身智能领域面临的挑战及PAI-TurboX的解决方案剖析行业难题及PAI-TurboX应对之策行业挑战与解决方案行业核心挑战数据量大,1000w clips预处理复杂模型复杂:多模态+多任务千卡训练:稳定性、快慢卡PAI TurboX 解决方案PAI-TurboX为自动驾驶/具身智能场景提供复杂数据预处理、离线大规模模型训练和实时智能驾驶推理的

2、全方位加速解决方案挑战模型复杂:多模态融合,多任务训练训练数据量大,预处理复杂1000w clips超大规模:千卡训练核心技术亮点从系统、数据、模型三方面阐述 PAI TurboX 的优化措施Support ModelGame FormerSparse DriveOpen VLABEV FusionMap QRSystemDataModelCPU affinity/Python GC/Huge PageCompile(triton/cutlass/numba)Pipeline ParallelOSOptimizationFast Pre-ProcessingEfficient Data Loa

3、derDynamic BatchingOperator OptimizationPlacementQuantizationTraining Strategy介绍系统侧的各项优化技术系统侧优化 CPU Affinity亲和性优化,减少上下文切换和跨socket数据传输;优化Python垃圾回收机制,降低GC频率;优先HugePage分配,大页异步清零,提升内存分配和释放效率;共享内存cache,减少mumap/mmap的开销01丨系统级性能调优 模型动态编译技术,自动cluster可以编译的区域 优化symbolic shape推导,降低shape推导失败的概率 扩展dynamo,减少graph

4、 break,扩大可编译区域 多进程共享编译,提升编译速度02丨模型动态编译 基于Ray的CPU和GPU subtask异步调度执行 H2D数据拷贝,模型训练,日志保存异步执行;多任务/head/loss multistream并行执行.03丨动态调度执行 自研内核:系统CPU资源消耗低,内存分配效率高;memory boost:内核调优工具,针对不同任务设置不同策略;动态cpu频率:提升训练进程的cpu频率,跟上gpu/ppu的节奏04丨操作系统(OS)优化说明数据侧提升数据处理效率的方法数据侧优化高性能 DataLoader 引擎RepeatDataLoad:通过循环加载数据,消除进程启动

5、开销,减少Epoch之间的等待;CudaDataLoad:利用锁页内存和multistream,加快数据从CPU到GPU的传输效率;Tensor传输优化:对tensor分组合并和量化,减少大量小tensor拷贝和重建的开销;1深度重构预处理流程预处理缓存,减少跨epoch重复计算(image_resize);remote dataloader:offload到远程ecs cpu进行处理,解决cpu/内存瓶颈;gpu offload:将适合gpu计算的预处理offload到gpu上处理numba jit:使用numba jit优化循环和numpy计算2智能训练样本分组根据图像的大小和点云数据的大

6、小动态分组,保证训练进程的步调一致3RemoteDataloader 解决方案背景随着单机GPU算力增强,GPU处理数据速度比CPU加载和预处理数据更快,为充分利用GPU算力资源,提出 Remote Dataloader 解决方案。解决方案Remote Dataloader 解决方案将数据加载和预处理与GPU处理机器分离,通过其它节点预先加载和预处理数据。Workload Relocation高性能Module优化讲述模型侧提升训练与推理速度的手段模型侧优化 heatmap/voxelization occupancy nms kernel/scatter points deformable

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(PAI+-+TurboX:面向自动驾驶的训练推理加速框架-程孟力.pdf)为本站 (表表) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠