智能驾驶云端全链路优化实践-茅俊杰.pdf-在线下载-三个皮匠报告

1、智能驾驶云端全链路优化实践阿里云智能集团资深技术专家茅俊杰智驾业务背景数据全链路挖掘训练生产采集数采车、测试车、量产车定制采集，离线/实时点云、GPS里程、视频等FFmpegX265图像抽帧雷达信息预训练多模型标注向量化去重分析挖掘Spark/Ray大规模分布式训练视觉模型、CV模型、智驾模型端到端模型、世界大模型等场景库构建；原ISSUE数据生产；corner case大规模并发仿真；LogSim等CI、CD版本管理、项目管理OTA升级端侧智驾推理车+云结合决策数据采集预处理数据标注数据挖掘模型训练仿真验证集成部署车端集成数据闭环面临通用技术挑战1.数据的质量和准确性是实现有效数据闭环的基

2、础2.数据量的庞大以及实时性要求对计算和存储提出了巨大的挑战3.数据标注和模型训练过程的挑战需要不断优化和完善训练模型4.数据闭环的跨系统协同数据闭环核心流程1.数据闭环通过采集、挖掘、管理、生产，实现数据-算法-性能的正向循环2.当前行业年数据量超EB级，而头部企业已通过数据闭环实现30%-50%的成本降低与性能提升。3.特斯拉FSD：依托影子模式实时采集数据，全球车队累计行驶里程超100亿英里数据闭环是推动智能驾驶技术不断进步和优化的核心驱动力覆盖数据挖掘、模型训练、云端推理的OS、中间件、训推框架全栈优化面向智能驾驶场景的基础软件优化技术内存占用优化算子加速向量化API扩展OS+Drag

3、onwellOS 资源调控模型编译分布式推理调度策略优化内存管理优化与碎片化治理区域编译计算、通信调度P/D分离提升吞吐高可用sgl-router 热备份面向数据挖掘与向量数据库的OS+Dragonwell优化10%10%20%内存占用优化OS+JVM协同，避免同时申请大量内存造成性能颠簸算子加速优化BigDecimal的核心算法关键函数Native替换向量化API扩展贡献向量化的compress/expand等API实现OS 资源调控改善CPU瓶颈针对智能驾驶模型训练场景，系统化地优化配置CPU频率、进程CPU亲和性及调度策略，确保训练任务在资源充分、无干扰的环境下高效稳定运行，典型开源模型

4、的训练吞吐6%。CPU资源调控面向训练场景针对快速访问路径进行加速，持续优化、扩展内核自适应大页能力，同时优化关键路径上内存管理锁的可扩展性，加速 AI 训练和推理的 CPU 侧性能，避免CPU 侧成为 GPU 的瓶颈，提升典型开源模型的训练吞吐12%。内存管理优化针对模型训练这一大内存压力场景，采用页缓存治理、TAO（THP Allocator Optimizations）、专用空间、冷内存回收等技术，解决由于内存管理导致的业务稳定性和性能抖动问题。内存碎片化治理编译优化提高GPU利用率基于领域经验，系统性选择模型内的子模块进行编译，规避复杂模型结构导致编译用时长、效果差的问题，训练吞吐提升

5、15%。基于DeepCompile动态调度计算和通信算子，最大化计算与通信操作的并行性，提升OpenVLA训练吞吐10%。计算通信计算通信优化前期望截止时间编码PrefillDecode编码PrefillDecode编码PrefillDecodeGPU 1GPU 2GPU N期望截止时间编码PrefillDecode编码PrefillDecode编码PrefillDecode编码PrefillDecode编码PrefillDecode编码PrefillDecode优化后期望截止时间编码Prefill编码PrefillDecodeGPU 1GPU 2GPU N期望截止时间编码Prefill编码P

6、refill编码Prefill编码PrefillDecodeDecodeP/D分离提高低延迟推理整体吞吐采用P/D分离技术，在保障端到端时延的前提下，增加解码阶段并行度，提升系统整体吞吐。基于Mooncake Transfer Engine在GPU间高效传输KV缓存。InternVL-2.5 吞吐提升70%，P99时延增加15ms。Sgl-router热备份解决分布式推理路由单点故障采用无冲突复制数据类型（CRDT）表示路由状态，并在热备份之间同步。各热备份地位对等，且不依赖