《赵晗-数据闭环的差异化重构:从百 PB 自动驾驶经验到具身智能 AI 原生基建实践.pdf》由会员分享,可在线阅读,更多相关《赵晗-数据闭环的差异化重构:从百 PB 自动驾驶经验到具身智能 AI 原生基建实践.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、数据闭环的差异化重构赵晗 数据闭环平台和 Infra 基建负责人自动驾驶经验到具身智能 AI 原生基建实践地瓜产品概览目录0102030405数据闭环:从自动驾驶到具身智能的差异化挑战数据底座:海量小文件与多模态存储的内核级突破算力编排:异构调度与分布式训练的精细化治理仿真验证:物理引擎选型与大规模并行仿真实践推理落地:从云端智能网关到端侧快慢双脑06反思总结:Infra架构师的“产品化”转型数据闭环:从自动驾驶到具身智能的差异化挑战维度自动驾驶(Auto Driving)具身智能(Embodied AI)面临挑战环境假设相对结构化(道路、车道线、交规约束)极度非结构化(家庭、工厂、开放物理世
2、界)泛化能力要求呈指数级上升,长尾场景(Corner Cases)从特例变成常态。动作空间2.5D 低自由度(转向、加速、制动)3D 高自由度(全身控制、精细抓取、多目标操作)模型输出端从低维指令,变为高频、多关节的连续控制信号。核心任务“看”与“避”(感知、预测、规划为主)“触”与“做”(强物理接触、改变环境状态)数据闭环不再仅仅是视觉数据,而是视觉-力觉-触觉-本体感觉的多模态耦合。数据形态海量被动观察数据(易获取的视频)极度稀缺的主动交互数据(需精确记录动作与物理反馈)过去“大力出奇迹”的堆算力+堆被动数据模式失效。本质差异对比基建层面临的四大全新挑战挑战一:数据获取与飞轮的断代(Dat
3、a Engine)痛点:自动驾驶通过采集软件可以高效收集海量数据;具身智能缺乏标准化的数据采集方案(遥操作成本极高)。基建需求:需要构建全新的多模态交互数据管道,解决跨传感器(视觉/力觉/触觉)在亚毫秒级的时间同步与空间对齐问题。挑战二:端到端模型(VLA)对算力与延时的极致压榨痛点:自动驾驶后备箱可以塞入大功率计算单元;人形机器人受限于体积、散热和电池,边缘侧算力极其受限。基建需求:面对动辄百亿参数的视觉-语言-动作(VLA)大模型,基建需要实现云-边-端极致协同。如何在算力受限的机器人本体上,实现毫秒级的感知-决策-执行闭环挑战三:仿真系统从“运动学”向“动力学”的跨越(Simulatio
4、n)痛点:自动驾驶仿真侧重交通流和传感器渲染(视觉仿真);具身智能仿真要求极其苛刻的物理接触与柔性体渲染(如摩擦力、形变、接触应力)。基建需求:需要支持高频控制、高保真物理引擎的云端大规模并发仿真平台,以解决 Sim2Real(仿真到现实)断崖式下跌的成功率。挑战四:硬件生态的极度碎片化痛点:自动驾驶硬件相对收敛;具身智能涉及无数种电机、传感器、灵巧手形态。基建需求:急需一套类似自动驾驶中 ROS 升级版的底层硬件抽象层(HAL),让模型训练与具体的物理执行器解耦,实现“一脑多机”的泛化。具身智能数据闭环全链路Infra视角 数据采集/对齐一切的源头质量决定上限 数据上传/管理构建数据流水线
5、数据处理/挖掘从原始数据到训练样本 分布式训练/推理模型生产线 仿真验证/生成低成本试错的沙盒 模型量化/部署将智能赋予实体 数据回流/评估闭环的驱动力 端侧计算与存储 全模态时间同步和对齐 传感器数据流管理 数据传输协议与策略 数据验证与ETL 数据湖与元数据管理 分布式数据处理框架 向量化检索与数据挖掘 人机协同标注平台 数据加载与缓存 高效的分布式训练策略 统一的推理服务平台 大规模仿真调度 Sim2Real资产管理 程序化内容生成(PCG)模型编译与优化 OTA 更新与版本管理 端侧运行时与监控 数据“触发器”与自动挖掘 数据质量评估过滤 闭环自动化调度Infra 底座大规模混合存储异
6、构计算资源调度端到云的网络连接全面的可观测性采集 存储 预处理 训练 仿真验证 部署 数据回流 闭环迭代 数据底座:海量小文件与多模态存储的内核级突破数据维度金字塔:具身智能的数据稀缺性本质从互联网公开数据到真机交互数据获取难度指数级攀升,数据飞轮是破局关键遥操作数据位姿类/视觉类/光惯类遥操作同构类/穿戴类/手持类遥操作动作捕捉数据高精度光惯动捕/中低精度人体动捕Ego/UMI/Dexcap人类视频数据人类动作视频模仿合成数据 轨迹合成/资产合成/预测生成/世界模型数据重定向&对齐 GMR:在线重定向 OmniRetarget:离线重定向为机器人扩展人为机器人扩展人类数据类数据数据价值数据量