郝祁-具身智能时代的数据集管理与生成.pdf-三个皮匠报告

1、具身智能时代的数据集管理与生成郝祁|南方科技大学郝祁IEEE 高级会员南方科技大学计算机系教授、斯发基斯研究院执行院长、深圳市机器人视觉与导航重点实验室副主任，一直从事智能感知、无人驾驶、智能机器人方面的研究，研究项目获得了国自然、英特尔、华为等基金与企业的资助。目前已经在相关领域发表期刊与会议文章130+。多次担任国自然、科技部、美国科学基金、美国能源部先进项目评委。目录CONTENTSI.具身智能技术发展II.数据集面临的挑战III.评估与优化IV.标注与可视化V.检索与生成VI.总结与展望具身智能技术发展PART 01人工智能技术起源模仿生物与人类，实现有卓越能力的机械装置机器类脑人工

2、智能发展Frontal LobeParietal Lobe Cerebellum环境感知Occipital Lobe视觉功能Temporal LobeBrain Stem内部感知语言与记忆协同与平衡注意力机制推理规划大语言模型(VLM)、视觉语言模型(VLM)、视觉语言导航模型(VLN)视觉语言行动模型(VLA)、世界行动模型(WA)世界行动模型CONFIGURATOR针对任务配置各个模块PERCEPTION估计世界状态WORLD MODEL预测世界未来状态COST“不舒适”程度成本ACTOR寻找最优行动序列CRITIC估算行动成本SHORT TERM MEMORY存储状态-成本事件记录视觉语

3、言行动模型视觉语言行动模型(VLA):输入包括图像与文字输出包括面向机器人的行动命令;基于大语言模型（VLM）具身智能技术发展具身人工智能经典人工智能感知环境感测的能力行动交互与改变环境的能力记忆保留过往经验的能力学习形成新知识与新能力的能力在物理世界中运行并交互与环境感知-运动的闭环耦合持续学习与进化可以通过直接设置目标来控制在静止的数据集上训练与物理世界完全隔绝/脱节并非为理解因果关系而设计仅能识别浅显的上下文和关联性无法适应新的物理世界，需要重新训练具身智能技术发展传统具身智能系统传感器信号感知预测规划控制信号软件系统硬件系统(离线)仿真ConvNets感知技术Transf

4、ormers 感知与规划End-to-End感知与规划一体化VLMs提升对普遍世界知识的积累与应用无人驾驶领域知识的基础模型与普遍世界知识VLM相结合基于大模型的具身智能系统传感器信号控制信号软件系统硬件系统(离线)仿真多模态VLM/VLA具身智能技术主要应用具身智能建立仿真环境(real-to-sim)真实场景视频采集3D场景重建（3DGS）运动部分拆解：桌面基座/机械臂运动控制/多视角相机渲染具身智能仿真训练(sim-to-real)利用仿真环境对具身智能模型进行针对任务的微调和训练Jia,CVPR 2022具身智能仿真训练(sim-to-real)Intel Photo-realisti

5、c Simulator for Embodied AI 具身智能训练(data-to-real)L2:Hands-offL3:Eyes-offL4:Mind-offL5:Full AutonomyL4:Public Autonomous Valet Parking公共停车场无人代客泊车用户需求：快速与安全自主泊车Last half a km最后500米无人驾驶主要功能2D-3D融合目标识别Recognition运动决策与轨迹规划Decision&Planning3D地图建图Mapping3D地图匹配定位Localization3D物体检测与运动预测Detection&Prediction多传感

6、器标定与校准Calibration无人驾驶数据集训练与验证1传感阵列Sensor Array主动/被动视觉/听觉毫米波/激光雷达器件选型阵列位置连接安装同步测量校准标定2数据采集Data Collection复杂度/多样性异常事件反常事件复杂场景极端天气信息增益数据采样智能/随机采样3数据存储Data Storage数据压缩数据冗余数据分布数据安全数据隐私标注/格式云/雾服务边缘计算逻辑推理定量计算机器学习数据挖掘4模型更新Model Learning参数优化特征/模型融合主动学习半/弱监督学习非监督学习增强学习高精建图动态地图逻辑推理定量计算机器学习数据挖掘5模型应用Applications

郝祁-具身智能时代的数据集管理与生成.pdf

相关报告