机械行业人形机器人系列深度报告（四）：具身大模型人形机器人智慧内核数据飞轮驱动迭代跃升-260415-三个皮匠报告

1、人形机器人系列深度报告（四）具身大模型：人形机器人智慧内核，数据飞轮驱动迭代跃升投资要点KEYPOINTS具身大模型是人形机器人的“大脑”，主导“感知-认知-控制”交互闭环。传统大模型专注于单一或少数模态的任务处理，缺乏与物理世界直接交互的能力。具身大模型作为人形机器人的“大脑”，从“感知-认知-控制”层面赋能机器人，强调与物理世界的交互，需具备多模态感知、自主决策、实时交互执行、通用与泛化等能力。人形机器人目前尚未实现大规模应用，主要原因或非硬件能力不足，而是大模型存在瓶颈。从产业进程来看，当前机器人肢体层技术已较为成熟，而大模型的发展远落后于硬件。当前阶段的具身大模型已具备认知、推理与规划

2、能力，不足之处在于难以可靠处理复杂物理世界的不确定性，同时泛化能力明显较弱。具身大模型主流框架为分层式与端到端式，路径尚未收敛。传统决策采用分层架构，包括感知与互动、高层规划、低层执行以及反馈与增强，通过大小脑分层，人形机器人更容易落地，但分层范式存在错误累积的问题，且在跨多样任务泛化时表现不佳。端到端框架基于感知环境和机器人状态直接输出具体的机器人执行命令，将感知、语言理解、规划、动作执行和反馈优化集成到一个统一的框架中，具备高集成度与较强泛化能力，VLA模型是端到端决策的核心。国内具身大模型：架构持续创新，能力对标海外，典型模型包括智元机器人G0-1、星动纪元ERA-42、银河通用Gras

3、pVLA、灵初智能PsiR1及字节SeedGR-3。G0-1开创性提出ViLLA架构，采用mathrm*mathsfVLM+mathsfMoE（混合专家）”；ERA-42模型是国内首个真正意义上的端到端原生机器人大模型；GraspVLA模型将VLM与动作专家集成，是全球首个合成大数据驱动的基础抓取大模型；PsiR1模型采用快慢脑架构；GR-3采用40亿参数的混合变换器架构，泛化抓取-放置能力超越pi_00数据是驱动具身大模型送代升级的关键，目前主流数据训练方案为真机、仿真与视频数据相结合。伴随具身智能转向端到端大模型，数据需求从低量单一模态数据逐步升级为海量、多模态、高精度和跨任务长程数据，其中真机数据价值最高，获取难度最大，是具身智能落地的可靠数据源。目前真实数据采集方式主要分为VR遥操作采集、机械臂主从控制采集、数据手套遥操作等。目前主流厂家数据采集及训练方案多样，特斯拉数采方案或转向视频学习，而银河通用以物理仿真数据为主、真实数据为辅。投资建议：1）机器人通过传感器获取外界和自身状态，为具身大模型决策提供数据支持，建议关注人形机器人传感器相关公司，如安培龙、汉威科技、福莱新材、奥比中光；2）动捕采集方案是高质量运动数据的关键来源，建议关注掌握动捕解决方案的相关公司，如凌云光。风险提示：人形机器人量产进度不及预期；大模型技术进展不及预期；训练数据规模与质量不及预期。

机械行业人形机器人系列深度报告（四）：具身大模型人形机器人智慧内核数据飞轮驱动迭代跃升-260415（39页）.pdf

相关报告