当前位置:首页 > 报告详情

机械行业人形机器人系列深度报告(四):具身大模型人形机器人智慧内核数据飞轮驱动迭代跃升-260415(39页).pdf

上传人: YY 编号:1191695 2026-04-16 39页 4.48MB

下载:

1、人形机器人系列深度报告(四)具身大模型:人形机器人智慧内核,数据飞轮驱动迭代跃升投资要点KEYPOINTS具身大模型是人形机器人的“大脑”,主导“感知-认知-控制”交互闭环。传统大模型专注于单一或少数模态的任务处理,缺乏与物理世界直接交互的能力。具身大模型作为人形机器人的“大脑”,从“感知-认知-控制”层面赋能机器人,强调与物理世界的交互,需具备多模态感知、自主决策、实时交互执行、通用与泛化等能力。人形机器人目前尚未实现大规模应用,主要原因或非硬件能力不足,而是大模型存在瓶颈。从产业进程来看,当前机器人肢体层技术已较为成熟,而大模型的发展远落后于硬件。当前阶段的具身大模型已具备认知、推理与规划

2、能力,不足之处在于难以可靠处理复杂物理世界的不确定性,同时泛化能力明显较弱。具身大模型主流框架为分层式与端到端式,路径尚未收敛。传统决策采用分层架构,包括感知与互动、高层规划、低层执行以及反馈与增强,通过大小脑分层,人形机器人更容易落地,但分层范式存在错误累积的问题,且在跨多样任务泛化时表现不佳。端到端框架基于感知环境和机器人状态直接输出具体的机器人执行命令,将感知、语言理解、规划、动作执行和反馈优化集成到一个统一的框架中,具备高集成度与较强泛化能力,VLA模型是端到端决策的核心。国内具身大模型:架构持续创新,能力对标海外,典型模型包括智元机器人G0-1、星动纪元ERA-42、银河通用Gras

3、pVLA、灵初智能PsiR1及字节SeedGR-3。G0-1开创性提出ViLLA架构,采用mathrm*mathsfVLM+mathsfMoE(混合专家)”;ERA-42模型是国内首个真正意义上的端到端原生机器人大模型;GraspVLA模型将VLM与动作专家集成,是全球首个合成大数据驱动的基础抓取大模型;PsiR1模型采用快慢脑架构;GR-3采用40亿参数的混合变换器架构,泛化抓取-放置能力超越pi_00数据是驱动具身大模型送代升级的关键,目前主流数据训练方案为真机、仿真与视频数据相结合。伴随具身智能转向端到端大模型,数据需求从低量单一模态数据逐步升级为海量、多模态、高精度和跨任务长程数据,其中真机数据价值最高,获取难度最大,是具身智能落地的可靠数据源。目前真实数据采集方式主要分为VR遥操作采集、机械臂主从控制采集、数据手套遥操作等。目前主流厂家数据采集及训练方案多样,特斯拉数采方案或转向视频学习,而银河通用以物理仿真数据为主、真实数据为辅。投资建议:1)机器人通过传感器获取外界和自身状态,为具身大模型决策提供数据支持,建议关注人形机器人传感器相关公司,如安培龙、汉威科技、福莱新材、奥比中光;2)动捕采集方案是高质量运动数据的关键来源,建议关注掌握动捕解决方案的相关公司,如凌云光。风险提示:人形机器人量产进度不及预期;大模型技术进展不及预期;训练数据规模与质量不及预期。

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **具身大模型是人形机器人核心瓶颈**:主导“感知-认知-控制”闭环,当前泛化能力弱、长时程推理不足,硬件已成熟但算法滞后(肢体层成熟期,大脑层导入期)。 2. **架构路径未收敛**:分层式(如Figure Helix双系统)易落地但错误累积;端到端式(如特斯拉FSD、谷歌RT-2)泛化强但依赖海量数据。 3. **数据驱动迭代**:真机数据价值最高(如特斯拉视频学习、银河通用合成数据为主),采集成本高,需VR遥操作、动捕等技术。 4. **国内进展**:星动ERA-42(首个端到端原生模型)、智元G0-1(ViLLA架构)、字节GR-3(40亿参数,抓取成功率提升250%)。 5. **投资建议**:关注传感器(安培龙、奥比中光)及动捕方案(凌云光)。
大脑瓶颈何在? 数据如何飞轮? 谁能领跑国内?
客服
商务合作
小程序
服务号
折叠