人形机器人行业专题5：Sim to Real具身大模型的问题、现状与投资机会-251109-三个皮匠报告

1、人形机器人专题5：SimtoReal，具身大模型的问题、现状与投资机会(divcenter)最近一年走势(/divcenter)相关报告人形机器人专题4：变革前夜：旋转vs直线，关节模组还有哪些机会？硬件、工艺及设备（推荐）*机械设备*张钰莹2025-09-071、概念的解读：梳理了大模型的相关概念并进行释义和逻辑解读；2、具身的需求：对大模型来说，完成叠衣服任务的难度远超于赢得国际象棋，具身智能机器人的应用需要跨越虚拟来到现实；二、布局者的问题：本体厂/大厂/独角兽，具身智能模型进展如何？1、开发数采工具：部分厂商通过开发便捷易用、性价比较高的数采工具，解决目前具身大模型构建的数据缺乏、真机

2、采集数据成本高的问题2、拓展垂直场景：基于各公司对垂直行业的深度理解、丰富场景和海量数据，实现具身智能在垂直场景的率先落地相关标的：我们认为人形机器人目前处于技术突破、商业化落地初期，后续有望迎来量产空间，维持人形机器人行业“推荐”评级。建议关注：1）具身智能本体公司优必选、极智嘉等；2）具身智能落地相关场景：杭叉集团、安徽合力、劲旅环境、杰克科技等；3）数采设备供应商汉威科技、南山智尚等。风险提示：人形机器人行业进展不及预期风险；中美贸易摩擦超预期风险；大模型落地效果不及预期的风险；重点关注公司业绩不及预期风险；研究报告中使用的公开资料可能存在信息滞后或更新不及时的风险。模型的问题：大模型的

3、概念、需求及瓶颈1.1概念的解读我们认为，从基于海量文本生成的语言模型LLM-理解图像+文本的VLM多模型模型到应用于具身智能机器人的VLA模型，大模型呈现逐步进阶的特征，从文本language和图像vision的理解、逻辑推理到应用于物理世界的动作action，VLA模型使大模型迈入sim2real的阶段。由于VLM具有多模态特征，可以延伸为【多】种可选【模态】的组合创新，如智元的ViLLA模型，在VLA模型基础上引入了+MoE混合专家模型，MoE中的LatentPlanner（隐式规划器）借助大量跨本体和人类操作视频数据获得通用的动作理解能力，MoE中的ActionExpert（动作专家）

4、借助百万真机数据获得动作执行能力。端到端（End-to-End）：简单理解，就像动物的大脑，从“看到的图像”和“听到的指令”直接推理出“怎么走”，中间不需要人为拆分多个步骤。传统机器人通常以“指令理解环境感知目标识别longrightarrow路径规划”模块化的形式单独处理分解的子任务，有的甚至还要对工作环境提前构建地图；端到端能够实现看到图像-听到指令-直接推理，不需要人为拆分。1.2具身的需求Moravecsparadox：对于人工智能来说，赢得国际象棋比赛或发现新药属于容易解决的问题，但折叠衬衫或收拾餐桌却需要攻克人类有史以来最棘手的工程难题。因此，需要使人工智能系统具有“具身化”特征，

5、使其能够获得物理智能physicalinteligence。具身大模型对比LLM的相似之处：具身模型基于广泛多元的数据进行训练，能够执行各类文本指令；对比LLM的不同之处：具身智能模型需要能同时处理图像、文本和动作，并通过机器人实体经验的训练获取物理智能借助创新架构，学会直接输出低级运动指令，并在不同形态的机器人上应用。1)统一一个模型泛化多种任务和环境：通过构建一个统一的原生模型，融合视觉、语言、触觉和身体姿态等全模态信息，实现对不同任务和环境的泛化能力。此外，通过不同任务之间的数据共享和迁移，能够进一步提升模型的泛化能力。2）端到端：从接收全模态数据，到生成最终输出（如决策、动作等）的整个

6、过程，通过一个简洁的神经网络链路完成。该过程无需人为设计特征、预编程或干预处理步骤，使得具身智能体能够实时适应不同任务和环境，显著提升灵活性与开发效率。3).Scalingup（规模化）：真正的统一的端到端算法才允许模型通过持续的数据积累实现自我完善，使得具身大模型在数据量指数级增长的同时，不仅提升性能，还能在未知任务中展现卓越的自适应和泛化能力。1.3泛化的需求我们认为，在具身智能领域，机器人的落地难点在于：不仅能够完成单一任务，还能像人类一样灵活适应多样化场景，尤其是在涉及机器人灵巧操作的任务时，能够让机器人实现准确、高效的复杂动作执行。解决这一问题的关键，是构建具有泛化能力的机器人策略模

人形机器人行业专题5：Sim to Real具身大模型的问题、现状与投资机会-251109（43页）.pdf

相关报告