计算机行业具身数据：物理AI巨大蓝海供给缺口扩大-260524-在线下载-三个皮匠报告

1、相关研究1、行业周观点核心观点：持续重点关注AI算力及物理Al。立足高景气赛道布局，产业催化有望持续。当前建议继续立足核心景气赛道布局，重点跟踪产业边际变化。本周AI算力迎来英伟达业绩发布，产业高景气得到验证，新一代算力节点机柜出货预期带动算力各个环节价值量预期抬升。物理AI热度升温，工业AI、具身智能、智能驾驶等作为物理AI典型场景落地加速。展望后续，海外财报陆续发布，字节原动力大会6月23日召开，科技产业催化有望持续，建议持续重点布局核心赛道龙头公司。英伟达保持高增长，算力产业全球共振。本周海外英伟达发布Q1财报，总收入同比增速85%，环比增速20%；净利润同比增长211%；Q2营收指引9

2、10亿美元，上下波动2%；Q1营收、净利润与Q2营收均超出市场预期，充分体现算力产业高景气度。同时WSJ报道Anthropic有望实现单季度盈利，AI商业闭环预计加速。国内，国家发改委表示指导国产大模型加大力度适配国产算力芯片，算力产业趋势全球共振，建议继续重点把握相关投资机会。本文第二章，对具身智能数据产业链进行了重点跟踪。建议关注2)AI应用：中控技术、金山办公、汉得信息、宝信软件、合合信息、科大讯飞、鼎捷数智、卓易信息、海天瑞声、德赛西威、虹软科技、中科创达、福昕软件、税友股份、用友网络、石基信息、星环科技、能科科技、大华股份、广联达、萤石网络、新致软件、泛微网络、道通科技、科远智慧、南

3、网数字2、具身数据：物理AI巨大蓝海，供给缺口扩大2.1、具身智能亟需训练数据ScaleUp，供给缺口巨大数据规模为具身智能落地的核心瓶颈，供给缺口巨大。以具身智能为代表的物理AI落地需要大量、高质量的预训练数据。现阶段，数据已成为机器人大脑模型泛化能力提升、机器人量产的核心瓶颈之一。目前，行业主流真机训练数据量级在1万小时左右，Gen-0模型的总训练数据量约27万小时；对标LLM模型，GPT-1约使用27万小时的人类语言数据(约50亿token）,GPT-3训练规模达到约1580万小时，GPT-4达到约6.84亿小时，训练数据的供给缺口巨大。根据GrandViewResearch数据，预计2

4、030年全球数据采集和标注市场规模将达到171亿美元。训练数据亟需Scaleup，混合数据训练为现阶段行业共识。具身智能的数据需求覆盖真实场景交互数据（真机遥操）第一人称视角数据（如头戴相机记录人类操作）UMl（UniversalManipulationInterface，通用操作接口）数据、仿真数据等。现阶段，混合式数据策略为行业共识，即用第一人称视角、UMI数据、虚拟数据等进行预训练、用真实数据精调。1）真机遥操数据：在前端部署机器人，人类在后端对其进行操控来完成任务并采集数据。真机遥操采集能产出最高质量的数据，但单条数据的采集成本高达数十元，难以快速规模化。2）UMI数据采集：操作者手里

5、拿的是一个夹爪形状的采集工具，在真实场景里完成任务，采集到直接在拥有同构末端的机械臂上进行训练。其优势在于大幅降低采集成本，但仍存在跨末端通用性的问题。截至2025年底，GeneralistAl训练数据总量达到约27万小时，远超PhysicalIntelligence的0.5400小时的真机数据。(divcenter)图1、UMI数据采集示意图(/divcenter)3）第一人称视角数据：相比UMI，第一人称视角的采集成本更低，有望真正实现大规模的数据采集。2026年，英伟达发布论文显示，EgoScale和DreamDojo分别采用了2万+4万+,小时的第一视角人类视频数据进行训练。蚂蚁数科发

6、布的具身智能数据采集系统AoE（Always-onEgocentric），支持通过一台手机和一个低于20美元的颈挂式支架，实现高质量数据采集，替代了昂贵的专业设备。现阶段，其主要问题在于只能覆盖手部的动作，视野相对受限；因果与动力学标注不够完备，高物理精度的数据稀缺等。4）合成数据：通过构建仿真环境，并基于预设规则或程序自动生成数据。合成数据可批量生成、最容易拓展，但目前仍存在仿真到现实的差距问题。2.2、机器人公司资本化加速，具身数据基建浪潮已至本体厂密集落子数据采集，有望带来具身数据基建浪潮。全球具身智能本体厂商明显加速在数据采集方面的布局。2025

计算机行业具身数据：物理AI巨大蓝海供给缺口扩大-260524（11页）.pdf

计算机行业具身数据：物理AI巨大蓝海供给缺口扩大-260524（11页）.pdf