1、相关研究1、行业周观点核心观点:持续重点关注AI算力及物理Al。立足高景气赛道布局,产业催化有望持续。当前建议继续立足核心景气赛道布局,重点跟踪产业边际变化。本周AI算力迎来英伟达业绩发布,产业高景气得到验证,新一代算力节点机柜出货预期带动算力各个环节价值量预期抬升。物理AI热度升温,工业AI、具身智能、智能驾驶等作为物理AI典型场景落地加速。展望后续,海外财报陆续发布,字节原动力大会6月23日召开,科技产业催化有望持续,建议持续重点布局核心赛道龙头公司。英伟达保持高增长,算力产业全球共振。本周海外英伟达发布Q1财报,总收入同比增速85%,环比增速20%;净利润同比增长211%;Q2营收指引9
2、10亿美元,上下波动2%;Q1营收、净利润与Q2营收均超出市场预期,充分体现算力产业高景气度。同时WSJ报道Anthropic有望实现单季度盈利,AI商业闭环预计加速。国内,国家发改委表示指导国产大模型加大力度适配国产算力芯片,算力产业趋势全球共振,建议继续重点把握相关投资机会。本文第二章,对具身智能数据产业链进行了重点跟踪。建议关注2)AI应用:中控技术、金山办公、汉得信息、宝信软件、合合信息、科大讯飞、鼎捷数智、卓易信息、海天瑞声、德赛西威、虹软科技、中科创达、福昕软件、税友股份、用友网络、石基信息、星环科技、能科科技、大华股份、广联达、萤石网络、新致软件、泛微网络、道通科技、科远智慧、南
3、网数字2、具身数据:物理AI巨大蓝海,供给缺口扩大2.1、具身智能亟需训练数据ScaleUp,供给缺口巨大数据规模为具身智能落地的核心瓶颈,供给缺口巨大。以具身智能为代表的物理AI落地需要大量、高质量的预训练数据。现阶段,数据已成为机器人大脑模型泛化能力提升、机器人量产的核心瓶颈之一。目前,行业主流真机训练数据量级在1万小时左右,Gen-0模型的总训练数据量约27万小时;对标LLM模型,GPT-1约使用27万小时的人类语言数据(约50亿token),GPT-3训练规模达到约1580万小时,GPT-4达到约6.84亿小时,训练数据的供给缺口巨大。根据GrandViewResearch数据,预计2
4、030年全球数据采集和标注市场规模将达到171亿美元。训练数据亟需Scaleup,混合数据训练为现阶段行业共识。具身智能的数据需求覆盖真实场景交互数据(真机遥操)第一人称视角数据(如头戴相机记录人类操作)UMl(UniversalManipulationInterface,通用操作接口)数据、仿真数据等。现阶段,混合式数据策略为行业共识,即用第一人称视角、UMI数据、虚拟数据等进行预训练、用真实数据精调。1)真机遥操数据:在前端部署机器人,人类在后端对其进行操控来完成任务并采集数据。真机遥操采集能产出最高质量的数据,但单条数据的采集成本高达数十元,难以快速规模化。2)UMI数据采集:操作者手里
5、拿的是一个夹爪形状的采集工具,在真实场景里完成任务,采集到直接在拥有同构末端的机械臂上进行训练。其优势在于大幅降低采集成本,但仍存在跨末端通用性的问题。截至2025年底,GeneralistAl训练数据总量达到约27万小时,远超PhysicalIntelligence的0.5400小时的真机数据。(divcenter)图1、UMI数据采集示意图(/divcenter)3)第一人称视角数据:相比UMI,第一人称视角的采集成本更低,有望真正实现大规模的数据采集。2026年,英伟达发布论文显示,EgoScale和DreamDojo分别采用了2万+4万+,小时的第一视角人类视频数据进行训练。蚂蚁数科发
6、布的具身智能数据采集系统AoE(Always-onEgocentric),支持通过一台手机和一个低于20美元的颈挂式支架,实现高质量数据采集,替代了昂贵的专业设备。现阶段,其主要问题在于只能覆盖手部的动作,视野相对受限;因果与动力学标注不够完备,高物理精度的数据稀缺等。4)合成数据:通过构建仿真环境,并基于预设规则或程序自动生成数据。合成数据可批量生成、最容易拓展,但目前仍存在仿真到现实的差距问题。2.2、机器人公司资本化加速,具身数据基建浪潮已至本体厂密集落子数据采集,有望带来具身数据基建浪潮。全球具身智能本体厂商明显加速在数据采集方面的布局。2025