1、投资评级:看好(维持)物理AI专题报告相关报告核心观点1.2算法架构正在收敛,数据是当下物理AI发展的关键决定因素,1数据是当下决定物理AI发展的关键因素1.1AI发展离不开“算法、算力、数据”三驾马车数据、算法、算力是物理AI发展的三大核心要素。物理AI作为AI的一个分支,其发展同样离不开“算法、算力和数据”三要素。其中数据可视为物理AI的燃料,决定了其学习内容,是物理AI的底层基础设施;算力主要影响模型的训练效率与学习速度,可视为物理AI的加速器;算法则是AI的方法论,协助模型从海量数据中提取规律,将数据转化为可执行的智能。(divcenter)图1:AI的发展离不开数据、算力、算法三要素
2、(/divcenter)1.2算法架构正在收敛,数据是当下物理AI发展的关键决定因素物理AI的算法模型正在收敛,VLA+世界模型范式逐渐形成。物理AI的算法模型目前主要包括VLA和世界模型,两种方案作用场景不同:VLA模型在经过图文预训练之后能够具备语言理解和执行任务等方面的能力,世界模型则能够基于当前的动作预测未来的状态。VLA模型可以决策如何行动,世界模型则进一步判断行动之后的结果,两种模型并非互相替代,彼此结合才能发挥模型的最大功效。目前许多业界专家提出了二者结合的观点,例如五一视界物理AI算法工程师侯博士表示VLA+世界模型或许是解决物理AI数据饥渴的最优解,小鹏通用智能中心负责人刘先
3、明则在2026CVPR上表示小鹏物理世界的基座模型既是第二代VLA也是世界模型。数据方面,物理AI对数据采集的要求较为特殊且面临几大难题,数据成为当下限制物理AI发展的关键因素。具身智能等物理AI领域对数据采集有着特殊要求。1)覆盖多模态数据,具身智能所用于训练的数据除了纯视觉以外,还需涵盖触觉、力觉、听觉等感官因素,以及现实物体的材料、质量、摩擦力等物理属性。2)时空对齐和物理精确性要求高:物理AI传感器所收集的数据需要在空间上实现毫米级别的对齐,时间上实现微秒级的同步,确保模型训练不会出现偏差,避免在现实世界完成任务时造成不良后果。3)面对海量长尾场景:物理AI应用场景丰富,包括零售、家居
4、服务、仓储物流、医疗护理、精密制造等,物理AI所需要的训练数据需覆盖现实世界的海量长尾场景。4)数据质量要求高:数字AI时代数据规模较为重要,但物理AI对数据质量的要求更高,低质量数据无法助力模型在交互复杂的物理环境中完成任务。当下物理AI的数据采集面临几大难题。1)数据规模小:根据中国证券报刊发的文章,觅蜂科技董事长姚总认为目前具身智能高质量数据规模仅50万小时级别,而根据阿里云高级算法专家张民英,要让具身智能模型能力实现突破则需要100亿小时数据量级,彼此之间差距巨大。2)获取成本高:时间成本方面,根据甲子光年与觅蜂科技的采访,目前真机采集8小时可能仅产出2-3小时有效数据,采集效率较低;
5、资金成本方面,一套用于高质量数据采集的遥操作设备的成本大约超过20万元。且根据觅蜂发布会的圆桌论坛,目前采集一小时数据的成本约200元,百亿小时的成本将会难以负担。3)质量标准缺失:目前行业标准有所缺失,不同厂商生成数据的格式、坐标系、模态定义都有差异,较难彼此互通以及复用,厂商会将较多精力用于数据转换;此外采集的数据质量有参差或标注不规范的现象也存在。4)虚实鸿沟明显:仿真数据与真实世界之间存在差异,无法还原所有物理细节。受限于上述因素,物理AI相较于数字AI的数据采集难度更高、规模更小。受益于数字世界的红利,传统语言或视觉大模型可以利用互联网数十年积累的海量资料进行训练。根据第57次中国互
6、联网络发展状况统计报告,截至2025年12月我国互联网用户规模已达到11.3亿人,大模型行业拥有的数据规模大、成熟度高。目前物理AI各落地场景中自动驾驶发展较快,我国搭载智驾系统的车辆数量正持续提升,2025年我国搭载城区NOA/高速NOA的车队数量已达512万辆,同比+201%,对应渗透率由2024年的7.4%增至22.3%,车队采数体系已较为成熟。但除智驾领域之外,具身智能等物理AI领域的数据仍受到限制,当下这部分厂商的竞争已从算法算力的比拼,逐渐转向寻求高质量、大规模数据供给能力的竞争。2各类数据优劣势明显,数据融合成为趋势物理AI的数据种类呈现清晰的“金字塔式”架构。物理AI用于训练的