智驾与机器人之VLA技术深度：行业概述、发展背景、架构案例及相关公司深度梳理-251103-三个皮匠报告

1、智驾与机器人之VLA技术深度：行业概述、发展背景、架构案例及相关公司深度梳理在当今科技飞速发展的时代，人工智能正以前所未有的速度重塑着各个行业的面貌。其中，Vision-Language-Action（VLA）模型作为一项融合视觉、语言与动作三大模态的前沿技术，正在成为智能驾驶与通用机器人领域迈向更高智能化水平的关键推动力。从谷歌DeepMind将VLA框架引入机器人与自动驾驶领域，到众多企业纷纷投入研发并取得突破性进展，VLA技术的发展不仅为解决智能驾驶在复杂场景下的瓶颈问题提供了新思路，也为机器人从专用工具向通用智能伙伴转变带来了新机遇。本报告将深入剖析VLA技术的全貌。首先，对VLA模型

2、进行概述，介绍其发展背景等内容。接着，分别分析VLA模型在智能驾驶和机器人行业的应用情况，并针对典型的架构案例进行详细介绍。最后，梳理当前可能受益于VLA技术发展的公司。报告旨在为关注者提供一份全面、深入且具有前瞻性的行业深度研究报告，助力读者把握VLA技术发展的脉络与趋势，洞察其在智能驾驶与机器人领域的深远影响与广阔前景。一、行业概述1、VLA概念当前，VLA模型的快速发展正成为智能驾驶与通用机器人领域范式变革的核心推动力。Vision-Language-Action（VLA）模型是将视觉（Vision）、语言（Language）与动作（Action）三大模态深度耦合的端到端智能体系。其核心

3、在于以统一的多模态表示与训练框架，将“看懂做”三环节打通：模型直接接收图像/视频等感知输入与自然语言任务指令，经过联合表征与时空推理，输出可执行的物理世界控制量（如机器人关节轨迹、车辆转向与纵向控制命令）。相较传统“感知决策控制”分段式管线，VLA以单一骨干网络承载跨模态特征对齐与意图理解，减少中间信息丢失与手工规则依赖，实现对目标、场景、语义约束与行动策略的协同优化；在部署侧，可结合记忆与规划头实现闭环推理，提升对复杂、长尾场景的泛化稳健性与拟人化决策能力。VLA因而成为智能驾驶与通用机器人迈向“大模型一体化”的关键枢纽，并为后续与世界模型、端云协同训练及轻量化蒸馏等路径的结合奠定基础。20

4、23年7月，谷歌DeepMind发布RT-2模型，将VLA（Vision-Language-Action）框架引入机器人与自动驾驶领域。通过融合大语言模型与多模态数据训练，该模型实现了任务理解与执行能力的显著跃升，准确率提升近一倍，并具备对零样本任务的泛化能力，验证了视觉、语言与动作深度融合的有效性，为VLA在智能驾驶等产业化应用奠定基础。(divcenter)资料：ss(/divcenter)2、VLA三大核心模块一般而言，VLA模型架构具有三个核心组成：多模态编码器（动作、文本、图像等）、大语言模型用以接收信息和进行推理、解码器用于输出轨迹和动作。但也有部分模型只含有两个模块，如OpenV

5、LA使用LLM主干直接输出action指令。3、VLA应用现状当前，VLA在自动驾驶场景中得到广泛应用：VLA模型从自动驾驶车辆各类传感器收集的数据里，挖掘出丰富的周边环境信息；借助强大的语言模型理解人类给出的驾驶指令，并将决策逻辑梳理、展示出来，生成可被理解的决策流程；最终转化成实际的驾驶操作指令，指挥车辆的行驶动作。VLA架构具备端到端和泛化等特点，使其在机器人领域具备应用潜力：VLA能够直接实现从人类指令到机械臂执行，即输入图像及文本指令，输出夹爪末端动作。VLA架构具备端到端和泛化等特点：1）端到端架构；2）泛化能力：该模型可以在新的物体、背景和环境中表现出显著改善的性能；可以理解和响

6、应未知的命令，并行进行推理和决策；3）通用性：VLA建立在通用的大模型训练基础之上，理论上所有的智能装备都可以使用同一套算法，只要经过适当微调就能满足特定应用场景的需求。当前机器人VLA发展滞后于车端约2-3年，同时场景复杂度更高，构建数据闭环难度更大。两者核心共性在于：1）均依赖多模态大模型底座，例如，理想MindVLA与智元ViLLA均采用MOE架构实现任务分解；2）需构建数据闭环，车端通过3DGS重建，机器人则探索触觉传感器融合方案。二、发展VLA的原因1、VLA是通往L3智能驾驶之钥中国智能驾驶产业正向L3迈进，高阶智驾需求仍有巨大待满足空间。当前高速NOA功能已成为主流车型标配，价格

智驾与机器人之VLA技术深度：行业概述、发展背景、架构案例及相关公司深度梳理-251103（37页）.pdf

相关报告