为什么做车的公司，更容易做出人形机器人？

霞姐聊IT

发布于 2026-04-20 13:24:05

1120

一、一个被忽视的事实：它们其实是同一类系统

在过去的几年里，我们习惯性地将自动驾驶汽车和人形机器人视为两个不同的领域——讨论自动驾驶时，核心聚焦于车辆自主行驶能力；提及人形机器人时，则更侧重人工智能与物理世界的交互能力。但从工程本质来看，二者同属一个核心范畴——具身智能（Embodied AI）。

具身智能的核心定义是：

具备物理形态的智能体，能够通过“多模态感知、决策、行动和反馈”的闭环，与动态的物理环境持续交互，在实践中完成学习与任务执行。

与传统的聊天AI（离身智能）不同，具身智能强调的是身体与环境的互动，其智能行为并非单纯依赖算法推理，而是由物理环境与机器本体的互动共同推动产生。

尽管自动驾驶汽车和人形机器人的物理形态差异显著，但它们的核心技术体系高度同源：自动驾驶汽车是轮式具身智能体，人形机器人是多自由度具身智能体。

两者的核心区别仅在于物理载体不同——一个依托轮式结构实现移动，一个依靠多关节结构完成复杂动作。

这也解释了为何特斯拉、小鹏、华为等车企纷纷从自动驾驶领域切入人形机器人研发：它们可直接复用自动驾驶领域积累的技术优势，将成熟的感知、决策、控制系统迁移至机器人研发中，为其提供高效的技术支撑与创新路径，快速推动人形机器人领域的技术突破。

二、核心原因：智能车已经是半个机器人

从工程架构来看，我们可将所有具身智能系统抽象为五个核心模块：感知（Perception）、世界模型（World Model）、决策（Policy/Planning）、控制（Control）、执行器（Actuator）。自动驾驶与人形机器人的模块技术对比，清晰揭示了二者的同源性与差异点：

从模块技术细节来看，二者的同源性体现在感知与世界模型层面，而差异主要集中在控制与执行器层面：

在感知与世界模型设计上，二者均依赖多传感器融合技术（摄像头、激光雷达、IMU等）获取环境数据，通过算法处理实现环境理解，因此感知系统的核心架构可大量复用；在决策与规划部分，虽因任务复杂度不同（人形机器人任务更复杂）导致复用性有限，但高层决策的核心逻辑（基于环境反馈生成动作序列）高度一致；而控制层是二者差异最大的环节——人形机器人的控制复杂度远高于自动驾驶系统，因此控制层的技术复用性最低，也是车企需要重点突破的部分。

三、自动驾驶技术如何迁移到机器人

1. 感知系统：从2D视觉到3D世界理解，技术直接复用

自动驾驶在感知与环境理解领域，已完成了多轮关键性技术跃迁：2D视觉识别 → BEV（鸟瞰视角）统一感知 → Occupancy（占用网格）空间建模 → 完整世界模型构建。这条演进路径的核心是能力升级：从最初仅能识别图像中的物体（“这是什么”），逐步发展为理解物体的空间位置（“在哪里”）、可交互性（“能不能操作”）及动态变化（“会不会动”）——本质上，系统已从“看见世界”升级为“建模世界”。

而这种“世界建模能力”，正是人形机器人最核心的能力需求：机器人需要从“看见物体”，走向“理解世界结构（World Understanding）”，才能完成抓取、搬运、开门等复杂交互任务。自动驾驶积累的感知技术（如BEV架构、多传感器融合、Occupancy建模），可直接迁移至人形机器人，大幅降低其感知系统的研发成本与周期。

2. 决策系统：从规则驱动到端到端模型，进化路径高度契合

自动驾驶技术的演进可分为三代，每一代的技术突破都与人形机器人的决策系统需求高度契合，其积累的技术经验可直接复用：

第一代：规则系统。早期自动驾驶依赖手工编码的有限状态机（FSM），通过预设规则控制车辆行为，优点是可解释性强、可控性高，但缺乏适应性，无法应对复杂交通场景。这一阶段的经验，为人形机器人的基础任务规则设计提供了参考。

第二代：模块化AI。将自动驾驶任务拆分为感知与规划两个独立模块，感知模块通过深度学习识别环境信息，规划模块生成行驶路径，解决了规则系统的局限性，但存在感知与规划脱节的问题。这种模块化设计思路，可为人形机器人的决策系统提供基础架构参考，实现“感知-任务规划”的分层设计。

第三代：端到端（E2E）模型。将感知、决策、规划、控制整合为单一神经网络，实现从传感器数据到控制指令的直接输出，消除了模块间的脱节问题，具备更强的适应性与泛化能力，无需人工手动编码规则，可通过数据训练持续优化。这种端到端的设计范式，正是人形机器人决策系统的核心发展方向——通过统一模型实现复杂任务的自主决策，而自动驾驶在这一领域的技术积累，可直接为人形机器人提供成熟的模型架构与训练方法。

从这三代演进中，我们能看到具身智能的核心发展逻辑：从“模块拼接”到“统一模型”，从“人写规则”到“模型学行为”，这种进化路径与人形机器人的决策系统需求完全一致，也是策略学习（Policy Learning）的核心方向——通过强化学习等方法，让系统在多变环境中自主学习正确决策，实现自适应能力提升。

3. 控制系统：车与机器人的最大差异，需针对性突破

控制系统是具身智能系统中最关键、最具挑战性的环节，也是自动驾驶与人形机器人之间差异最大的部分，更是车企进入机器人领域的核心突破点。

自动驾驶本质上是低自由度控制系统，通常仅涉及2～3个核心控制变量（转向、加速、制动），控制场景结构化、约束清晰，工程上常用的PID（比例-积分-微分控制）、MPC（模型预测控制）等方法已高度成熟，具备良好的稳定性、鲁棒性与可解释性，可直接满足自动驾驶的控制需求。

相比之下，人形机器人是典型的高自由度系统，通常包含20～50个以上的关节控制变量，其控制复杂性呈指数级提升，核心难点体现在：高维控制空间下的多关节协同、强非线性动力学特性、多接触场景（脚、手与环境的动态接触）、实时平衡与稳定性约束。这些难点导致自动驾驶的传统控制方法无法直接扩展应用，人形机器人的控制正经历清晰的技术演进：MPC → 全身控制（Whole Body Control） → 强化学习（RL），即从基于模型的经典控制，逐步过渡到数据驱动的学习控制。

当前人形机器人控制的研究前沿，主要集中在强化学习、模仿学习、扩散策略等方向，其核心特征是：不再依赖精确的动力学建模，而是通过大规模数据学习复杂的控制策略，提升系统在高维、非结构化环境中的适应能力。这也意味着，车企需要在自动驾驶成熟控制技术的基础上，针对性突破全身控制、平衡控制等核心技术，才能完成从车到机器人的控制层迁移。

4. 数据闭环：车企的真正护城河，也是机器人研发的核心支撑

自动驾驶领域最核心的竞争力，并非单一算法，而是其背后成熟的数据闭环体系——一套能够实现“持续自我进化”的系统，其完整流程为：数据采集 → 自动标注 → 模型训练 → 部署 → 数据回流。这套体系的核心优势，正是人形机器人研发目前最缺乏的：

一是自动标注（Auto-labeling），可大幅降低人工成本，实现数据规模化扩张；二是长尾场景挖掘（Corner Case Mining），能够持续发现真实世界中的极端与罕见情况，提升模型的泛化能力；三是仿真系统（Simulation），可在虚拟环境中放大数据价值，加速模型迭代。

具身智能的本质，并非一次性训练出一个完美模型，而是在真实世界中不断试错、学习、进化的能力——而这恰恰依赖于数据闭环。没有数据闭环，模型无法持续迭代；数据规模不足，无法覆盖人形机器人面临的复杂长尾场景；没有数据回流机制，无法形成“越用越强”的正向循环。

车企的核心优势的是，已经在自动驾驶领域验证了这套数据闭环体系的可行性，解决了“如何在真实物理世界中持续获取数据并实现系统自我进化”的核心问题，而当前人形机器人行业（非全部机器人）仍以人工采集数据为主，数据闭环尚未成熟。如果说感知、世界模型、决策是具身智能的“基础能力”，那么数据闭环就是“智能进化的能力”——具身智能的竞争，最终比拼的不是谁的初始模型更聪明，而是谁的进化速度更快，而数据闭环正是决定进化速度的核心基础设施。

四、技术范式正在收敛：统一模型架构

从更宏观的技术视角来看，具身智能的技术范式正在发生重要收敛：自动驾驶与人形机器人，正在逐步统一到同一套模型架构中。未来的具身智能系统，可被统一抽象为：

多模态输入（视觉/ 语言 / 状态）→ World Model（世界模型）→ Policy Model（策略模型）→ Action（动作）

技术发展的核心趋势，是从“模块拼接”转向“统一模型”，从“固定功能系统”转向“自主学习系统”。而自动驾驶的发展路径，本质上已经在向这一统一架构演进——从早期的模块化设计，到如今的端到端模型，正是在逐步实现“多模态输入→世界建模→策略生成→动作输出”的一体化。

对于人形机器人而言，其核心任务本质上是：在这套统一架构的基础上，将“Action”环节从自动驾驶的轮式控制，扩展为人形机器人的全身多关节控制。这意味着，自动驾驶与机器人并非跨领域的技术跃迁，而是同一技术范式下的“维度升级”——自动驾驶是具身智能的一个“子问题”，人形机器人则是同一问题在更高维度的延伸。因此，车企切入人形机器人领域，并非“跨领域跨界”，而是在自身已有的技术范式上进行升维拓展，天然具备技术复用优势。