
在过去的几年里,我们习惯性地将自动驾驶汽车和人形机器人视为两个不同的领域——讨论自动驾驶时,核心聚焦于车辆自主行驶能力;提及人形机器人时,则更侧重人工智能与物理世界的交互能力。但从工程本质来看,二者同属一个核心范畴——具身智能(Embodied AI)。
具身智能的核心定义是:
具备物理形态的智能体,能够通过“多模态感知、决策、行动和反馈”的闭环,与动态的物理环境持续交互,在实践中完成学习与任务执行。
与传统的聊天AI(离身智能)不同,具身智能强调的是身体与环境的互动,其智能行为并非单纯依赖算法推理,而是由物理环境与机器本体的互动共同推动产生。
尽管自动驾驶汽车和人形机器人的物理形态差异显著,但它们的核心技术体系高度同源:自动驾驶汽车是轮式具身智能体,人形机器人是多自由度具身智能体。
两者的核心区别仅在于物理载体不同——一个依托轮式结构实现移动,一个依靠多关节结构完成复杂动作。
这也解释了为何特斯拉、小鹏、华为等车企纷纷从自动驾驶领域切入人形机器人研发:它们可直接复用自动驾驶领域积累的技术优势,将成熟的感知、决策、控制系统迁移至机器人研发中,为其提供高效的技术支撑与创新路径,快速推动人形机器人领域的技术突破。
从工程架构来看,我们可将所有具身智能系统抽象为五个核心模块:感知(Perception)、世界模型(World Model)、决策(Policy/Planning)、控制(Control)、执行器(Actuator)。自动驾驶与人形机器人的模块技术对比,清晰揭示了二者的同源性与差异点:

从模块技术细节来看,二者的同源性体现在感知与世界模型层面,而差异主要集中在控制与执行器层面:
在感知与世界模型设计上,二者均依赖多传感器融合技术(摄像头、激光雷达、IMU等)获取环境数据,通过算法处理实现环境理解,因此感知系统的核心架构可大量复用;在决策与规划部分,虽因任务复杂度不同(人形机器人任务更复杂)导致复用性有限,但高层决策的核心逻辑(基于环境反馈生成动作序列)高度一致;而控制层是二者差异最大的环节——人形机器人的控制复杂度远高于自动驾驶系统,因此控制层的技术复用性最低,也是车企需要重点突破的部分。
三、自动驾驶技术如何迁移到机器人
自动驾驶在感知与环境理解领域,已完成了多轮关键性技术跃迁:2D视觉识别 → BEV(鸟瞰视角)统一感知 → Occupancy(占用网格)空间建模 → 完整世界模型构建。这条演进路径的核心是能力升级:从最初仅能识别图像中的物体(“这是什么”),逐步发展为理解物体的空间位置(“在哪里”)、可交互性(“能不能操作”)及动态变化(“会不会动”)——本质上,系统已从“看见世界”升级为“建模世界”。
而这种“世界建模能力”,正是人形机器人最核心的能力需求:机器人需要从“看见物体”,走向“理解世界结构(World Understanding)”,才能完成抓取、搬运、开门等复杂交互任务。自动驾驶积累的感知技术(如BEV架构、多传感器融合、Occupancy建模),可直接迁移至人形机器人,大幅降低其感知系统的研发成本与周期。
自动驾驶技术的演进可分为三代,每一代的技术突破都与人形机器人的决策系统需求高度契合,其积累的技术经验可直接复用:
第一代:规则系统。早期自动驾驶依赖手工编码的有限状态机(FSM),通过预设规则控制车辆行为,优点是可解释性强、可控性高,但缺乏适应性,无法应对复杂交通场景。这一阶段的经验,为人形机器人的基础任务规则设计提供了参考。
第二代:模块化AI。将自动驾驶任务拆分为感知与规划两个独立模块,感知模块通过深度学习识别环境信息,规划模块生成行驶路径,解决了规则系统的局限性,但存在感知与规划脱节的问题。这种模块化设计思路,可为人形机器人的决策系统提供基础架构参考,实现“感知-任务规划”的分层设计。
第三代:端到端(E2E)模型。将感知、决策、规划、控制整合为单一神经网络,实现从传感器数据到控制指令的直接输出,消除了模块间的脱节问题,具备更强的适应性与泛化能力,无需人工手动编码规则,可通过数据训练持续优化。这种端到端的设计范式,正是人形机器人决策系统的核心发展方向——通过统一模型实现复杂任务的自主决策,而自动驾驶在这一领域的技术积累,可直接为人形机器人提供成熟的模型架构与训练方法。
从这三代演进中,我们能看到具身智能的核心发展逻辑:从“模块拼接”到“统一模型”,从“人写规则”到“模型学行为”,这种进化路径与人形机器人的决策系统需求完全一致,也是策略学习(Policy Learning)的核心方向——通过强化学习等方法,让系统在多变环境中自主学习正确决策,实现自适应能力提升。
控制系统是具身智能系统中最关键、最具挑战性的环节,也是自动驾驶与人形机器人之间差异最大的部分,更是车企进入机器人领域的核心突破点。
自动驾驶本质上是低自由度控制系统,通常仅涉及2~3个核心控制变量(转向、加速、制动),控制场景结构化、约束清晰,工程上常用的PID(比例-积分-微分控制)、MPC(模型预测控制)等方法已高度成熟,具备良好的稳定性、鲁棒性与可解释性,可直接满足自动驾驶的控制需求。
相比之下,人形机器人是典型的高自由度系统,通常包含20~50个以上的关节控制变量,其控制复杂性呈指数级提升,核心难点体现在:高维控制空间下的多关节协同、强非线性动力学特性、多接触场景(脚、手与环境的动态接触)、实时平衡与稳定性约束。这些难点导致自动驾驶的传统控制方法无法直接扩展应用,人形机器人的控制正经历清晰的技术演进:MPC → 全身控制(Whole Body Control) → 强化学习(RL),即从基于模型的经典控制,逐步过渡到数据驱动的学习控制。
当前人形机器人控制的研究前沿,主要集中在强化学习、模仿学习、扩散策略等方向,其核心特征是:不再依赖精确的动力学建模,而是通过大规模数据学习复杂的控制策略,提升系统在高维、非结构化环境中的适应能力。这也意味着,车企需要在自动驾驶成熟控制技术的基础上,针对性突破全身控制、平衡控制等核心技术,才能完成从车到机器人的控制层迁移。
自动驾驶领域最核心的竞争力,并非单一算法,而是其背后成熟的数据闭环体系——一套能够实现“持续自我进化”的系统,其完整流程为:数据采集 → 自动标注 → 模型训练 → 部署 → 数据回流。这套体系的核心优势,正是人形机器人研发目前最缺乏的:
一是自动标注(Auto-labeling),可大幅降低人工成本,实现数据规模化扩张;二是长尾场景挖掘(Corner Case Mining),能够持续发现真实世界中的极端与罕见情况,提升模型的泛化能力;三是仿真系统(Simulation),可在虚拟环境中放大数据价值,加速模型迭代。
具身智能的本质,并非一次性训练出一个完美模型,而是在真实世界中不断试错、学习、进化的能力——而这恰恰依赖于数据闭环。没有数据闭环,模型无法持续迭代;数据规模不足,无法覆盖人形机器人面临的复杂长尾场景;没有数据回流机制,无法形成“越用越强”的正向循环。
车企的核心优势的是,已经在自动驾驶领域验证了这套数据闭环体系的可行性,解决了“如何在真实物理世界中持续获取数据并实现系统自我进化”的核心问题,而当前人形机器人行业(非全部机器人)仍以人工采集数据为主,数据闭环尚未成熟。如果说感知、世界模型、决策是具身智能的“基础能力”,那么数据闭环就是“智能进化的能力”——具身智能的竞争,最终比拼的不是谁的初始模型更聪明,而是谁的进化速度更快,而数据闭环正是决定进化速度的核心基础设施。
从更宏观的技术视角来看,具身智能的技术范式正在发生重要收敛:自动驾驶与人形机器人,正在逐步统一到同一套模型架构中。未来的具身智能系统,可被统一抽象为:
多模态输入(视觉/ 语言 / 状态)→ World Model(世界模型)→ Policy Model(策略模型)→ Action(动作)
技术发展的核心趋势,是从“模块拼接”转向“统一模型”,从“固定功能系统”转向“自主学习系统”。而自动驾驶的发展路径,本质上已经在向这一统一架构演进——从早期的模块化设计,到如今的端到端模型,正是在逐步实现“多模态输入→世界建模→策略生成→动作输出”的一体化。
对于人形机器人而言,其核心任务本质上是:在这套统一架构的基础上,将“Action”环节从自动驾驶的轮式控制,扩展为人形机器人的全身多关节控制。这意味着,自动驾驶与机器人并非跨领域的技术跃迁,而是同一技术范式下的“维度升级”——自动驾驶是具身智能的一个“子问题”,人形机器人则是同一问题在更高维度的延伸。因此,车企切入人形机器人领域,并非“跨领域跨界”,而是在自身已有的技术范式上进行升维拓展,天然具备技术复用优势。
车企更容易做出人形机器人,核心逻辑并非“资金雄厚”或“技术全面”,而是其在自动驾驶领域积累的技术、体系与经验,与人形机器人的核心需求高度契合,形成了难以复制的竞争优势,具体可总结为三点:
第一,技术同源性奠定基础:自动驾驶与人形机器人同属具身智能,二者的感知、世界模型、决策三大核心模块高度复用,车企可直接迁移成熟技术,大幅降低机器人研发的成本与周期,仅需重点突破控制层的高自由度协同控制难题即可。
第二,数据闭环构建护城河:车企已掌握成熟的“数据采集-标注-训练-回流”闭环体系,解决了具身智能“持续进化”的核心痛点,而这正是当前机器人行业的短板,也是车企最核心的竞争优势——这种“自我进化能力”,是人形机器人实现规模化落地的关键。
第三,技术范式收敛占得先机:具身智能正朝着“统一模型架构”演进,自动驾驶的发展已提前踩中这一趋势,车企在统一模型、端到端学习等领域的积累,让人形机器人研发无需从零开始,可直接在成熟范式上实现升维突破。
综上,做车的公司并非“跨界”研发人形机器人,而是在自身熟悉的具身智能赛道上进行高维度延伸——它们已经掌握了人形机器人研发所需的大部分核心能力,只需针对性突破控制层差异,就能快速实现技术落地,这也是为何车企成为人形机器人领域最具竞争力的玩家。