对抗性运动与运动模仿在人形机器人策略学习中的应用

一点人工一点智能

发布于 2025-11-26 15:51:38

2510

编辑：陈萍萍的公主@一点人工一点智能

摘要：本文提出了一种名为“对抗性运动与运动模仿”（Adversarial Locomotion and Motion Imitation, ALMI）的新型框架，旨在解决人形机器人在全身协调控制中的挑战。

传统方法通常将上下半身视为一个整体进行策略学习，忽略了上下半身在不同任务中的独特角色，导致策略训练复杂、稳定性差、易摔倒等问题。ALMI 通过上下半身的对抗性策略学习，分别训练下半身的鲁棒运动能力和上半身的精确运动模仿能力，并通过迭代更新实现全身协调控制。该框架还可扩展至结合遥操作系统的移动操作任务。

实验表明，ALMI 在仿真和真实机器人（Unitree H1）上均表现出良好的运动稳定性和运动跟踪精度。此外，作者还发布了一个大规模全身运动控制数据集 ALMI-X，包含来自 MuJoCo 仿真的高质量轨迹数据，可用于真实机器人的部署。

论文地址：https://arxiv.org/pdf/2504.14305

项目地址：https://almi-humanoid.github.io/

引言

人类在日常活动中展现出多样且富有表现力的全身运动能力，例如跳舞时下半身负责稳定移动和步态控制，上半身执行精确动作以完成特定任务。这种上下半身的协调配合使得人类能够适应各种复杂环境。然而，实现类似人类的全身体协调对人形机器人而言仍是一个巨大挑战。现有方法通常采用运动重定向和强化学习（RL）技术，通过最小化跟踪误差来训练一个统一的全身控制策略。

然而，这类方法存在明显局限：

· 首先，人形机器人具有高自由度（DoF），直接学习全身策略需要复杂的奖励函数设计，训练成本高昂；

· 其次，不同运动之间的差异以及某些超出机器人物理能力的人类动作，使得强化学习策略难以收敛；

· 更重要的是，这类方法往往过于强调运动跟踪精度，而忽视了机器人维持平衡的基本需求，导致在实际部署中频繁摔倒。

本文指出，上述问题的根本原因在于未能区分上下半身在运动学习中的不同角色：下半身主要负责提供稳定的运动能力，上半身则专注于精确的运动模仿。为此，ALMI 提出了一种对抗性训练框架，分别学习上下半身的策略，并通过对抗机制促进两者之间的协调。

预备知识

ALMI 采用对抗性训练框架，将上下半身的策略学习建模为一个马尔可夫决策过程（MDP）。该 MDP 定义为

。其中，上下半身共享状态空间S，但具有不同的动作空间Al和Au。奖励函数rl用于鼓励下半身跟踪速度指令，ru用于鼓励上半身跟踪参考运动。状态转移函数

表示在联合动作下转移到下一状态的概率。

本文使用 Unitree H1-2 机器人进行实验，该机器人共有 27 个自由度，策略控制其中 21 个（排除手腕关节）。状态向量包括机器人的本体感知信息（关节位置、速度、基座角速度、重力投影、上一时刻动作）、下半身速度指令、步态相位参数以及上半身参考关节位置。下半身策略输出 12 维动作（腿部关节目标位置），上半身策略输出 9 维动作（肩、肘和腰部关节目标位置）。两者共享状态空间，但通过掩码机制屏蔽不相关的指令信息。

方法

3.1 对抗性学习框架

ALMI 的核心思想是通过对抗性训练分别优化下半身运动策略πl和上半身运动模仿策略πu。对于下半身策略的学习，将其建模为一个两人零和马尔可夫博弈：下半身为智能体（agent），上半身为对抗者（adversary）。下半身的目标是最大化运动奖励

而上半身则试图最小化该值函数，即提供干扰以提升下半身的鲁棒性。该博弈存在纳什均衡

类似地，上半身策略的学习也采用对称的博弈形式：

为避免同时优化两对策略带来的计算负担，ALMI 提出一种简化框架：在训练πl时固定πu，但从运动数据集中采样对抗性动作；在训练πu时固定πl，但采样对抗性速度指令。通过将内层优化从参数空间转换为指令空间，显著提高了算法效率。

3.2 下半身的鲁棒运动控制

下半身策略需在受到上半身干扰的情况下仍能稳定跟踪速度指令。为此，ALMI 引入了一种双课程机制（Dual Curriculum Mechanism），根据上半身动作对下半身稳定性的影响程度进行难度分级。具体而言，首先在不施加上半身干扰的情况下训练一个基础运动策略

，然后逐步引入来自 AMASS 数据集的运动动作，记录机器人的“生存长度”作为运动难度指标。运动按难度排序后，通过缩放因子

调节动作幅度：

课程机制根据当前策略的抗干扰能力动态调整采样窗口和缩放因子，逐步提升训练难度。

3.3 上半身的运动跟踪

上半身策略需在受到下半身运动干扰的情况下准确跟踪参考运动。ALMI 使用当前训练轮次的下半身策略πl提供对抗性速度指令，上半身则通过最大化运动跟踪奖励进行学习。速度指令的采样范围根据上半身的跟踪误差动态调整，形成一种自适应的课程机制。具体而言，若跟踪误差较小，则扩大速度指令范围以增加干扰强度；反之则缩小范围以降低难度。