CoRL 2025：如何教会机器人“扎马步”？揭秘人形机器人极致平衡的三大核心技术

一点人工一点智能

发布于 2025-11-26 16:42:28

3940

编辑：陈萍萍的公主@一点人工一点智能

摘要：论文聚焦于人形机器人在极端平衡任务中的控制问题。人类在执行单脚站立、高抬腿等动作时展现出卓越的平衡能力，而将其转化为机器人控制仍面临诸多挑战。

本文指出三个关键障碍：参考运动误差导致的控制不稳定、人机形态差异引发的学习困难，以及传感器噪声与未建模动力学造成的仿真-现实差异。为此，作者提出HuB，一个统一的框架，集成了参考运动优化、平衡感知的策略学习与仿真-现实鲁棒性训练三大模块。该框架在Unitree G1人形机器人上进行了验证，成功实现了如“燕子平衡”和“李小龙踢”等高难度准静态平衡任务。

实验表明，HuB在面对外部干扰时仍能保持稳定，而基线方法则无法完成这些任务。

论文地址：https://arxiv.org/pdf/2505.07294

项目地址：https://hub-robot.github.io/

引言

人形机器人在非结构化环境中实现人类水平的运动能力是机器人研究的核心目标之一。其中，平衡控制是实现这一目标的关键技术。人类平衡依赖于前庭系统、本体感觉与高层规划之间的复杂感觉运动回路，而将其复现到机器人系统中尤为困难。例如，燕子平衡任务要求机器人在单脚支撑的同时保持上身水平伸展，这对全身协调、质心控制与抗干扰能力提出了极高要求。

近年来，基于学习的人形控制方法常采用“跟踪参考运动”的范式，即从人类动作捕捉数据中提取姿态，经重定向后作为机器人参考运动，再通过强化学习训练跟踪策略。然而，该方法在复杂平衡任务中面临三大挑战：参考运动误差、形态不匹配导致的策略学习困难，以及仿真-现实差异。本文针对这些问题提出了相应的解决方案，并构建了HuB框架。

相关工作

2.1 人形平衡控制

传统方法多基于模型控制，如基于反馈的控制策略和优化方法，虽在结构化环境中有效，但对模型精度依赖强，且在不确定环境中表现不佳。近年来，强化学习被广泛应用于步态控制、抗推恢复、站起动作等任务，但多数研究聚焦于动态步态或瞬时稳定，而非极端条件下的持续准静态平衡。

2.2 基于学习的人形控制

学习型方法在人形运动控制中取得了显著进展，涵盖了行走、奔跑、跳跃、舞蹈等多种行为。然而，这些方法多侧重于动态稳定，未深入探讨准静态姿势所需的精确平衡控制。本文则专注于极端姿态下的持续平衡能力。

2.3 仿真-现实迁移

仿真-现实迁移是机器人学习中的经典难题。常见方法包括系统辨识、真实-仿真反馈与领域随机化。然而，在平衡任务中，即使微小的传感器或接触不一致也可能导致系统失稳，现有方法在此类任务中的有效性尚未充分探索。

极端人形平衡学习框架

HuB框架针对前述三大挑战，分别提出了相应的技术模块。整体流程包括从视频中提取人体姿态、重定向为机器人参考运动、基于师生架构的策略学习，以及最终在真实机器人上的部署。

3.1 背景

问题被建模为一个目标条件的马尔可夫决策过程（MDP），其状态空间包括本体感知观测与参考目标状态，动作空间为期望关节角度，由底层PD控制器执行。奖励函数鼓励准确跟踪与稳定控制。整体流程采用师生学习范式：教师策略使用PPO在特权观测下训练，学生策略则通过DAgger从教师中蒸馏，仅使用部署时可用的观测。