暂无搜索历史
任何时刻,末端的“工具坐标系”都能从正运动学算出来,它随着姿势实时变化。我们就在这个坐标系里做文章。
方向向量/法向向量 (Direction Vector / Normal Vector)
扭矩的本质是一个力让物体绕着某个轴转动的能力,其计算公式非常简单,是物理学的核心概念:
Offline IL = 在静态数据集上加约束(保守 Q / 隐变量 / 扩散),防止策略在数据集外的状态"乱猜",核心是"学分布、不学单点"。
IRL = 外层迭代反推 reward + 内层跑 RL 求状态分布,核心是"专家做对了的事 reward 高,做错了 reward 低",但内外双层循环导致...
GAIL = GAN(判别器学 reward)+ RL(PPO 更新策略),不需要显式 reward 函数,也不需要专家在线标注,但训练不稳定且计算成本高。
行为克隆(BC) 失败的根因: 训练时只见过专家的状态分布,测试时策略偏离专家轨迹后,进入从未见过的状态,错误逐帧累积,一发不可收拾。
行为克隆的本质是把模仿学习转化为监督学习问题,下面从"在做什么"和"怎么做"两个维度,结合工程实践详细展开。
模仿学习 (Imitation Learning, IL) 的核心是 从专家(人类/高水平策略)的演示数据中学习策略 ,绕过直接探索 reward 的难题。以...
粒子群算法是一种基于群体智能的随机优化技术,它通过模拟鸟群、鱼群等生物群体的社会行为来寻找最优解。下面从原理、步骤、优缺点和应用四个方面详细介绍。
蚁群算法(Ant Colony Optimization, ACO)是一种模拟真实蚂蚁觅食行为的群体智能算法。它巧妙地利用了蚂蚁在路径上留下的“信息素”作为间...
差分进化算法是一种基于群体差异的随机优化算法,由Storn和Price于1995年提出。它因结构简单、控制参数少、鲁棒性强而成为进化算法家族中的重要成员,尤其...
若需处理多目标,可考虑 NSGA-II(基于GA)、MOPSO(基于PSO)、DEMO(基于DE)、MOACO(基于ACO)等专用变体。
MOEA/D和NSGA-II都是多目标进化算法中的经典代表,但它们解决问题的思路截然不同。简单来说, NSGA-II是基于“支配关系”直接筛选好解,而MOEA...
基于Pareto支配的优化算法是多目标优化领域中最主流、最成熟的一类方法,核心思想很直观: 直接利用"帕累托支配"这个标准来比较解的优劣,通过保留"不被支配"...
帕累托解 就是多目标优化问题中那个“ 没有办法再好了 ”的状态,不像单目标问题只有一个最优答案,而是一个由多个“好”解组成的集合。下面我将从它的定义、核心思想...
RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),它通过人类手把手教的方式,用强化学习...
RL是 Reinforcement Learning(强化学习) 的缩写,是机器学习三大范式之一(另外两个是监督学习和无监督学习),它的灵感来源于行为心理学: ...
深度学习是基础学习机制,简单来说,深度学习是机器学习的一个子集,通过构建包含多个处理层(即“深度”)的神经网络模型,来自动从海量数据中学习更抽象、更高层级的特征...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址