我正在尝试为一个控制系统编写一个自适应控制器,即使用Q学习的电源管理系统。我最近为手推车-杆子系统实现了一个玩具RL问题,并从Andrew‘s的笔记中计算出了直升机控制问题的公式。我理解在这种情况下,值函数近似是势在必行的。然而,这两个流行的例子都有非常少的可能的离散操作。我有三个问题:
1)如果您没有少量的离散操作,那么处理此类问题的正确方式是什么?我的行为和状态的维度似乎已经爆炸,学习看起来非常糟糕,这就引出了我的下一个问题。
2)如何衡量我的座席的绩效?由于奖励随着动态环境的变化而变化,因此在每个时间步,我都不能决定我的连续RL代理的性能指标。与网格问题不同的是,由于存在巨大的状态-动作对,我无法检查Q值表,我如何知道我的动作是最优的?
3)因为我有一个状态随时间演变的模型。状态= Y,U。Yt+1 = aYt + bA,其中A是动作。为操作A选择离散化步骤也会影响我对状态变量Y离散化的精细程度。我如何选择离散化步骤?非常感谢!
发布于 2016-04-08 02:25:48
你可以使用连续动作强化学习算法,完全避免离散化问题。我建议你去看看CACLA。至于性能,您需要在关闭学习的情况下测量代理在一集内的累积奖励。由于您的环境是随机的,请进行多次测量并取其平均值。
发布于 2016-04-17 12:25:49
看看策略搜索算法。基本上,他们直接学习参数策略,而不需要显式的值函数,从而避免了近似连续动作的Q函数的问题(例如,不需要对动作空间进行离散化)。
策略梯度是最简单、最早的策略搜索算法之一。看一下here,快速了解一下这个话题。和here进行有关策略搜索的调查(目前,有更新的技术,但这是一个很好的起点)。在控制问题的情况下,有一个非常简单的玩具任务,你可以看看,Linear Quadratic Gaussian Regulator (LQG)。Here您可以找到包含此示例的讲座,还可以找到策略搜索和策略梯度的介绍。
关于您的第二点,如果您的环境是动态的(即,转移函数(或两者)的奖励函数随时间变化),那么您需要查看非静态策略。这在RL中通常是一个更具挑战性的问题。
https://stackoverflow.com/questions/36472666
复制相似问题