文章/答案/技术大牛

发布

社区首页 >问答首页 >强化学习:为连续动作和连续状态空间选择离散化步骤和性能指标的困境

问强化学习:为连续动作和连续状态空间选择离散化步骤和性能指标的困境
EN

Stack Overflow用户

提问于 2016-04-07 17:56:50

回答 2查看 815关注 0票数 1

我正在尝试为一个控制系统编写一个自适应控制器，即使用Q学习的电源管理系统。我最近为手推车-杆子系统实现了一个玩具RL问题，并从Andrew‘s的笔记中计算出了直升机控制问题的公式。我理解在这种情况下，值函数近似是势在必行的。然而，这两个流行的例子都有非常少的可能的离散操作。我有三个问题：

1)如果您没有少量的离散操作，那么处理此类问题的正确方式是什么？我的行为和状态的维度似乎已经爆炸，学习看起来非常糟糕，这就引出了我的下一个问题。

2)如何衡量我的座席的绩效？由于奖励随着动态环境的变化而变化，因此在每个时间步，我都不能决定我的连续RL代理的性能指标。与网格问题不同的是，由于存在巨大的状态-动作对，我无法检查Q值表，我如何知道我的动作是最优的？

3)因为我有一个状态随时间演变的模型。状态= Y，U。Yt+1 = aYt + bA，其中A是动作。为操作A选择离散化步骤也会影响我对状态变量Y离散化的精细程度。我如何选择离散化步骤？非常感谢!

artificial-intelligence

reinforcement-learning

machine-learning

回答 2

Stack Overflow用户

发布于 2016-04-08 02:25:48

你可以使用连续动作强化学习算法，完全避免离散化问题。我建议你去看看CACLA。至于性能，您需要在关闭学习的情况下测量代理在一集内的累积奖励。由于您的环境是随机的，请进行多次测量并取其平均值。

票数 3

Stack Overflow用户

发布于 2016-04-17 12:25:49

看看策略搜索算法。基本上，他们直接学习参数策略，而不需要显式的值函数，从而避免了近似连续动作的Q函数的问题(例如，不需要对动作空间进行离散化)。

策略梯度是最简单、最早的策略搜索算法之一。看一下here，快速了解一下这个话题。和here进行有关策略搜索的调查(目前，有更新的技术，但这是一个很好的起点)。在控制问题的情况下，有一个非常简单的玩具任务，你可以看看，Linear Quadratic Gaussian Regulator (LQG)。Here您可以找到包含此示例的讲座，还可以找到策略搜索和策略梯度的介绍。

关于您的第二点，如果您的环境是动态的(即，转移函数(或两者)的奖励函数随时间变化)，那么您需要查看非静态策略。这在RL中通常是一个更具挑战性的问题。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36472666

复制

相似问题

问强化学习:为连续动作和连续状态空间选择离散化步骤和性能指标的困境
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习:为连续动作和连续状态空间选择离散化步骤和性能指标的困境EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习:为连续动作和连续状态空间选择离散化步骤和性能指标的困境
EN