首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >强化学习:为连续动作和连续状态空间选择离散化步骤和性能指标的困境

强化学习:为连续动作和连续状态空间选择离散化步骤和性能指标的困境
EN

Stack Overflow用户
提问于 2016-04-07 17:56:50
回答 2查看 815关注 0票数 1

我正在尝试为一个控制系统编写一个自适应控制器,即使用Q学习的电源管理系统。我最近为手推车-杆子系统实现了一个玩具RL问题,并从Andrew‘s的笔记中计算出了直升机控制问题的公式。我理解在这种情况下,值函数近似是势在必行的。然而,这两个流行的例子都有非常少的可能的离散操作。我有三个问题:

1)如果您没有少量的离散操作,那么处理此类问题的正确方式是什么?我的行为和状态的维度似乎已经爆炸,学习看起来非常糟糕,这就引出了我的下一个问题。

2)如何衡量我的座席的绩效?由于奖励随着动态环境的变化而变化,因此在每个时间步,我都不能决定我的连续RL代理的性能指标。与网格问题不同的是,由于存在巨大的状态-动作对,我无法检查Q值表,我如何知道我的动作是最优的?

3)因为我有一个状态随时间演变的模型。状态= Y,U。Yt+1 = aYt + bA,其中A是动作。为操作A选择离散化步骤也会影响我对状态变量Y离散化的精细程度。我如何选择离散化步骤?非常感谢!

EN

回答 2

Stack Overflow用户

发布于 2016-04-08 02:25:48

你可以使用连续动作强化学习算法,完全避免离散化问题。我建议你去看看CACLA。至于性能,您需要在关闭学习的情况下测量代理在一集内的累积奖励。由于您的环境是随机的,请进行多次测量并取其平均值。

票数 3
EN

Stack Overflow用户

发布于 2016-04-17 12:25:49

看看策略搜索算法。基本上,他们直接学习参数策略,而不需要显式的值函数,从而避免了近似连续动作的Q函数的问题(例如,不需要对动作空间进行离散化)。

策略梯度是最简单、最早的策略搜索算法之一。看一下here,快速了解一下这个话题。和here进行有关策略搜索的调查(目前,有更新的技术,但这是一个很好的起点)。在控制问题的情况下,有一个非常简单的玩具任务,你可以看看,Linear Quadratic Gaussian Regulator (LQG)Here您可以找到包含此示例的讲座,还可以找到策略搜索和策略梯度的介绍。

关于您的第二点,如果您的环境是动态的(即,转移函数(或两者)的奖励函数随时间变化),那么您需要查看非静态策略。这在RL中通常是一个更具挑战性的问题。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36472666

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档