问强化学习中策略梯度下降的奖励函数
EN

Stack Overflow用户

提问于 2018-06-29 00:29:35

回答 1查看 1K关注 0票数 2

我目前正在学习强化学习中的策略梯度下降。博士，我的问题是：“在理论和实践中，对报酬函数的限制是什么?对于下面的情况，什么是好的奖励函数？”。

详细信息:我想实现一个神经网络，它应该学会使用策略梯度下降来玩一个简单的棋盘游戏。我将省略神经网络的细节，因为它们并不重要。策略梯度下降的损失函数，据我所知，它是负日志可能性：loss = - avg(r * log(p))

我现在的问题是如何定义奖励r？因为游戏可以有3种不同的结果:赢、输或平局--这似乎是一个很自然的选择:1赢1，1平局，1输(以及那些导致这些结果的行动的折扣价值)。

然而，在数学上，我有疑问：

赢得奖励: 1 -这似乎是有道理的。这应该把概率推到1，对于渐变渐变的赢球，概率越接近1。

抽奖奖励: 0 -这似乎没有意义。这只会抵消方程中的任何概率，不应该有学习的可能(因为梯度应该始终是0)。

损失奖励：-1 -这应该是种工作。对于涉及损失的移动，它应该将概率提高到0。然而，我担心的是梯度的不对称性与胜利的情况相比。概率越接近0，梯度越大。我担心，这会对避免损失的政策产生极强的偏见--在某种程度上，胜利信号无关紧要。

reinforcement-learning

policy-gradient-descent

回答 1

Stack Overflow用户

发布于 2018-06-29 18:05:01

你走在正确的轨道上。然而，我相信你把奖励和行动概率混为一谈。在抽签的情况下，它了解到，在情节结束时，奖励本身是零。然而，在损失的情况下，损失函数是折现报酬(应该是-1)的行为概率。因此，它会让你更多地走向以赢和输而结束的行动，以平局为结束的行为落在中间。直观地说，它非常类似于有监督的深度学习，只是附加了一个附加的加权参数(奖励)。

另外，我相信Google DeepMind的这篇文章会对你有用：https://arxiv.org/abs/1712.01815。他们实际上谈论用RL解决国际象棋问题。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51092769

复制

相似问题

问强化学习中策略梯度下降的奖励函数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习中策略梯度下降的奖励函数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习中策略梯度下降的奖励函数
EN