我目前正在学习强化学习中的策略梯度下降。博士,我的问题是:“在理论和实践中,对报酬函数的限制是什么?对于下面的情况,什么是好的奖励函数?”。
详细信息:我想实现一个神经网络,它应该学会使用策略梯度下降来玩一个简单的棋盘游戏。我将省略神经网络的细节,因为它们并不重要。策略梯度下降的损失函数,据我所知,它是负日志可能性:loss = - avg(r * log(p))
我现在的问题是如何定义奖励r?因为游戏可以有3种不同的结果:赢、输或平局--这似乎是一个很自然的选择:1赢1,1平局,1输(以及那些导致这些结果的行动的折扣价值)。
然而,在数学上,我有疑问:
赢得奖励: 1 -这似乎是有道理的。这应该把概率推到1,对于渐变渐变的赢球,概率越接近1。
抽奖奖励: 0 -这似乎没有意义。这只会抵消方程中的任何概率,不应该有学习的可能(因为梯度应该始终是0)。
损失奖励:-1 -这应该是种工作。对于涉及损失的移动,它应该将概率提高到0。然而,我担心的是梯度的不对称性与胜利的情况相比。概率越接近0,梯度越大。我担心,这会对避免损失的政策产生极强的偏见--在某种程度上,胜利信号无关紧要。
发布于 2018-06-29 18:05:01
你走在正确的轨道上。然而,我相信你把奖励和行动概率混为一谈。在抽签的情况下,它了解到,在情节结束时,奖励本身是零。然而,在损失的情况下,损失函数是折现报酬(应该是-1)的行为概率。因此,它会让你更多地走向以赢和输而结束的行动,以平局为结束的行为落在中间。直观地说,它非常类似于有监督的深度学习,只是附加了一个附加的加权参数(奖励)。
另外,我相信Google DeepMind的这篇文章会对你有用:https://arxiv.org/abs/1712.01815。他们实际上谈论用RL解决国际象棋问题。
https://stackoverflow.com/questions/51092769
复制相似问题