首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >强化学习中策略梯度下降的奖励函数

强化学习中策略梯度下降的奖励函数
EN

Stack Overflow用户
提问于 2018-06-29 00:29:35
回答 1查看 1K关注 0票数 2

我目前正在学习强化学习中的策略梯度下降。博士,我的问题是:“在理论和实践中,对报酬函数的限制是什么?对于下面的情况,什么是好的奖励函数?”

详细信息:我想实现一个神经网络,它应该学会使用策略梯度下降来玩一个简单的棋盘游戏。我将省略神经网络的细节,因为它们并不重要。策略梯度下降的损失函数,据我所知,它是负日志可能性:loss = - avg(r * log(p))

我现在的问题是如何定义奖励r?因为游戏可以有3种不同的结果:赢、输或平局--这似乎是一个很自然的选择:1赢1,1平局,1输(以及那些导致这些结果的行动的折扣价值)。

然而,在数学上,我有疑问:

赢得奖励: 1 -这似乎是有道理的。这应该把概率推到1,对于渐变渐变的赢球,概率越接近1。

抽奖奖励: 0 -这似乎没有意义。这只会抵消方程中的任何概率,不应该有学习的可能(因为梯度应该始终是0)。

损失奖励:-1 -这应该是种工作。对于涉及损失的移动,它应该将概率提高到0。然而,我担心的是梯度的不对称性与胜利的情况相比。概率越接近0,梯度越大。我担心,这会对避免损失的政策产生极强的偏见--在某种程度上,胜利信号无关紧要。

EN

回答 1

Stack Overflow用户

发布于 2018-06-29 18:05:01

你走在正确的轨道上。然而,我相信你把奖励和行动概率混为一谈。在抽签的情况下,它了解到,在情节结束时,奖励本身是零。然而,在损失的情况下,损失函数是折现报酬(应该是-1)的行为概率。因此,它会让你更多地走向以赢和输而结束的行动,以平局为结束的行为落在中间。直观地说,它非常类似于有监督的深度学习,只是附加了一个附加的加权参数(奖励)。

另外,我相信Google DeepMind的这篇文章会对你有用:https://arxiv.org/abs/1712.01815。他们实际上谈论用RL解决国际象棋问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51092769

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档