文章/答案/技术大牛

发布

社区首页 >问答首页 >小批RL

问小批RL
EN

Stack Overflow用户

提问于 2018-12-20 07:49:51

回答 2查看 920关注 0票数 0

我刚刚读了Mnih (2013)的报纸，我真的很想知道他所说的使用RMSprop和32大小的小型机的方面(第6页)。

我对这类强化学习算法的理解是，每一次训练只有一个或至少很少的训练样本，在每一次训练中我都更新网络。而在监督学习中，我有多达数百万个样本，并将它们分成小批，例如32，然后在每一小批之后更新网络，这是有意义的。

所以我的问题是:如果我一次只把一个样本放入神经网络，那么小型批次又有什么意义呢？我明白这个概念有什么不对吗？

提前感谢！

reinforcement-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-12-20 15:34:11

本文介绍了用深度神经网络函数逼近器来稳定Q学习方法的两种机制。其中一种机制叫做经验回放，它基本上是观察到的经验的记忆缓冲器。你可以在第四页的末尾找到论文中的描述。与其从您刚才看到的单一体验中学习，不如将其保存到缓冲区中。学习是每N次迭代完成的，您可以从回放缓冲区中随机抽取一小批体验。

票数 0

Stack Overflow用户

发布于 2018-12-20 16:47:28

菲利普的回答是正确的。只是为了增加他的答案的直觉，一个经验重播被使用的原因是去整理RL所经历的经验。当使用非线性函数逼近(如神经网络)时，这是必不可少的.

试想一下，如果你有10天的时间来参加化学和数学考试，而这两次考试都在同一天进行。如果你把头5天花在化学上，花5天在数学上，你就会忘记大部分你学过的化学。神经网络的行为类似。

通过整理经验，可以通过培训数据确定更一般的策略。

在训练神经网络的过程中，我们有一批记忆(即数据)，我们从它们中随机抽取32个小批的样本进行监督学习，就像其他神经网络被训练一样。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53864434

复制

相似问题

问小批RL
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问小批RLEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问小批RL
EN