文章/答案/技术大牛

发布

社区首页 >问答首页 >基于强化学习的神经网络训练

问基于强化学习的神经网络训练
EN

Stack Overflow用户

提问于 2012-05-23 14:27:54

回答 2查看 29.4K关注 0票数 67

我知道前馈神经网络的基本知识，以及如何使用反向传播算法来训练它们，但我正在寻找一种比我能用来训练神经网络的强化学习的算法。

例如，手推车杆摆动问题是我想用人工神经网络解决的问题。在这种情况下，我不知道应该做什么来控制钟摆，我只知道我离理想的位置有多近。我需要让安在奖惩的基础上学习。因此，监督学习不是一种选择。

另一种情况类似于蛇游戏，在这种情况下，反馈被延迟，只限于目标和反目标，而不是奖励。

对于第一种情况，我可以想到一些算法，比如爬山或遗传算法，但我猜它们都会很慢。它们也可能适用于第二种情况，但速度慢得令人难以置信，不利于在线学习。

我的问题很简单：是否有一个简单的算法来训练带有强化学习的人工神经网络？我主要感兴趣的是实时奖励情况，但是如果有一种基于目标的情况下的算法，那就更好了。

language-agnostic

machine-learning

neural-network

reinforcement-learning

algorithm

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-05-23 14:42:13

有一些关于这一主题的研究论文：

基于进化神经网络拓扑的有效强化学习(2002)
基于神经网络的强化学习及其在电机控制中的应用
自主移动机器人避障问题的强化学习神经网络

还有一些代码：

用于神经网络强化学习的代码示例。

这些只是谷歌在这个话题上的一些顶级搜索结果。前几篇论文看上去很不错，虽然我还没有亲自读过。我认为，如果你在谷歌奖学金上快速搜索，你会发现更多关于神经网络的信息。

票数 31

Stack Overflow用户

发布于 2012-05-23 14:42:29

如果导致奖励r的输出被反向传播到网络r时间，则您将按比例加强网络与奖励。这并不直接适用于负面回报，但我可以想到两种解决方案，它们将产生不同的效果：

1)如果您在rmin范围内有一组奖励，请将它们降到0-(rmax-rmin)，以便它们都是非负的。奖励越大，所创造的强化力量就越强。

2)对于负报酬-r，只要它不同于导致负报酬的输出，就可以反向传播随机输出r次数。这不仅会加强理想的产出，而且还会扩散或避免不良产出。

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10722064

复制

相似问题

问基于强化学习的神经网络训练
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于强化学习的神经网络训练EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于强化学习的神经网络训练
EN