文章/答案/技术大牛

发布

社区首页 >问答首页 >将旧系统更新为使用神经网络的Q学习

问将旧系统更新为使用神经网络的Q学习
EN

Stack Overflow用户

提问于 2016-10-20 23:09:31

回答 1查看 241关注 0票数 7

最近，我读了很多关于神经网络Q学习的文章，并考虑更新发电厂锅炉中现有的旧优化系统，该系统由一个简单的前馈神经网络组成，该网络近似于来自许多感官输入的输出。然后，输出连接到基于线性模型的控制器，该控制器以某种方式再次输出最优动作，因此整个模型可以收敛到期望的目标。

识别线性模型是一项消耗资源的任务。我想把整个东西翻新成无模型的Q学习，用Q函数的神经网络近似。我画了一个图表来问你我是不是在正确的轨道上。

我的问题:如果你认为我很好地理解了这个概念，我的训练集应该由来自一侧的State Features vectors和Q_target - Q_current (这里我假设有一个递增的奖励)组成，以便迫使整个模型朝着目标前进，或者我错过了什么？

注意:该图显示了上半部分的旧系统与我在下半部分提出的更改之间的比较。

编辑:状态神经网络保证体验回放吗？

python

machine-learning

tensorflow

artificial-intelligence

reinforcement-learning

回答 1

Stack Overflow用户

发布于 2016-11-16 19:43:37

您可能只使用当前状态下所有操作的所有Q值作为网络中的输出层。here是一个画得很差的图

因此，您可以利用NN一次输出多个Q值的能力。然后，只需使用Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a)导出的损失返回支持，其中max(Q(s', a'))可以很容易地从输出层计算出来。

如果你还有其他问题，请告诉我。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40158232

复制

相似问题

问将旧系统更新为使用神经网络的Q学习
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将旧系统更新为使用神经网络的Q学习EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将旧系统更新为使用神经网络的Q学习
EN