最近,我读了很多关于神经网络Q学习的文章,并考虑更新发电厂锅炉中现有的旧优化系统,该系统由一个简单的前馈神经网络组成,该网络近似于来自许多感官输入的输出。然后,输出连接到基于线性模型的控制器,该控制器以某种方式再次输出最优动作,因此整个模型可以收敛到期望的目标。
识别线性模型是一项消耗资源的任务。我想把整个东西翻新成无模型的Q学习,用Q函数的神经网络近似。我画了一个图表来问你我是不是在正确的轨道上。

我的问题:如果你认为我很好地理解了这个概念,我的训练集应该由来自一侧的State Features vectors和Q_target - Q_current (这里我假设有一个递增的奖励)组成,以便迫使整个模型朝着目标前进,或者我错过了什么?
注意:该图显示了上半部分的旧系统与我在下半部分提出的更改之间的比较。
编辑:状态神经网络保证体验回放吗?
发布于 2016-11-16 19:43:37
您可能只使用当前状态下所有操作的所有Q值作为网络中的输出层。here是一个画得很差的图
因此,您可以利用NN一次输出多个Q值的能力。然后,只需使用Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a)导出的损失返回支持,其中max(Q(s', a'))可以很容易地从输出层计算出来。
如果你还有其他问题,请告诉我。
https://stackoverflow.com/questions/40158232
复制相似问题