文章/答案/技术大牛

发布

社区首页 >问答首页 >演员批判性强化学习算法神经网络体系结构的混淆

问演员批判性强化学习算法神经网络体系结构的混淆
EN

Data Science用户

提问于 2018-07-20 20:23:19

回答 1查看 1.4K关注 0票数 4

我试图了解演员批评家强化学习算法的实现。根据这，动作概率和状态值应该只有一个具有两个头的神经网络。在他们的tensorflow实现这里中也是如此。

但是，如果我提到tensorflow实现(如这和这 )，它们将使用两个nn并分别更新它们。

那么，我的问题是，对于演员批判性算法，神经网络的正确方法是什么？

tensorflow

reinforcement-learning

neural-network

回答 1

Data Science用户

回答已采纳

发布于 2018-07-20 20:52:08

这两种架构都能工作。对于更简单的问题，使用两个单独的网络，对于一个更复杂的问题，例如一个涉及机器视觉的问题，使用组合网络可能更常见。

一般来说，您需要这两个函数-策略和值-是分开的。在从状态到输出的总体映射方面，没有理由期望它们有太多的共同点。然而，如果状态需要大量的非线性解释才能得到有意义的特征，如图像、音频或视频输入，那么如果这两个函数共享较低级别的特征表示，则可能是一个总体好处。这不仅会鼓励人们更好地学习低水平的特性(因为相对于单独的情况，每一步数据的有效训练是数据的两倍)，而且计算也应该更快。

出于类似的原因，如果代理从自然图像中工作，您可以使用一些在ImageNet上训练的模型的上层的预处理功能，也可以使用这种模型的第一层初始化的网络。这可能也适用于其他RL代理，比如DQN --如果这是可行的，那么当您有多个功能要处理时，显然共享网络的那一部分也可以工作。

如果您的状态数据比较简单，例如几个位置和速度，或者策略和值都与状态有简单的关系，那么联合网络可能就不那么有用了。

当策略函数和值函数在共享网络中时，它们可能仍然有多个专用层，因为这两个函数之间没有任何简单的线性关系(一个NN可以自己学习到这一点，但是这个假设足够好，可以通过将网络分成两个分支来硬编码，每个分支在输出前可能有几个隐藏层)。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/35814

复制

相似问题

问演员批判性强化学习算法神经网络体系结构的混淆
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问演员批判性强化学习算法神经网络体系结构的混淆EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问演员批判性强化学习算法神经网络体系结构的混淆
EN