首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >演员批判性强化学习算法神经网络体系结构的混淆

演员批判性强化学习算法神经网络体系结构的混淆
EN

Data Science用户
提问于 2018-07-20 20:23:19
回答 1查看 1.4K关注 0票数 4

我试图了解演员批评家强化学习算法的实现。根据,动作概率和状态值应该只有一个具有两个头的神经网络。在他们的tensorflow实现这里中也是如此。

但是,如果我提到tensorflow实现(如 ),它们将使用两个nn并分别更新它们。

那么,我的问题是,对于演员批判性算法,神经网络的正确方法是什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-07-20 20:52:08

这两种架构都能工作。对于更简单的问题,使用两个单独的网络,对于一个更复杂的问题,例如一个涉及机器视觉的问题,使用组合网络可能更常见。

一般来说,您需要这两个函数-策略和值-是分开的。在从状态到输出的总体映射方面,没有理由期望它们有太多的共同点。然而,如果状态需要大量的非线性解释才能得到有意义的特征,如图像、音频或视频输入,那么如果这两个函数共享较低级别的特征表示,则可能是一个总体好处。这不仅会鼓励人们更好地学习低水平的特性(因为相对于单独的情况,每一步数据的有效训练是数据的两倍),而且计算也应该更快。

出于类似的原因,如果代理从自然图像中工作,您可以使用一些在ImageNet上训练的模型的上层的预处理功能,也可以使用这种模型的第一层初始化的网络。这可能也适用于其他RL代理,比如DQN --如果这是可行的,那么当您有多个功能要处理时,显然共享网络的那一部分也可以工作。

如果您的状态数据比较简单,例如几个位置和速度,或者策略和值都与状态有简单的关系,那么联合网络可能就不那么有用了。

当策略函数和值函数在共享网络中时,它们可能仍然有多个专用层,因为这两个函数之间没有任何简单的线性关系(一个NN可以自己学习到这一点,但是这个假设足够好,可以通过将网络分成两个分支来硬编码,每个分支在输出前可能有几个隐藏层)。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/35814

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档