首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在深度强化学习中,神经网络的设计是否有经验法则?

在深度强化学习中,神经网络的设计是否有经验法则?
EN

Data Science用户
提问于 2019-02-08 06:09:06
回答 3查看 199关注 0票数 3

在深入学习中,我们可以用损失函数值来评估模型的性能,并通过K倍交叉验证等方法来提高模型的性能。但是,如何设计和优化神经网络在深度强化学习中的应用呢?我们可以用奖励等来评估强化学习算法本身的性能,但是如何保证神经网络在强化学习算法中的应用是好的还是坏的呢?

EN

回答 3

Data Science用户

发布于 2019-02-08 15:55:06

强化学习的过程已经意味着你有一个基础模型可供工作,这就是你要加强的。所以,想必,这个底层模型已经很好了,否则你就不会使用它了,对吗?

强化学习的全部目的是将您的(功能)模型引入到新的信息和/或不断变化的环境中。强化学习不会把一个坏的模型变成一个好的模型。如果您的基本模型没有达到您满意的效果,那么您应该回到模型设计/选择阶段;在这种情况下,强化学习不会对您有所帮助。

票数 0
EN

Data Science用户

发布于 2019-03-11 10:42:56

我们可以用奖励等来评估强化学习算法本身的性能,但是如何保证神经网络在强化学习算法中的应用是好的还是坏的呢?

神经网络的“善”正是通过来自环境的奖励信号传递给我们的。毕竟,神经网络(至少是间接的)决定了代理所采取的行动。任何不理想的行为都会导致更低的回报。该信息通过所使用的RL算法反向传播到神经网络的权重。

例如,如果我们使用一个值网络,并且我们试图最小化经验和预测返回之间的误差,那么我们可以对参数w执行随机梯度下降

\begin{align}w_{t+1} &\doteq w_t - \frac{1}{2}\alpha\nabla_{w_t}\left[G_t-\hat{v}(S_t,w_t)\right]^2\\ &= w_t + \alpha\left[G_t-\hat{v}(S_t,w_t)\right]\nabla_{w_t}\hat{v}(S_t,w_t) \end{align}

(一旦神经网络能够很好地预测其行为的结果,它就可以开始通过广义策略迭代优化自己的行为。)

票数 0
EN

Data Science用户

发布于 2022-02-18 13:01:00

在强化学习(RL)模型中使用的神经网络可以用一段时间内的报酬来评估。积累更多报酬的神经网络比在相同时间内积累较少报酬的另一个神经网络要好。

实验和改进RL神经网络的过程通常需要更长的时间,因为RL的学习过程通常较长。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/45243

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档