首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么Q-learning在未知的环境中工作?

为什么Q-learning在未知的环境中工作?
EN

Stack Overflow用户
提问于 2016-10-31 18:39:32
回答 1查看 1.2K关注 0票数 1

Q-learning使用即时奖励矩阵R对环境进行建模。这意味着它使用一个已知的矩阵R进行学习,那么为什么人们说"Q-learning可以在未知的环境中工作“?

EN

回答 1

Stack Overflow用户

发布于 2016-11-05 23:19:41

Q-Learning是一种在马尔可夫决策过程(MDP)中寻找选择最优动作的策略的算法。环境不仅由奖励定义,还由状态转换概率定义。MDP不要求奖励矩阵是固定的:它可以是任何函数。

如果MDP的状态转移概率和奖励对于所有状态和动作都是已知的,那么可以使用动态编程技术找到最优策略,因此您不需要为此进行强化学习。

与动态编程技术不同,Q-Learning在奖励和状态转换概率未知的情况下工作:也就是说,只有在采取行动后才能看到奖励的值。

Q-学习不使用即时奖励矩阵R,它只要求在状态s采取行动a之后,它收到状态s'和奖励值r

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40340518

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档