问我能在Q-学习中设计一个非确定性的奖励函数吗？
EN

Stack Overflow用户

提问于 2019-08-25 09:22:59

回答 1查看 612关注 0票数 1

在Q-学习算法中，有一个奖励函数来奖励在当前状态下所采取的行动。我的问题是，我是否可以有一个不确定的奖励函数，它受状态上的动作执行时间的影响。

例如，假设对时间为1PM的状态采取的行动的奖励是r(s，a)。经过几次迭代(假设现在是下午3点)，系统会接触到相同的状态，并执行与1PM相同的操作。下午三时的奖赏应否与下午一时的奖励相同？或者，可以通过考虑时间来设计奖励函数(即，在相同的状态和相同的动作上给予的奖励，但在不同的时间可能是不同的)。

以上是我想问的问题，还有一件事我想说的是，我不想把时间当作一种状态的特征。这是因为在这种情况下，状态不可能是相同的(时间总是在增加)。

回答已采纳

发布于 2019-08-26 07:07:51

我的第一句话是你的最后一句话，也就是把时间作为国家的一部分。正如你所说，时间总是在增加，但也是周期性的。所以，也许你的奖励功能可能取决于时间的一些重复特征。例如，在某个时刻，每天下午3点。

另一方面，报酬函数可以是随机的，不受确定性函数的限制。但是，考虑到策略将倾向于优化预期收益。因此，如果你的代理人每次访问相同的状态，动作对时都会得到完全不同的奖励，那么你在建模环境的方式上可能有问题。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57644787

复制

相似问题

问我能在Q-学习中设计一个非确定性的奖励函数吗？EN