首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我能在Q-学习中设计一个非确定性的奖励函数吗?

我能在Q-学习中设计一个非确定性的奖励函数吗?
EN

Stack Overflow用户
提问于 2019-08-25 09:22:59
回答 1查看 612关注 0票数 1

在Q-学习算法中,有一个奖励函数来奖励在当前状态下所采取的行动。我的问题是,我是否可以有一个不确定的奖励函数,它受状态上的动作执行时间的影响。

例如,假设对时间为1PM的状态采取的行动的奖励是r(s,a)。经过几次迭代(假设现在是下午3点),系统会接触到相同的状态,并执行与1PM相同的操作。下午三时的奖赏应否与下午一时的奖励相同?或者,可以通过考虑时间来设计奖励函数(即,在相同的状态和相同的动作上给予的奖励,但在不同的时间可能是不同的)。

以上是我想问的问题,还有一件事我想说的是,我不想把时间当作一种状态的特征。这是因为在这种情况下,状态不可能是相同的(时间总是在增加)。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-26 07:07:51

我的第一句话是你的最后一句话,也就是把时间作为国家的一部分。正如你所说,时间总是在增加,但也是周期性的。所以,也许你的奖励功能可能取决于时间的一些重复特征。例如,在某个时刻,每天下午3点。

另一方面,报酬函数可以是随机的,不受确定性函数的限制。但是,考虑到策略将倾向于优化预期收益。因此,如果你的代理人每次访问相同的状态,动作对时都会得到完全不同的奖励,那么你在建模环境的方式上可能有问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57644787

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档