只要给你的网络一个奖励-1的崩溃和奖励+1一旦敌人崩溃。没有敌人的话，一击就能得到-1的奖励。在某些情况下，拥有一个小的、持续的、积极的生活回报是有益的(比如网络必须在两个不可避免的崩溃之间做出决定，其中一个会比另一个更快地发生)，但它也会使q函数的学习更加复杂。你可以在没有固定报酬的情况下试一试，看看什么是最有效的。

这个不可避免的崩溃的例子也说明了为什么你不应该使用一个小的负面的生活回报。在这种情况下，网络将选择最快的崩溃路径，而在这种情况下，尽可能推迟崩溃将是更好的策略。

票数 1

Stack Overflow用户

发布于 2017-05-05 15:23:10

当奖励函数准确地编码了你希望代理人追求的目标时，这才是最好的。在曲线热中，目标是成为最后一个活着的球员。如果你使用奖励函数来奖励留在游戏中的人，最好的策略就是无限期地把游戏画出来。你可能希望经纪人尽快获胜，所以你应该给出一个小的负面奖励，每一个时间步骤和一些积极的奖励赢得一轮。这是一个快速赢得奖励的功能。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43804248

复制

相似问题

问利用DQN学习玩曲线发热游戏的奖励函数
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用DQN学习玩曲线发热游戏的奖励函数EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用DQN学习玩曲线发热游戏的奖励函数
EN