文章/答案/技术大牛

发布

问强化学习的边界
EN

Data Science用户

提问于 2018-09-20 09:12:59

回答 1查看 258关注 0票数 1

我终于开发了一个游戏机器人，学习如何玩游戏蛇与深度Q-学习。我尝试了不同的神经网络和超参数，我找到了一个工作装置，为一组特定的奖励。

问题是:当我奖励代理人朝着正确的方向前进时--如果代理人的坐标与食物的坐标相应增加或减少，则奖励积极的奖励--代理人学得很快，获得很高的分数。当我不为此奖励代理人，而只奖励死亡和积极的食物吃，代理人不学习。国家考虑到附近是否有任何危险，如果食物是向上，向下，右或左，以及如果代理人是上，下，右或左。

问题是:在强化学习中，奖励正确方向的行为者是“正确的方法”吗？或者被认为是作弊，因为系统需要自己去学习？把食物的坐标作为一种“欺骗”的另一种方式吗？

reinforcement-learning

machine-learning

python

deep-learning

keras

回答 1

Data Science用户

回答已采纳

发布于 2018-09-20 09:35:39

问题是:在强化学习中，奖励正确方向的行为者是“正确的方法”吗？

这取决于你希望代理人能够自己学习什么。这是一个问题，你在这里，因为你有一个“玩具”问题，你可以控制更多的环境，并改变意义，它意味着什么，赢得。

一般来说，是的，这是“欺骗”，至少在声称已经写了一个解决游戏的RL代理。学术上理想的基本RL代理在解决问题的背景下得到有意义的收益，而没有得到临时奖励的帮助。在一个蛇的游戏中，和任何其他的拱形游戏，它真的应该是官方得分在游戏中，而不是其他。

把食物的坐标作为一种“欺骗”的另一种方式吗？

同样，这取决于您期望代理从哪些方面学习。如果在您的目标生产环境中，这些数据很容易获得，并且您打算使用它来编写一个游戏机器人，根据经过训练的策略工作，那么这是很好的。如果你有一个实际的问题要解决，就不要求你做一件或另一件事。

然而，学习像DQN原始论文中的纯像素状态是有学术意义的，因为这是一种适用于许多问题的通用状态表示，而从蛇到食物的距离是您设计的一个特定功能，它使学习在一组较小的游戏中更容易。

这里的主要问题是，您的目标不是真正地将“蛇机器人”放到生产系统中，而是学习RL是如何工作的。RL是很棘手的，而且通常不像您预期的那么好--或者根本不适用于算法和问题的许多组合。

值得阅读这篇文章：深层强化学习还不起作用 --它可能会将基本的DQN的令人失望的结果放进视野。

我鼓励您去掉Snake问题，删除“有用”的奖励和状态，转而查看对核心DQN算法或不同学习代理(如A3C )的扩展。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/38526

复制

相似问题

问强化学习的边界
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习的边界EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习的边界
EN