我终于开发了一个游戏机器人,学习如何玩游戏蛇与深度Q-学习。我尝试了不同的神经网络和超参数,我找到了一个工作装置,为一组特定的奖励。
问题是:当我奖励代理人朝着正确的方向前进时--如果代理人的坐标与食物的坐标相应增加或减少,则奖励积极的奖励--代理人学得很快,获得很高的分数。当我不为此奖励代理人,而只奖励死亡和积极的食物吃,代理人不学习。国家考虑到附近是否有任何危险,如果食物是向上,向下,右或左,以及如果代理人是上,下,右或左。
问题是:在强化学习中,奖励正确方向的行为者是“正确的方法”吗?或者被认为是作弊,因为系统需要自己去学习?把食物的坐标作为一种“欺骗”的另一种方式吗?
发布于 2018-09-20 09:35:39
问题是:在强化学习中,奖励正确方向的行为者是“正确的方法”吗?
这取决于你希望代理人能够自己学习什么。这是一个问题,你在这里,因为你有一个“玩具”问题,你可以控制更多的环境,并改变意义,它意味着什么,赢得。
一般来说,是的,这是“欺骗”,至少在声称已经写了一个解决游戏的RL代理。学术上理想的基本RL代理在解决问题的背景下得到有意义的收益,而没有得到临时奖励的帮助。在一个蛇的游戏中,和任何其他的拱形游戏,它真的应该是官方得分在游戏中,而不是其他。
把食物的坐标作为一种“欺骗”的另一种方式吗?
同样,这取决于您期望代理从哪些方面学习。如果在您的目标生产环境中,这些数据很容易获得,并且您打算使用它来编写一个游戏机器人,根据经过训练的策略工作,那么这是很好的。如果你有一个实际的问题要解决,就不要求你做一件或另一件事。
然而,学习像DQN原始论文中的纯像素状态是有学术意义的,因为这是一种适用于许多问题的通用状态表示,而从蛇到食物的距离是您设计的一个特定功能,它使学习在一组较小的游戏中更容易。
这里的主要问题是,您的目标不是真正地将“蛇机器人”放到生产系统中,而是学习RL是如何工作的。RL是很棘手的,而且通常不像您预期的那么好--或者根本不适用于算法和问题的许多组合。
值得阅读这篇文章:深层强化学习还不起作用 --它可能会将基本的DQN的令人失望的结果放进视野。
我鼓励您去掉Snake问题,删除“有用”的奖励和状态,转而查看对核心DQN算法或不同学习代理(如A3C )的扩展。
https://datascience.stackexchange.com/questions/38526
复制相似问题