我正在使用DQN让AI像alpha GO。但我在教授游戏规则方面遇到了麻烦。AI不知道一条规则,“第一次不能把石头放到已经有人住的地方”。每当AI违反这条规则时,我都会尝试给负奖励。但它看起来并不像AI学习规则。我认为教授规则只是浪费时间。请与我分享你的想法。
发布于 2019-05-23 17:49:04
你可以做的是,当你在一个状态's‘时,你有8个可能的动作(所以你的网络有8个输出),但是动作1,2,3是不可执行的,你可以通过手动将状态's’中所有无效动作的目标Q值设置为0来最小化损失。
对于训练步骤,当对应于最大Q值的动作无效时,只需选择一个随机动作,不要忘记将该动作的目标Q值设置为0。
https://stackoverflow.com/questions/56167116
复制相似问题