深入的Q-学习,A3C,政策进化的遗传算法,他们都没有学习小行星,或至少表现比人类差得多。根据RL的说法,从最艰难的Atari游戏来看,大部分的焦点都集中在蒙特祖马的复仇上,这显然受到了很少的奖励。然而,我不认为这是小行星(视频)的情况,因为每一颗小行星的射击都会得到奖励。为什么DRL表现那么差?
以下是一些报告小行星上的坏结果的论文(有些文章互相引用):
发布于 2018-02-16 16:54:06
我怀疑是一个bug,或一些微妙的实现细节。
在许多方面,小行星在没有定制设计的情况下尽可能接近理想的环境:
与尚未掌握的DOTA 2相比,OpenAI的复杂度略有降低(1v1而不是5v5),尽管其有序程度比小行星复杂,但仍能取得一些令人印象深刻的结果。
2015年的DQN文件作出了某些妥协,例如:
“按照以前玩Atari2600游戏的方法,我们还使用了一种简单的跳帧技术(15)。更准确地说,代理在每个kth帧上而不是每个帧上看到和选择操作,其最后一个动作在跳过的帧上重复。因为运行仿真器一步比让代理选择一个动作所需的计算要少得多,所以这种技术允许代理在不显著增加运行时的情况下玩大约k倍的游戏。我们在所有游戏中使用k-4。”
作为一个反例,顶级的人类玩家经常在现代格斗游戏中做出单帧级的决定/动作(在60 FPS时呈现在视觉和游戏逻辑上),所以我们知道这种方法并不适用于所有的电子游戏。
我怀疑,尽管这些都是有效的通用方法,但其中一种方法在小行星问题上却严重失败。
这是一个很好的问题,因为诊断小行星造成困难的原因可能会给测试程序或算法设计带来一些强烈的洞察力,因为很明显正在发生一些事情。我认为要想得到准确的答案,就需要解决这个问题。
https://datascience.stackexchange.com/questions/27893
复制相似问题