经典强化学习(如香草Q-学习)通常不适用于游戏。对于经典的RL基准(例如平衡杆),有一些环境可供使用(并进行研究),如OpenAI健身房。它可以扩展到您自己的基准环境中。
然而,游戏是深度强化学习算法的标准测试平台。最流行的方法可能是使用阿塔里小游戏。我相信它们在DeepMind的里程碑式文章DeepMind之后在RL从业者中得到了广泛的推广。您可以在github中的Atari模拟器(例如这和这)上找到RL环境的多个实现。
另一个流行的深RL游戏测试环境是星际争霸。DeepMind开源了他们的星际争霸RL环境。