我正在尝试用Java从头开始制作一个学习型足球游戏,并尝试使用Google DeepMind的深度Q学习算法(虽然没有卷积网络)来实现强化学习。我已经构建了神经网络和Q学习,现在我试图将它们总结在一起,但在这段代码中有一些我不理解的东西。
是什么意思?
预处理序列化Φ1 =Φ(s1) (第4行)
我就是弄不明白Φ在这个算法中代表什么。
发布于 2016-10-07 19:33:00
https://stackoverflow.com/questions/39848984
相似问题