这个问题是询问有关使用deepmind库的指导/建议/帮助:https://github.com/deepmind/lab或https://www.tensorflow.org/在Python中。
考虑到我是新的概念,如深入学习和人工智能。
问题如下:
使用一种类似于本页描述的方法(https://deepmind.com/blog/open-sourcing-deepmind-lab/),基于观察、行动、奖励等,我想调用一个学习代理来选择一些价值。我在想这样的事情:
补充说明:
输入的内容如下(只有数字):
edge: (1, 2), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (0, 1), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (5, 4), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (6, 7), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (3, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (4, 1), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (8, 5), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (3, 8), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (2, 3), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (5, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (0, 5), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (1, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (9, 6), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (0, 3), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (7, 9), face_down: 3, face_up: 5, face_left: 5, face_right: 5这样做的目的是使用同样的deepmind来玩游戏,而不是分析像素和使用pad (上、下、左、右、火、跳),而是让学习代理分析一些数学值,作为唯一的行动,选择其中一个。
是否有其他方法或库/框架来解决这一问题?

发布于 2018-08-21 15:49:29
在你的例子中,你似乎在做一个与背景有关的强盗问题。用Bellman方程来解决你的问题应该非常简单。
算法将如下所示:
1)把你的数学值(州)灌输给你的强盗。
2)让你的强盗选择它认为是最好的行动(在开始时,这将是随机的)。
3)在给予这些国家的情况下,因执行该行动而获得奖励。
在这里可以找到编码和实现的一个快速示例:
您只需更改奖励设置和状态设置即可。
https://stackoverflow.com/questions/42809054
复制相似问题