我是与Q-学习,并希望一个3D政策梯度是完全空的,直到人工智能需要访问它。
这是因为我的状态是三个输入,每个输入都可以是从1到无穷的任意整数,每一个大于1的数字都越来越不可能。
希望这是可能的。我也不是在寻找代码交给我,只是希望有人能指出我的正确方向。
policyGradient = [][][]
policyGradient[5][10][15] = 0.5
print(policyGradient[5][10][15]) // Expected output being 0.5. 谢谢!
发布于 2019-12-16 03:14:08
您可以使用dict dicts,但如果不需要对任何特定状态输入进行索引,则只需使用带键元组的dict:
gradient = dict()
gradient[5,10,15] = 0.5发布于 2019-12-16 03:14:17
有点烦人
import collections
magic = lambda:collections.defaultdict(magic)
dd = magic()
dd[5] = 6
dd[6][7][7]=67
print(dd[6][7][7])https://stackoverflow.com/questions/59350050
复制相似问题