在TF-代理环境的tensorflow文档中,有一个简单的扑克牌游戏环境的例子。
init如下所示:
class CardGameEnv(py_environment.PyEnvironment):
def __init__(self):
self._action_spec = array_spec.BoundedArraySpec(
shape=(), dtype=np.int32, minimum=0, maximum=1, name='action')
self._observation_spec = array_spec.BoundedArraySpec(
shape=(1,), dtype=np.int32, minimum=0, name='observation')
self._state = 0
self._episode_ended = False动作规范只允许0(不要求一张卡)或1(请求一张卡片),所以它的形状是shape=() (只需要一个整数)。
但是,我不太明白观察规范的形状是shape=(1,),因为它只是表示当前一轮中的卡片之和(所以也是一个整数)。
是什么解释了形状的不同?
发布于 2021-07-27 14:02:06
一开始我以为他们是一样的。为了测试它们,我在W3学校Python的“尝试编辑器”(我通过这个链接访问了它)上运行了以下代码:
import numpy as np
arr1 = np.zeros((), dtype=np.int32)
arr2 = np.zeros((1), dtype=np.int32)
print("This is the first array:", arr1, "\n")
print("This is the second array:", arr2, "\n")我得到的输出是:
This is the first array: 0
This is the second array: [0] 这使我得出结论,shape=()是一个简单的整数,被视为一个0-D数组,但shape=(1,)是一个由单个整数组成的一维数组。我希望这是准确的,因为我想要一些确认自己。在第二次测试中进一步检查这一点:
import numpy as np
arr1 = np.array(42)
arr2 = np.array([1])
arr3 = np.array([1, 2, 3, 4])
print(arr1.shape)
print(arr2.shape)
print(arr3.shape)产出如下:
()
(1,)
(4,)这似乎证实了我首先得出的结论,因为arr1是一个0-D数组,而arr3是一个由4个元素组成的一维数组(正如W3学校教程中所解释的),而数组arr2的形状与arr3相似,但元素数不同。
至于为什么将动作和观察分别表示为一个元素的整数和数组,这可能是因为TensorFlow使用张量(n维数组)工作,而将观察看作数组可能更容易计算。
该操作声明为整数,可能是为了简化_step()函数中的流程流,因为使用if/elif/else结构的数组会更加繁琐。其他例子 of action_specs具有更多的元素和离散/连续的值,因此没有想到其他的东西。
我不确定所有这些都是正确的,但似乎是一个好点,至少开始讨论。
https://stackoverflow.com/questions/68239110
复制相似问题