首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Tf-agent环境中_observation_spec的形状和_action_spec的形状

Tf-agent环境中_observation_spec的形状和_action_spec的形状
EN

Stack Overflow用户
提问于 2021-07-03 18:48:05
回答 1查看 165关注 0票数 1

TF-代理环境的tensorflow文档中,有一个简单的扑克牌游戏环境的例子。

init如下所示:

代码语言:javascript
复制
class CardGameEnv(py_environment.PyEnvironment):

  def __init__(self):
    self._action_spec = array_spec.BoundedArraySpec(
        shape=(), dtype=np.int32, minimum=0, maximum=1, name='action')
    self._observation_spec = array_spec.BoundedArraySpec(
        shape=(1,), dtype=np.int32, minimum=0, name='observation')
    self._state = 0
    self._episode_ended = False

动作规范只允许0(不要求一张卡)或1(请求一张卡片),所以它的形状是shape=() (只需要一个整数)。

但是,我不太明白观察规范的形状是shape=(1,),因为它只是表示当前一轮中的卡片之和(所以也是一个整数)。

是什么解释了形状的不同?

EN

回答 1

Stack Overflow用户

发布于 2021-07-27 14:02:06

一开始我以为他们是一样的。为了测试它们,我在W3学校Python的“尝试编辑器”(我通过这个链接访问了它)上运行了以下代码:

代码语言:javascript
复制
import numpy as np

arr1 = np.zeros((), dtype=np.int32)
arr2 = np.zeros((1), dtype=np.int32)

print("This is the first array:", arr1, "\n")
print("This is the second array:", arr2, "\n")

我得到的输出是:

代码语言:javascript
复制
This is the first array: 0

This is the second array: [0] 

这使我得出结论,shape=()是一个简单的整数,被视为一个0-D数组,但shape=(1,)是一个由单个整数组成的一维数组。我希望这是准确的,因为我想要一些确认自己。在第二次测试中进一步检查这一点:

代码语言:javascript
复制
import numpy as np

arr1 = np.array(42)
arr2 = np.array([1])
arr3 = np.array([1, 2, 3, 4])

print(arr1.shape)
print(arr2.shape)
print(arr3.shape)

产出如下:

代码语言:javascript
复制
()
(1,)
(4,)

这似乎证实了我首先得出的结论,因为arr1是一个0-D数组,而arr3是一个由4个元素组成的一维数组(正如W3学校教程中所解释的),而数组arr2的形状与arr3相似,但元素数不同。

至于为什么将动作和观察分别表示为一个元素的整数和数组,这可能是因为TensorFlow使用张量(n维数组)工作,而将观察看作数组可能更容易计算。

该操作声明为整数,可能是为了简化_step()函数中的流程流,因为使用if/elif/else结构的数组会更加繁琐。其他例子 of action_specs具有更多的元素和离散/连续的值,因此没有想到其他的东西。

我不确定所有这些都是正确的,但似乎是一个好点,至少开始讨论。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68239110

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档