搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

设置openai健身房

我的任务是搭建一个openai玩具健身房，只有有记忆力的智能体才能解决这个问题。我被给出了一个有两个门的例子，在时间t=0时，我被显示为1或-1。在t=1时，我可以移动到正确的门并打开它。

浏览 2提问于2018-08-31得票数 2

1回答

Anylogic中基于优先级的队列

如果palletRack中有10个代理，我想首先选择所有拥有priority=1的代理。在当前的流程图中，我的问题是:拥有priority=0的智能体在拥有priority=1的智能体之前被接收，可能是因为智能体一个接一个地进入和离开队列块，所以多个智能体没有同时出现在队列块中，以便对它们进行排序

浏览 72提问于2021-05-06得票数 0

回答已采纳

1回答

强化学习中状态、Q和R矩阵的定义

参考的主要书籍：和1)在这种情况下，从点A到点B需要多少个状态？如何定义Q和R矩阵?List_Ego_pos_temp是一个临时列表，存储了智能体的所有位置。此外，假设有1

浏览 2修改于2018-08-08得票数 0

1回答

策略梯度操作维度

我的环境是智能体需要选择一个方向(360度)，然后选择步数(10步)。在这种环境下，智能体可以选择的动作空间中将有3600个不同的动作，这将需要大量的片段来训练智能体，并且会造成资源的浪费。

浏览 10提问于2019-10-03得票数 0

1回答

Berkeley Pac-Man项目:功能除以10

我正忙着为吃豆人游戏编写强化学习智能体，偶然发现了伯克利的CS课程的吃豆人项目，特别是。对于近似Q学习智能体，使用特征近似。在中实现了一个简单的提取器。我很好奇的是，为什么在功能返回之前，它们被缩小了10？通过运行没有因子10的解决方案，您可以注意到Pac-Man的表现明显更差，但为什么呢？

浏览 5提问于2013-05-04得票数 0

2回答

网格世界是这样指定的，即智能体可以在任何给定的状态下以相等的概率采取动作{N，E，W，S}，并且所有动作的奖励都是0，除非智能体试图移出网格，在这种情况下是-1。有两个特殊的状态，A和B，其中智能体将确定性地分别移动到A‘和B’，奖励分别为+10和+5。我的问题是，我将如何通过Q学习来实现这一点。我希望能够通过矩阵求逆来估计值函数。智能体开始于某个初始状态，不知道任何事情，然后采取由epsilon-greedy算法选择的操作，并获得

浏览 1提问于2015-04-24得票数 0

1回答

强化学习的时间步长

对于我在强化学习中的第一个项目，我试图训练一个智能体来玩实时游戏。这意味着环境不断地移动和变化，因此代理需要精确地确定它的时间。为了有一个正确的序列，我认为智能体必须以一定的频率工作。我的意思是，如果智能体有10 has的频率，它将不得不每0.1秒接受一次输入并做出决定。然而，我找不到任何关于这个问题/问题的来源，但这可能是因为在我的搜索中没有使用正确的术语。

浏览 0修改于2020-02-04得票数 0

2回答

如何在没有中间奖励的情况下解决FrozenLake OpenAI-Gym环境？

在这两种情况下，在智能体达到目标之前，都没有奖励，甚至没有负奖励。即使智能体掉进了冰层，也不会有负面的奖励--尽管这一集结束了。没有奖励，什么也学不到！每一集都是从头开始的，没有从之前的几集中受益。但假设你使用RL，一种方法是一步走到一个冻结的正方形(这不是目标)奖励-1，一步进洞奖励-10。-1将允许代理学习不重复正方形。-10将允许代理学习避免漏洞。

浏览 0提问于2018-07-09得票数 4

1回答

具有状态-动作-状态奖励结构和以状态为行、动作为列的Q矩阵的Q学习

根据智能体所处的特定状态和智能体随后采取的动作，存在向下一状态的转变的唯一分布，即，到任何下一状态的转变概率(仅)依赖于前一状态以及随后采取的动作。在每一集中，智能体将从状态1开始。智能体的转移概率矩阵是静态的，奖励矩阵也是静态的。我已经将Q矩阵设置为10行乘以11列的矩阵，即所有10个状态都

浏览 61修改于2018-12-24得票数 0

回答已采纳

1回答

AnyLogic:如何设置超出范围的行人舒适速度

我想使用步行库来模拟车辆的行为，因此，我想将智能体的舒适速度设置为70 is /h。但是，有一个错误说速度必须在0 0mps，10 0mps内。有没有办法设置我想要的任何速度？剑南

浏览 10提问于2018-03-23得票数 0

2回答

加速特定sqlite查询的正确方法

在这个模拟中，智能体的移动和移动，以及坐标和时间步长，被记录在sqlite数据库中。当模拟完成时，我需要显示智能体在某个时间的位置。记录数量:时间步数高达50.000，代理可以高达10.000，移动频率可以达到1/10的时间步长。因此，在一个大型模拟中，我们可能有大约5.000个移动，10.000个代理= 5M个移动记录。

浏览 1修改于2019-02-26得票数 0

1回答

Dialogflow在语音到文本上乱花钱

我有一个代理可以识别这样的句子：今天我在星巴克花了10美元我试着训练智能体

浏览 0提问于2018-09-25得票数 0

2回答

处理时的二维数组位置轨迹

这是我用processing写的一个不完整的TILEWORLD游戏，它包含20个障碍物，10个洞，10个瓷砖和一个代理。智能体随机移动，其他物体不移动。在agentmove函数中，智能体进入障碍物，它停止，但我希望智能体避免进入障碍物，那么我如何跟踪智能体以前的位置，如果智能体的下一步是障碍物所在的位置，它就会避开它？int min_x = 0;i

浏览 0提问于2016-03-03得票数 0

1回答

获取其他智能体的相对坐标

以这样一种尊重世界包装的方式获得一个智能体相对于另一个智能体的坐标的最好方法是什么？如果我们在xcor = 5有turtle 0，在xcor = -5有turtle 1，那么[ relative-xcor turtle 1 ] of turtle 0会给出-10，而正确的答案是1 (由于世界包装

浏览 11修改于2018-01-21得票数 0

1回答

Tensorflow损失已经很低

我正在做一个强化学习的人工智能，我得到了奇怪的结果，损失显示如下: Tensorflow损失：基本上，我正在做一个强化学习智能体，学习扮演奥赛罗。在这个例子中，智能体从10万个专业游戏中学习。

浏览 15提问于2017-12-26得票数 1

回答已采纳

1回答

行政报告-微观战略

我已经创建了10份报告，比如A、B、C、D、....etc。我有5个终端用户。我想知道有多少最终用户已经访问了这些报告，.Also有一些智能立方体，我想知道有多少最终用户已经自己创建了报告。

浏览 2修改于2015-03-30得票数 0

回答已采纳

1回答

为什么要限制连续的动作？

在深度强化学习中，使用连续的动作空间，为什么在智能体执行之前夹住动作似乎是一种常见的做法？OpenAI健身房山地车信息丢失不是这样做的吗？例如，如果模型输出速度为+10 (移动)，然后将其钳制为+1，则动作本身的行为相当离散(仅与其执行有关)。对于细粒度的移动，将输出乘以0.1不是更有意义吗？

浏览 20修改于2019-11-11得票数 1

1回答

对于这种大小的问题(大的动作/状态空间)，MonteCarloTreeSearch是合适的方法吗？

在每个时间步t中，当智能体处于状态S(t)∈s(t)时，(唯一的)智能体必须选择一个动作A(t)∈a(t)。在状态s(t)中选择的动作a(t)影响到下面的状态s(t+1)的转换。在我的例子中，以下条件成立: A(t)=A和S(t)=S，而A的大小是6000000，S的大小是10^8。此外，转移函数是随机的。

浏览 24提问于2019-01-09得票数 3

1回答

Anylogic-如何计算行人之间的距离

但是我不知道如何选择行人智能体，以及如何计算它们之间的距离。我的意思是，如果有10个行人(id: 1，2，3...)，如何得到1和2，1和3，2和3 ...every秒之间的距离？

浏览 183提问于2021-11-22得票数 1

回答已采纳

1回答

Omnett++模拟中环境对象的自动生成

我将使用Omnet++模拟一个智能家居照明系统。为此，我需要为要在其上模拟网络的特定建筑绘制平面图。如果有人知道如何自动生成包含对象的XML文件，或者这是唯一的方法，那就是乏味地编写数百行代码，如下所示： object position="min 21 15.5 0“orientation="0 0 0”shape=“长方体10

浏览 0提问于2019-11-10得票数 0

第 2 页第 3 页第 4 页第 5 页

点击加载更多

设置openai健身房

Anylogic中基于优先级的队列

强化学习中状态、Q和R矩阵的定义

策略梯度操作维度

Berkeley Pac-Man项目:功能除以10

Q学习转移矩阵

强化学习的时间步长

如何在没有中间奖励的情况下解决FrozenLake OpenAI-Gym环境？

具有状态-动作-状态奖励结构和以状态为行、动作为列的Q矩阵的Q学习

AnyLogic:如何设置超出范围的行人舒适速度

加速特定sqlite查询的正确方法

Dialogflow在语音到文本上乱花钱

处理时的二维数组位置轨迹

获取其他智能体的相对坐标

Tensorflow损失已经很低

行政报告-微观战略

为什么要限制连续的动作？

对于这种大小的问题(大的动作/状态空间)，MonteCarloTreeSearch是合适的方法吗？

Anylogic-如何计算行人之间的距离

Omnett++模拟中环境对象的自动生成

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐