腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(82)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
设置openai健身房
我的任务是
搭建
一个openai玩具健身房,只有有记忆力的
智能
体
才能解决这个问题。我被给出了一个有两个门的例子,在时间t=0时,我被显示为1或-1。在t=1时,我可以移动到正确的门并打开它。
浏览 2
提问于2018-08-31
得票数 2
1
回答
Anylogic中基于优先级的队列
如果palletRack中有
10
个代理,我想首先选择所有拥有priority=1的代理。在当前的流程图中,我的问题是:拥有priority=0的
智能
体
在拥有priority=1的
智能
体
之前被接收,可能是因为
智能
体
一个接一个地进入和离开队列块,所以多个
智能
体
没有同时出现在队列块中,以便对它们进行排序
浏览 72
提问于2021-05-06
得票数 0
回答已采纳
1
回答
强化学习中状态、Q和R矩阵的定义
参考的主要书籍:和1)在这种情况下,从点A到点B需要多少个状态?如何定义Q和R矩阵?List_Ego_pos_temp是一个临时列表,存储了
智能
体
的所有位置。此外,假设有
1
浏览 2
修改于2018-08-08
得票数 0
1
回答
策略梯度操作维度
我的环境是
智能
体
需要选择一个方向(360度),然后选择步数(
10
步)。 在这种环境下,
智能
体
可以选择的动作空间中将有3600个不同的动作,这将需要大量的片段来训练
智能
体
,并且会造成资源的浪费。
浏览 10
提问于2019-10-03
得票数 0
1
回答
Berkeley Pac-Man项目:功能除以
10
我正忙着为吃豆人游戏编写强化学习
智能
体
,偶然发现了伯克利的CS课程的吃豆人项目,特别是。 对于近似Q学习
智能
体
,使用特征近似。在中实现了一个简单的提取器。我很好奇的是,为什么在功能返回之前,它们被缩小了
10
?通过运行没有因子
10
的解决方案,您可以注意到Pac-Man的表现明显更差,但为什么呢?
浏览 5
提问于2013-05-04
得票数 0
2
回答
Q学习转移矩阵
网格世界是这样指定的,即
智能
体
可以在任何给定的状态下以相等的概率采取动作{N,E,W,S},并且所有动作的奖励都是0,除非
智能
体
试图移出网格,在这种情况下是-1。有两个特殊的状态,A和B,其中
智能
体
将确定性地分别移动到A‘和B’,奖励分别为+
10
和+5。 我的问题是,我将如何通过Q学习来实现这一点。我希望能够通过矩阵求逆来估计值函数。
智能
体
开始于某个初始状态,不知道任何事情,然后采取由epsilon-greedy算法选择的操作,并获得
浏览 1
提问于2015-04-24
得票数 0
1
回答
强化学习的时间步长
对于我在强化学习中的第一个项目,我试图训练一个
智能
体
来玩实时游戏。这意味着环境不断地移动和变化,因此代理需要精确地确定它的时间。为了有一个正确的序列,我认为
智能
体
必须以一定的频率工作。我的意思是,如果
智能
体
有
10
has的频率,它将不得不每0.1秒接受一次输入并做出决定。然而,我找不到任何关于这个问题/问题的来源,但这可能是因为在我的搜索中没有使用正确的术语。
浏览 0
修改于2020-02-04
得票数 0
2
回答
如何在没有中间奖励的情况下解决FrozenLake OpenAI-Gym环境?
在这两种情况下,在
智能
体
达到目标之前,都没有奖励,甚至没有负奖励。即使
智能
体
掉进了冰层,也不会有负面的奖励--尽管这一集结束了。没有奖励,什么也学不到!每一集都是从头开始的,没有从之前的几集中受益。但假设你使用RL,一种方法是一步走到一个冻结的正方形(这不是目标)奖励-1,一步进洞奖励-
10
。-1将允许代理学习不重复正方形。-
10
将允许代理学习避免漏洞。
浏览 0
提问于2018-07-09
得票数 4
1
回答
具有状态-动作-状态奖励结构和以状态为行、动作为列的Q矩阵的Q学习
根据
智能
体
所处的特定状态和
智能
体
随后采取的动作,存在向下一状态的转变的唯一分布,即,到任何下一状态的转变概率(仅)依赖于前一状态以及随后采取的动作。在每一集中,
智能
体
将从状态1开始。
智能
体
的转移概率矩阵是静态的,奖励矩阵也是静态的。我已经将Q矩阵设置为
10
行乘以11列的矩阵,即所有
10
个状态都
浏览 61
修改于2018-12-24
得票数 0
回答已采纳
1
回答
AnyLogic:如何设置超出范围的行人舒适速度
我想使用步行库来模拟车辆的行为,因此,我想将
智能
体
的舒适速度设置为70 is /h。但是,有一个错误说速度必须在0 0mps,
10
0mps内。有没有办法设置我想要的任何速度?剑南
浏览 10
提问于2018-03-23
得票数 0
2
回答
加速特定sqlite查询的正确方法
在这个模拟中,
智能
体
的移动和移动,以及坐标和时间步长,被记录在sqlite数据库中。 当模拟完成时,我需要显示
智能
体
在某个时间的位置。记录数量:时间步数高达50.000,代理可以高达10.000,移动频率可以达到1/
10
的时间步长。因此,在一个大型模拟中,我们可能有大约5.000个移动,10.000个代理= 5M个移动记录。
浏览 1
修改于2019-02-26
得票数 0
1
回答
Dialogflow在语音到文本上乱花钱
我有一个代理可以识别这样的句子:今天我在星巴克花了
10
美元我试着训练
智能
体
浏览 0
提问于2018-09-25
得票数 0
2
回答
处理时的二维数组位置轨迹
这是我用processing写的一个不完整的TILEWORLD游戏,它包含20个障碍物,
10
个洞,
10
个瓷砖和一个代理。
智能
体
随机移动,其他物体不移动。在agentmove函数中,
智能
体
进入障碍物,它停止,但我希望
智能
体
避免进入障碍物,那么我如何跟踪
智能
体
以前的位置,如果
智能
体
的下一步是障碍物所在的位置,它就会避开它?int min_x = 0;i
浏览 0
提问于2016-03-03
得票数 0
1
回答
获取其他
智能
体
的相对坐标
以这样一种尊重世界包装的方式获得一个
智能
体
相对于另一个
智能
体
的坐标的最好方法是什么?如果我们在xcor = 5有turtle 0,在xcor = -5有turtle 1,那么[ relative-xcor turtle 1 ] of turtle 0会给出-
10
,而正确的答案是1 (由于世界包装
浏览 11
修改于2018-01-21
得票数 0
1
回答
Tensorflow损失已经很低
我正在做一个强化学习的人工
智能
,我得到了奇怪的结果,损失显示如下: Tensorflow损失:基本上,我正在做一个强化学习
智能
体
,学习扮演奥赛罗。在这个例子中,
智能
体
从
10
万个专业游戏中学习。
浏览 15
提问于2017-12-26
得票数 1
回答已采纳
1
回答
行政报告-微观战略
我已经创建了
10
份报告,比如A、B、C、D、....etc。我有5个终端用户。我想知道有多少最终用户已经访问了这些报告,.Also有一些
智能
立方
体
,我想知道有多少最终用户已经自己创建了报告。
浏览 2
修改于2015-03-30
得票数 0
回答已采纳
1
回答
为什么要限制连续的动作?
在深度强化学习中,使用连续的动作空间,为什么在
智能
体
执行之前夹住动作似乎是一种常见的做法?OpenAI健身房山地车信息丢失不是这样做的吗?例如,如果模型输出速度为+
10
(移动),然后将其钳制为+1,则动作本身的行为相当离散(仅与其执行有关)。对于细粒度的移动,将输出乘以0.1不是更有意义吗?
浏览 20
修改于2019-11-11
得票数 1
1
回答
对于这种大小的问题(大的动作/状态空间),MonteCarloTreeSearch是合适的方法吗?
在每个时间步t中,当
智能
体
处于状态S(t)∈s(t)时,(唯一的)
智能
体
必须选择一个动作A(t)∈a(t)。在状态s(t)中选择的动作a(t)影响到下面的状态s(t+1)的转换。在我的例子中,以下条件成立: A(t)=A和S(t)=S,而A的大小是6000000,S的大小是
10
^8。此外,转移函数是随机的。
浏览 24
提问于2019-01-09
得票数 3
1
回答
Anylogic-如何计算行人之间的距离
但是我不知道如何选择行人
智能
体
,以及如何计算它们之间的距离。我的意思是,如果有
10
个行人(id: 1,2,3...),如何得到1和2,1和3,2和3 ...every秒之间的距离?
浏览 183
提问于2021-11-22
得票数 1
回答已采纳
1
回答
Omnett++模拟中环境对象的自动生成
我将使用Omnet++模拟一个
智能
家居照明系统。为此,我需要为要在其上模拟网络的特定建筑绘制平面图。如果有人知道如何自动生成包含对象的XML文件,或者这是唯一的方法,那就是乏味地编写数百行代码,如下所示: object position="min 21 15.5 0“orientation="0 0 0”shape=“长方
体
10
浏览 0
提问于2019-11-10
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
点击加载更多
领券