腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
Q学习21点,
奖励
函数
?
在游戏结束时有一个明显的
奖励
(支付),但是一些行为并不直接导致
奖励
(命中次数为5),这应该得到鼓励,即使最终结果是负面的(松手)。 我的问题是,这些行为应该得到什么回报?我可以硬编码一个积极的
奖励
(赢得手的
奖励
的一小部分),因为点击不会导致崩溃,但我感觉我没有正确地处理问题。此外,当我为胜利分配
奖励
时(在牌结束后),我更新对应于最后一个动作/状态对的Q值,这似乎不是最优的,因为这个动作可能没有直接导致胜利。我认为的另一个选择是将相同的结束
奖励
分配给序列中的所有动作/状
浏览 13
提问于2020-01-31
得票数 0
1
回答
为什么打折
奖励
函数
是反向的?
我正在解决麻省理工学院强化学习实验室的问题,并被
奖励
函数
卡住了。特定的代码块是:<code>C0</code><code>A1</code><code>A2</code> 提供的解释是,我们希望鼓励尽早获得
奖励
。
浏览 28
提问于2020-03-17
得票数 1
回答已采纳
1
回答
强化学习中策略梯度下降的
奖励
函数
博士,我的问题是:“在理论和实践中,对报酬
函数
的限制是什么?对于下面的情况,什么是好的
奖励
函数
?”。我现在的问题是如何定义
奖励
r?然而,在数学上,我有疑问:抽奖
奖励
: 0 -这似乎没有意义。损失
浏览 1
提问于2018-06-29
得票数 2
2
回答
利用DQN学习玩曲线发热游戏的
奖励
函数
我想找出一个合适的
奖励
函数
。目前,我使用此
奖励
设置: 这样做对吗?我需要调整值吗?还是我需要一个完全不同的方法?
浏览 1
修改于2017-05-06
得票数 1
回答已采纳
2
回答
小车-杆式倒立摆任务中
奖励
函数
的选择
我已经让所有的东西都正常工作了,但却很难得到正确的
奖励
函数
。有没有人知道理想的
奖励
函数
背后的逻辑? 谢谢。
浏览 0
修改于2018-08-05
得票数 0
1
回答
为我的QLearning代理编写一个很好的
奖励
函数
我对ML还不熟悉,最近我学习了Q-Learning并手动编写了它(不使用Keras或TensorFlow之类的库),而我面临的问题是如何为我的代理编写一个好的
奖励
函数
,我从编写以下简单的
奖励
函数
开始:但是当我增加障碍的时候,这个
函数
没有帮助,代理人选择了最短的路径,直到目标永远被困在障碍物中,我增加了对原地的惩罚,它再次被堵在墙上,但是这一次来回来回,因为惩罚+
奖励
的总和是0,它已经得到了一个积极的
奖励
因此,知道我的代理应该找到到达目标的最短可用路径(而不是阻止),那么
浏览 5
修改于2020-08-17
得票数 2
1
回答
如何编写一个优化利润和收入的
奖励
函数
?
因此,我想为一个强化学习模型编写一个
奖励
函数
,它选择要向客户展示的产品。每种产品都有一定的利润率。 价格较高的产品有较高的利润率,但被购买的可能性较低。写这个
奖励
函数
的最好方法是什么?
浏览 0
提问于2021-10-16
得票数 0
回答已采纳
2
回答
如何学习马尔可夫决策过程中的
奖励
函数
在期间更新R(s)
函数
的合适方法是什么?例如,假设一个代理访问状态s1五次,并收到
奖励
0,0,1,1,0。我是否应该计算平均
奖励
,例如R(s1) = sum(0,0,1,1,0)/5?或者,我是否应该使用移动平均值,对该州最近收到的
奖励
值给予更大的权重?我读过的大多数关于Q学习的描述都将R(s)视为某种常量,似乎从未涵盖随着经验的积累如何随着时间的推移而学习这个值。
浏览 5
修改于2011-07-18
得票数 2
回答已采纳
1
回答
用于挖掘块的矿工地址
奖励
函数
在哪里?
最近,我一直在深入研究go- etc,并“插入”了我自己的协商一致机制,它需要一个节点来求解一个简单的方程(2+2)等来封闭一个块。然而,即使是在它运行到4392个街区之后,矿工的地址仍然没有收到任何eth?有人能给我指出正确的方向吗,比如在代码库中给报酬的地方的文档?我似乎找不到它。干杯!
浏览 0
提问于2018-11-29
得票数 3
回答已采纳
1
回答
为什么我的
奖励
函数
在Python中返回None?
该智能体的
奖励
函数
是自动编码器在前一状态和当前状态之间的损失以及自动编码器在当前状态和想象的下一状态之间的损失的差值。然而,这个
奖励
函数
总是返回None,而不是实际的差值。
奖励
函数
/重放代码: def replay(self, batch): for
浏览 15
修改于2019-09-17
得票数 0
1
回答
我能在Q-学习中设计一个非确定性的
奖励
函数
吗?
在Q-学习算法中,有一个
奖励
函数
来
奖励
在当前状态下所采取的行动。我的问题是,我是否可以有一个不确定的
奖励
函数
,它受状态上的动作执行时间的影响。例如,假设对时间为1PM的状态采取的行动的
奖励
是r(s,a)。经过几次迭代(假设现在是下午3点),系统会接触到相同的状态,并执行与1PM相同的操作。下午三时的奖赏应否与下午一时的
奖励
相同?或者,可以通过考虑时间来设计
奖励
函数
(即,在相同的状态和相同的动作上给予的
奖励
,但在不同的
浏览 0
提问于2019-08-25
得票数 1
回答已采纳
1
回答
开放AI RL环境下原材料采购
奖励
函数
的构建
self.state = start_qty 我正在辩论
奖励
功能是否足够我决定,既然目标是最大化
奖励
功能,那么我就可以将手头的天数转换为负数,然后使用这个新的负数作为
奖励
(这样,最大化
奖励
就可以最小化手头的天数)。
浏览 1
提问于2021-01-12
得票数 0
回答已采纳
1
回答
在强化学习中,智能体是否需要预先知道
奖励
函数
?
就像Q学习一样,我们有
奖励
反馈,这是否意味着代理需要提前知道?
浏览 14
提问于2019-12-08
得票数 0
1
回答
如何将两个不同规模但同样重要的“运行”信号组合成一个
奖励
函数
?
我有两个信号,我想用它来为一个强化学习算法建立一个
奖励
。📷📷 其中,r是
奖励
函数
,\tau是CPU时间:运行均值,\rho是最大残差。强化学习算法将学习基于
奖励
的策略,如果一个信号的值比另一个小得多,它对
奖励
的影响就会小得多,这不是我想要建模的行为。
浏览 0
修改于2020-08-13
得票数 1
1
回答
当目标是将均值和方差最小化时,什么是好的
奖励
函数
?
那么,average+variance是一个合适的
奖励
函数
吗?正确地说,我的意思是,它是否包含了我试图达到的目标--一个低平均水平,同时确保了某种程度的公平?
浏览 0
提问于2021-03-23
得票数 1
回答已采纳
1
回答
Optaplanner 7 ConstraintStream按每个实例的
函数
值
奖励
我想做增量分数的计算,这是根据优先值
奖励
。} 这样,如果getTaskPriority返回优先级为3,则软分数将以配置权重的3倍作为
奖励
浏览 2
提问于2020-05-28
得票数 0
回答已采纳
1
回答
如何使用这里给出的工作
函数
的证明: https://www.ethereum.org/token#proof-of-work?
我正在创建一个加密货币契约,它
奖励
矿工所生成的工作证明。为了得到
奖励
,你需要打电话给proofOfWork(uint nonce)。如果现在是正确的,矿工将被
奖励
。我在每个
函数
的末尾调用这个
函数
,并计划生成一个随机的nonce,它作为
函数
调用的一个参数传递。如果现在是正确的交易进行和矿工
奖励
。否则执行将被抛出。我正在跟随导游https://www.ethereum.org&
浏览 0
修改于2016-07-11
得票数 1
1
回答
奖励
购物车杆子问题强化学习
对于购物车杆子平衡问题,我想知道为什么这么多用于控制器的强化学习实现都有一个
奖励
函数
,每当杆子倒下时
奖励
-1,而对于杆子保持直立的每个时间步
奖励
0。如果倒下立即产生与平衡一分钟后倒下的
奖励
相同的
奖励
,这将如何训练系统?
浏览 0
提问于2021-04-07
得票数 0
1
回答
如何核实在以太姆的矿工的报酬?
在ethash共识的Finalize()
函数
中,直接通过state.AddBalance()向矿工和叔父提供
奖励
。1)VerifyHeader我不知道这些
奖励
在哪里被储存在上面。
浏览 0
修改于2018-08-20
得票数 3
回答已采纳
2
回答
团结-我在admob
奖励
视频广告上得到了重复的
奖励
因此,我增加了一个基于我的团结项目的广告
奖励
,我想
奖励
用户300枚硬币,因为我看了一个广告,但我得到重复的
奖励
每次。我想我知道问题在哪里,但我解决不了!我有这个开始
函数
和一个在我的广告脚本上获得
奖励
的
函数
:{ this.rewardBasedVideoAd = RewardBasedVideoAd.Instance我想当我加载场景时,Start
函数
再次运行,并添加了另一个
奖励
rewardBasedVideoA
浏览 5
提问于2020-05-09
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券