搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Q学习21点，奖励函数？

在游戏结束时有一个明显的奖励(支付)，但是一些行为并不直接导致奖励(命中次数为5)，这应该得到鼓励，即使最终结果是负面的(松手)。我的问题是，这些行为应该得到什么回报？我可以硬编码一个积极的奖励(赢得手的奖励的一小部分)，因为点击不会导致崩溃，但我感觉我没有正确地处理问题。此外，当我为胜利分配奖励时(在牌结束后)，我更新对应于最后一个动作/状态对的Q值，这似乎不是最优的，因为这个动作可能没有直接导致胜利。我认为的另一个选择是将相同的结束奖励分配给序列中的所有动作/状

浏览 13提问于2020-01-31得票数 0

1回答

为什么打折奖励函数是反向的？

我正在解决麻省理工学院强化学习实验室的问题，并被奖励函数卡住了。特定的代码块是：<code>C0</code><code>A1</code><code>A2</code> 提供的解释是，我们希望鼓励尽早获得奖励。

浏览 28提问于2020-03-17得票数 1

回答已采纳

1回答

强化学习中策略梯度下降的奖励函数

博士，我的问题是：“在理论和实践中，对报酬函数的限制是什么?对于下面的情况，什么是好的奖励函数？”。我现在的问题是如何定义奖励r？然而，在数学上，我有疑问：抽奖奖励: 0 -这似乎没有意义。损失

浏览 1提问于2018-06-29得票数 2

2回答

利用DQN学习玩曲线发热游戏的奖励函数

我想找出一个合适的奖励函数。目前，我使用此奖励设置：这样做对吗？我需要调整值吗？还是我需要一个完全不同的方法？

浏览 1修改于2017-05-06得票数 1

回答已采纳

2回答

小车-杆式倒立摆任务中奖励函数的选择

我已经让所有的东西都正常工作了，但却很难得到正确的奖励函数。有没有人知道理想的奖励函数背后的逻辑？谢谢。

浏览 0修改于2018-08-05得票数 0

1回答

为我的QLearning代理编写一个很好的奖励函数

我对ML还不熟悉，最近我学习了Q-Learning并手动编写了它(不使用Keras或TensorFlow之类的库)，而我面临的问题是如何为我的代理编写一个好的奖励函数，我从编写以下简单的奖励函数开始：但是当我增加障碍的时候，这个函数没有帮助，代理人选择了最短的路径，直到目标永远被困在障碍物中，我增加了对原地的惩罚，它再次被堵在墙上，但是这一次来回来回，因为惩罚+奖励的总和是0，它已经得到了一个积极的奖励因此，知道我的代理应该找到到达目标的最短可用路径(而不是阻止)，那么

浏览 5修改于2020-08-17得票数 2

1回答

如何编写一个优化利润和收入的奖励函数？

因此，我想为一个强化学习模型编写一个奖励函数，它选择要向客户展示的产品。每种产品都有一定的利润率。价格较高的产品有较高的利润率，但被购买的可能性较低。写这个奖励函数的最好方法是什么？

浏览 0提问于2021-10-16得票数 0

回答已采纳

2回答

如何学习马尔可夫决策过程中的奖励函数

在期间更新R(s)函数的合适方法是什么？例如，假设一个代理访问状态s1五次，并收到奖励0,0,1,1,0。我是否应该计算平均奖励，例如R(s1) = sum(0,0,1,1,0)/5？或者，我是否应该使用移动平均值，对该州最近收到的奖励值给予更大的权重？我读过的大多数关于Q学习的描述都将R(s)视为某种常量，似乎从未涵盖随着经验的积累如何随着时间的推移而学习这个值。

浏览 5修改于2011-07-18得票数 2

回答已采纳

1回答

用于挖掘块的矿工地址奖励函数在哪里？

最近，我一直在深入研究go- etc，并“插入”了我自己的协商一致机制，它需要一个节点来求解一个简单的方程(2+2)等来封闭一个块。然而，即使是在它运行到4392个街区之后，矿工的地址仍然没有收到任何eth？有人能给我指出正确的方向吗，比如在代码库中给报酬的地方的文档？我似乎找不到它。干杯!

浏览 0提问于2018-11-29得票数 3

回答已采纳

1回答

为什么我的奖励函数在Python中返回None？

该智能体的奖励函数是自动编码器在前一状态和当前状态之间的损失以及自动编码器在当前状态和想象的下一状态之间的损失的差值。然而，这个奖励函数总是返回None，而不是实际的差值。奖励函数/重放代码： def replay(self, batch): for

浏览 15修改于2019-09-17得票数 0

1回答

我能在Q-学习中设计一个非确定性的奖励函数吗？

在Q-学习算法中，有一个奖励函数来奖励在当前状态下所采取的行动。我的问题是，我是否可以有一个不确定的奖励函数，它受状态上的动作执行时间的影响。例如，假设对时间为1PM的状态采取的行动的奖励是r(s，a)。经过几次迭代(假设现在是下午3点)，系统会接触到相同的状态，并执行与1PM相同的操作。下午三时的奖赏应否与下午一时的奖励相同？或者，可以通过考虑时间来设计奖励函数(即，在相同的状态和相同的动作上给予的奖励，但在不同的

浏览 0提问于2019-08-25得票数 1

回答已采纳

1回答

开放AI RL环境下原材料采购奖励函数的构建

self.state = start_qty 我正在辩论奖励功能是否足够我决定，既然目标是最大化奖励功能，那么我就可以将手头的天数转换为负数，然后使用这个新的负数作为奖励(这样，最大化奖励就可以最小化手头的天数)。

浏览 1提问于2021-01-12得票数 0

回答已采纳

1回答

在强化学习中，智能体是否需要预先知道奖励函数？

就像Q学习一样，我们有奖励反馈，这是否意味着代理需要提前知道？

浏览 14提问于2019-12-08得票数 0

1回答

如何将两个不同规模但同样重要的“运行”信号组合成一个奖励函数？

我有两个信号，我想用它来为一个强化学习算法建立一个奖励。📷📷 其中，r是奖励函数，\tau是CPU时间:运行均值，\rho是最大残差。强化学习算法将学习基于奖励的策略，如果一个信号的值比另一个小得多，它对奖励的影响就会小得多，这不是我想要建模的行为。

浏览 0修改于2020-08-13得票数 1

1回答

当目标是将均值和方差最小化时，什么是好的奖励函数？

那么，average+variance是一个合适的奖励函数吗？正确地说，我的意思是，它是否包含了我试图达到的目标--一个低平均水平，同时确保了某种程度的公平？

浏览 0提问于2021-03-23得票数 1

回答已采纳

1回答

Optaplanner 7 ConstraintStream按每个实例的函数值奖励

我想做增量分数的计算，这是根据优先值奖励。} 这样，如果getTaskPriority返回优先级为3，则软分数将以配置权重的3倍作为奖励

浏览 2提问于2020-05-28得票数 0

回答已采纳

1回答

如何使用这里给出的工作函数的证明: https://www.ethereum.org/token#proof-of-work？

我正在创建一个加密货币契约，它奖励矿工所生成的工作证明。为了得到奖励，你需要打电话给proofOfWork(uint nonce)。如果现在是正确的，矿工将被奖励。我在每个函数的末尾调用这个函数，并计划生成一个随机的nonce，它作为函数调用的一个参数传递。如果现在是正确的交易进行和矿工奖励。否则执行将被抛出。我正在跟随导游https://www.ethereum.org&

浏览 0修改于2016-07-11得票数 1

1回答

奖励购物车杆子问题强化学习

对于购物车杆子平衡问题，我想知道为什么这么多用于控制器的强化学习实现都有一个奖励函数，每当杆子倒下时奖励-1，而对于杆子保持直立的每个时间步奖励0。如果倒下立即产生与平衡一分钟后倒下的奖励相同的奖励，这将如何训练系统？

浏览 0提问于2021-04-07得票数 0

1回答

如何核实在以太姆的矿工的报酬？

在ethash共识的Finalize()函数中，直接通过state.AddBalance()向矿工和叔父提供奖励。1)VerifyHeader我不知道这些奖励在哪里被储存在上面。

浏览 0修改于2018-08-20得票数 3

回答已采纳

2回答

团结-我在admob奖励视频广告上得到了重复的奖励

因此，我增加了一个基于我的团结项目的广告奖励，我想奖励用户300枚硬币，因为我看了一个广告，但我得到重复的奖励每次。我想我知道问题在哪里，但我解决不了！我有这个开始函数和一个在我的广告脚本上获得奖励的函数：{ this.rewardBasedVideoAd = RewardBasedVideoAd.Instance我想当我加载场景时，Start函数再次运行，并添加了另一个奖励rewardBasedVideoA

浏览 5提问于2020-05-09得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Q学习21点，奖励函数？

为什么打折奖励函数是反向的？

强化学习中策略梯度下降的奖励函数

利用DQN学习玩曲线发热游戏的奖励函数

小车-杆式倒立摆任务中奖励函数的选择

为我的QLearning代理编写一个很好的奖励函数

如何编写一个优化利润和收入的奖励函数？

如何学习马尔可夫决策过程中的奖励函数

用于挖掘块的矿工地址奖励函数在哪里？

为什么我的奖励函数在Python中返回None？

我能在Q-学习中设计一个非确定性的奖励函数吗？

开放AI RL环境下原材料采购奖励函数的构建

在强化学习中，智能体是否需要预先知道奖励函数？

如何将两个不同规模但同样重要的“运行”信号组合成一个奖励函数？

当目标是将均值和方差最小化时，什么是好的奖励函数？

Optaplanner 7 ConstraintStream按每个实例的函数值奖励

如何使用这里给出的工作函数的证明: https://www.ethereum.org/token#proof-of-work？

奖励购物车杆子问题强化学习

如何核实在以太姆的矿工的报酬？

团结-我在admob奖励视频广告上得到了重复的奖励

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐