搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

0回答

人像变换在小程序审核过不了，需要添加深度合成-AI换脸类目，添加这个类型需要算法备案？

小程序、人像变换、算法

算法备案怎么弄？

浏览 98提问于2024-07-03

1回答

用史料测试多臂带

假设我想在一组历史数据的上下文设置中测试一个多臂强盗算法。为了简单起见，让我们假设只有两个臂A和B，并且假设奖励是二进制的。此外，假设我有一个数据集，用户可以看到这两只手臂中的一只，并且我有奖励的记录。模拟在线运行算法的场景的最佳方法是什么？我想做的是:如果算法输出A，那么我想记录一个奖励，这样算法就可以学习，为了做到这一点，我们从用户被显示输出的数据中随机地进行均匀采样以获得这个奖励。我想知道这种方法是否合适，是否有人知道用历史数据模拟在线学习<em

浏览 0修改于2018-01-03得票数 2

1回答

这是一种Q学习算法还是一种蛮力？

实际上，这些奖励可以被“调整”，这样如果游戏更短，并且它被赢了，那么奖励更多的分数或者是更长的奖励更少的分数。这样，算法更倾向于快速获胜。这意味着它学会了尽快赢得比赛，而不是以后去争取胜利。问题1:我是否可以成功地证明，我是根据历史来估算奖励，并且仍然声称算法是强化学习，甚至是Q-学习？问题2:如果我用神经网络代替基于董事会布局的奖励查找，其中董事会布局是输入，奖励是输出，那么该算法是否可以被看作是深度强化学习？问题3:我认为我既没

浏览 0修改于2018-04-11得票数 10

回答已采纳

1回答

为什么增强算法在用不均匀概率初始化时会收敛？

在以下情况下，为什么增强算法(或任何其他简单的策略梯度算法)收敛到采取行动b的最优解，即使采取行动a的起始概率要高得多？Start in S0采取行动b->奖励10 “”第一集结束，在州s0中重新开始

浏览 3修改于2022-05-20得票数 0

回答已采纳

2回答

交易中的强化算法

我试图在交易场景中实现一个强化学习算法。以最终利润作为回报，对我来说似乎很自然。然而，在这种情况下，每一个交易插曲，只有一个奖励，在最后获得。是否有任何RL算法只能根据最终奖励来学习？如果这是一个马里奥游戏，我怎么能训练一个网络仅仅基于一个奖励在水平结束，但这取决于所有以前的行动？

浏览 0提问于2020-02-19得票数 0

1回答

RL策略梯度:如何处理严格正面的奖励？

简言之：在“大卫·西尔弗教授的RL课程”第7课(关于YouTube)中，他介绍了策略梯度的增强算法(这里只显示了一个步骤)：实际的政策更新是：请注意，v_t在这里代表我们得到的奖励假设我们在玩一个奖励总是积极的游戏。累积分数)，没有任何负面的回报，梯度将永远是正的，因此θ将不断增加！那么，我们如何处理那些永不改变的

浏览 0修改于2018-04-13得票数 1

1回答

Q-学习收敛到最优策略

我正在使用基于rlglue的框架进行Q学习.我的理解是，随着时间的推移，算法收敛到一个最优策略(这是一个映射，说明在什么状态下要采取什么行动)。当我绘制奖励(或奖励平均超过100集)时，我得到了一个类似于图6.13的图表。 Question2:如果算法已经收敛到某些策略，那么为什么奖励会下降呢？是否有可能报酬会有很大的差异？Question3:有什么标准方法可以用来比较各种RL算法的结果吗？

浏览 3提问于2014-04-15得票数 5

回答已采纳

2回答

什么是“安全变量”？

我有点困惑的是stumbleupon的algoritm： N是一个“安全变量”，因此假设的算法是灵活的我不明白它如何使算法更加灵活。

浏览 4修改于2009-11-19得票数 5

回答已采纳

1回答

MDP与强化学习& VI、PI和QLearning算法的收敛性比较

我使用python实现了VI (值迭代)、PI (策略迭代)和QLearning算法。在比较了结果之后，我注意到了一些事情。VI算法和PI算法收敛于相同的实用程序和策略。，s10} 结果

浏览 3提问于2017-12-28得票数 1

回答已采纳

3回答

Delphi/Pascal (时态差异学习)中的TD(λ)

我所拥有的：两层(输入和隐藏)的学习率为"0.5“。这是一种延迟奖励

浏览 1修改于2011-02-18得票数 4

回答已采纳

6回答

一个很好的算法，用于基于统计数据的Github回购的所有开发人员之间的支付。

最近，R/比特币上的某个人开始使用我们的人群支付系统来直接奖励比特币的核心开发者。我们的制度根据参与程度划分付款。一种一对多的付款。其中一个主要论点是，不可能根据简单的统计数据(如LOC )来奖励开发人员。在Github上，只有少数几种类型的参与被衡量/评级。在这方面，它不是一个非常社会化的平台(目前)。因此，在<em

浏览 3修改于2015-07-17得票数 4

1回答

有没有功能版的.NET StringBuilder的开源(非通用公共授权)实现？

GPL的奖励，F#的奖励，但如果需要，我可以从Haskell/OCaml/SML翻译过来。欢迎对算法的建议。

浏览 0提问于2011-12-01得票数 2

回答已采纳

1回答

我能把蒙特卡罗策略梯度算法和其他策略梯度算法结合起来吗？

我知道蒙特卡罗强化策略梯度算法在计算每个步骤的贴现累积未来报酬时，其计算报酬值的方法是不同的。这是来自于研究PDF 我正在学习策略梯度算法</em

浏览 4修改于2020-03-15得票数 0

1回答

我能在Q-学习中设计一个非确定性的奖励函数吗？

在Q-学习算法中，有一个奖励函数来奖励在当前状态下所采取的行动。我的问题是，我是否可以有一个不确定的奖励函数，它受状态上的动作执行时间的影响。例如，假设对时间为1PM的状态采取的行动的奖励是r(s，a)。经过几次迭代(假设现在是下午3点)，系统会接触到相同的状态，并执行与1PM相同的操作。下午三时的奖赏应否与下午一时的奖励相同？或者，可以通过考虑时间来设计奖励函数(即，在相同的状态和相同的动作上给予的奖励，但在不同的时间可能是不同的)。以上是我想问的

浏览 0提问于2019-08-25得票数 1

回答已采纳

1回答

序贯奖励点的算法

我想写一个算法来找到连续的奖励点。输出：{ “A”: 1.75, “B”: 1.5, “C”: 1 } 这个问题的算法应该是什么？我认为这里必须使用动态编程。

浏览 1提问于2018-09-29得票数 0

1回答

问题学习:奖励计算的正确状态是什么？

Q学习-奖励1 For each s, a initialize table entry Q(a, s) = 08 Q( a, s ) ← R( s ) + γ * max Q( a′, s′ )是从后续的状态s'还是当前的状态s中收集奖励

浏览 2提问于2014-04-02得票数 2

回答已采纳

3回答

在ray.tune中保存剧集奖励

我正在使用rllib/ray在多代理环境中使用PPO算法训练几个代理。我使用ray.tune()命令训练代理，然后从~/ray_results加载训练数据。此数据包含代理在每个训练场景中选择的操作，但我还需要相应的代理奖励。我已经看过文档了，但似乎没有允许保存剧集奖励的配置参数。有谁有解决这个问题的办法吗？

浏览 20提问于2020-11-14得票数 2

2回答

基于强化学习的神经网络训练

我知道前馈神经网络的基本知识，以及如何使用反向传播算法来训练它们，但我正在寻找一种比我能用来训练神经网络的强化学习的算法。对于第一种情况，我可以想到一些算法，比如爬山或遗传算法，但我猜它们都会很慢。我的问题很简单：是否有一个简单的算法来训练带有强化学习的人工神经网络？我主要感兴趣的是实时奖励情况，但是如果有一种基于目标的情况下的算法

浏览 1提问于2012-05-23得票数 67

回答已采纳

1回答

Q-学习中级奖励

如果Q-学习代理在包含中间奖励的特定纸牌游戏中对对手的表现明显优于对手，这是算法中的缺陷还是其实现上的缺陷？

浏览 1修改于2019-10-19得票数 1

回答已采纳

1回答

如何将两个不同规模但同样重要的“运行”信号组合成一个奖励函数？

我有两个信号，我想用它来为一个强化学习算法建立一个奖励。📷📷 其中，r是奖励函数，\tau是CPU时间:运行均值，\rho是最大残差。强化学习算法将学习基于奖励的策略，如果一个信号的值比另一个小得多，它对奖励的影响就会小得多，这不是我想要建模的行为。

浏览 0修改于2020-08-13得票数 1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

人像变换在小程序审核过不了，需要添加深度合成-AI换脸类目，添加这个类型需要算法备案？

用史料测试多臂带

这是一种Q学习算法还是一种蛮力？

为什么增强算法在用不均匀概率初始化时会收敛？

交易中的强化算法

RL策略梯度:如何处理严格正面的奖励？

Q-学习收敛到最优策略

什么是“安全变量”？

MDP与强化学习& VI、PI和QLearning算法的收敛性比较

Delphi/Pascal (时态差异学习)中的TD(λ)

一个很好的算法，用于基于统计数据的Github回购的所有开发人员之间的支付。

有没有功能版的.NET StringBuilder的开源(非通用公共授权)实现？

我能把蒙特卡罗策略梯度算法和其他策略梯度算法结合起来吗？

我能在Q-学习中设计一个非确定性的奖励函数吗？

序贯奖励点的算法

问题学习:奖励计算的正确状态是什么？

在ray.tune中保存剧集奖励

基于强化学习的神经网络训练

Q-学习中级奖励

如何将两个不同规模但同样重要的“运行”信号组合成一个奖励函数？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐