腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
0
回答
人像变换在小程序审核过不了,需要添加深度合成-AI换脸类目,添加这个类型需要
算法
备案
?
小程序
、
人像变换
、
算法
算法
备案
怎么弄?
浏览 98
提问于2024-07-03
1
回答
用史料测试多臂带
假设我想在一组历史数据的上下文设置中测试一个多臂强盗
算法
。为了简单起见,让我们假设只有两个臂A和B,并且假设
奖励
是二进制的。此外,假设我有一个数据集,用户可以看到这两只手臂中的一只,并且我有
奖励
的记录。模拟在线运行
算法
的场景的最佳方法是什么?我想做的是:如果
算法
输出A,那么我想记录一个
奖励
,这样
算法
就可以学习,为了做到这一点,我们从用户被显示输出的数据中随机地进行均匀采样以获得这个
奖励
。我想知道这种方法是否合适,是否有人知道用历史数据模拟在线学习<em
浏览 0
修改于2018-01-03
得票数 2
1
回答
这是一种Q学习
算法
还是一种蛮力?
实际上,这些
奖励
可以被“调整”,这样如果游戏更短,并且它被赢了,那么
奖励
更多的分数或者是更长的
奖励
更少的分数。这样,
算法
更倾向于快速获胜。这意味着它学会了尽快赢得比赛,而不是以后去争取胜利。问题1:我是否可以成功地证明,我是根据历史来估算
奖励
,并且仍然声称
算法
是强化学习,甚至是Q-学习?问题2:如果我用神经网络代替基于董事会布局的
奖励
查找,其中董事会布局是输入,
奖励
是输出,那么该
算法
是否可以被看作是深度强化学习? 问题3:我认为我既没
浏览 0
修改于2018-04-11
得票数 10
回答已采纳
1
回答
为什么增强
算法
在用不均匀概率初始化时会收敛?
在以下情况下,为什么增强
算法
(或任何其他简单的策略梯度
算法
)收敛到采取行动b的最优解,即使采取行动a的起始概率要高得多?Start in S0采取行动b->
奖励
10 “”第一集结束,在州s0中重新开始
浏览 3
修改于2022-05-20
得票数 0
回答已采纳
2
回答
交易中的强化
算法
我试图在交易场景中实现一个强化学习
算法
。以最终利润作为回报,对我来说似乎很自然。然而,在这种情况下,每一个交易插曲,只有一个
奖励
,在最后获得。是否有任何RL
算法
只能根据最终
奖励
来学习?如果这是一个马里奥游戏,我怎么能训练一个网络仅仅基于一个
奖励
在水平结束,但这取决于所有以前的行动?
浏览 0
提问于2020-02-19
得票数 0
1
回答
RL策略梯度:如何处理严格正面的
奖励
?
简言之:在“大卫·西尔弗教授的RL课程”第7课(关于YouTube)中,他介绍了策略梯度的增强
算法
(这里只显示了一个步骤):实际的政策更新是:请注意,v_t在这里代表我们得到的
奖励
假设我们在玩一个
奖励
总是积极的游戏。累积分数),没有任何负面的回报,梯度将永远是正的,因此θ将不断增加!那么,我们如何处理那些永不改变的
浏览 0
修改于2018-04-13
得票数 1
1
回答
Q-学习收敛到最优策略
我正在使用基于rlglue的框架进行Q学习.我的理解是,随着时间的推移,
算法
收敛到一个最优策略(这是一个映射,说明在什么状态下要采取什么行动)。当我绘制
奖励
(或
奖励
平均超过100集)时,我得到了一个类似于图6.13的图表。 Question2:如果
算法
已经收敛到某些策略,那么为什么
奖励
会下降呢?是否有可能报酬会有很大的差异?Question3:有什么标准方法可以用来比较各种RL
算法
的结果吗?
浏览 3
提问于2014-04-15
得票数 5
回答已采纳
2
回答
什么是“安全变量”?
我有点困惑的是stumbleupon的algoritm: N是一个“安全变量”,因此假设的
算法
是灵活的我不明白它如何使
算法
更加灵活。
浏览 4
修改于2009-11-19
得票数 5
回答已采纳
1
回答
MDP与强化学习& VI、PI和QLearning
算法
的收敛性比较
我使用python实现了VI (值迭代)、PI (策略迭代)和QLearning
算法
。在比较了结果之后,我注意到了一些事情。VI
算法
和PI
算法
收敛于相同的实用程序和策略。,s10} 结果
浏览 3
提问于2017-12-28
得票数 1
回答已采纳
3
回答
Delphi/Pascal (时态差异学习)中的TD(λ)
我所拥有的: 两层(输入和隐藏)的学习率为"0.5“。 这是一种延迟
奖励
浏览 1
修改于2011-02-18
得票数 4
回答已采纳
6
回答
一个很好的
算法
,用于基于统计数据的Github回购的所有开发人员之间的支付。
最近,R/比特币上的某个人开始使用我们的人群支付系统来直接
奖励
比特币的核心开发者。我们的制度根据参与程度划分付款。一种一对多的付款。其中一个主要论点是,不可能根据简单的统计数据(如LOC )来
奖励
开发人员。在Github上,只有少数几种类型的参与被衡量/评级。在这方面,它不是一个非常社会化的平台(目前)。因此,在<em
浏览 3
修改于2015-07-17
得票数 4
1
回答
有没有功能版的.NET StringBuilder的开源(非通用公共授权)实现?
GPL的
奖励
,F#的
奖励
,但如果需要,我可以从Haskell/OCaml/SML翻译过来。 欢迎对
算法
的建议。
浏览 0
提问于2011-12-01
得票数 2
回答已采纳
1
回答
我能把蒙特卡罗策略梯度
算法
和其他策略梯度
算法
结合起来吗?
我知道蒙特卡罗强化策略梯度
算法
在计算每个步骤的贴现累积未来报酬时,其计算报酬值的方法是不同的。这是来自于研究PDF 我正在学习策略梯度
算法</em
浏览 4
修改于2020-03-15
得票数 0
1
回答
我能在Q-学习中设计一个非确定性的
奖励
函数吗?
在Q-学习
算法
中,有一个
奖励
函数来
奖励
在当前状态下所采取的行动。我的问题是,我是否可以有一个不确定的
奖励
函数,它受状态上的动作执行时间的影响。例如,假设对时间为1PM的状态采取的行动的
奖励
是r(s,a)。经过几次迭代(假设现在是下午3点),系统会接触到相同的状态,并执行与1PM相同的操作。下午三时的奖赏应否与下午一时的
奖励
相同?或者,可以通过考虑时间来设计
奖励
函数(即,在相同的状态和相同的动作上给予的
奖励
,但在不同的时间可能是不同的)。 以上是我想问的
浏览 0
提问于2019-08-25
得票数 1
回答已采纳
1
回答
序贯
奖励
点的
算法
我想写一个
算法
来找到连续的
奖励
点。输出:{ “A”: 1.75, “B”: 1.5, “C”: 1 } 这个问题的
算法
应该是什么?我认为这里必须使用动态编程。
浏览 1
提问于2018-09-29
得票数 0
1
回答
问题学习:
奖励
计算的正确状态是什么?
Q学习-
奖励
1 For each s, a initialize table entry Q(a, s) = 08 Q( a, s ) ← R( s ) + γ * max Q( a′, s′ )是从后续的状态s'还是当前的状态s中收集
奖励
浏览 2
提问于2014-04-02
得票数 2
回答已采纳
3
回答
在ray.tune中保存剧集
奖励
我正在使用rllib/ray在多代理环境中使用PPO
算法
训练几个代理。我使用ray.tune()命令训练代理,然后从~/ray_results加载训练数据。此数据包含代理在每个训练场景中选择的操作,但我还需要相应的代理
奖励
。我已经看过文档了,但似乎没有允许保存剧集
奖励
的配置参数。有谁有解决这个问题的办法吗?
浏览 20
提问于2020-11-14
得票数 2
2
回答
基于强化学习的神经网络训练
我知道前馈神经网络的基本知识,以及如何使用反向传播
算法
来训练它们,但我正在寻找一种比我能用来训练神经网络的强化学习的
算法
。对于第一种情况,我可以想到一些
算法
,比如爬山或遗传
算法
,但我猜它们都会很慢。我的问题很简单:是否有一个简单的
算法
来训练带有强化学习的人工神经网络?我主要感兴趣的是实时
奖励
情况,但是如果有一种基于目标的情况下的
算法
浏览 1
提问于2012-05-23
得票数 67
回答已采纳
1
回答
Q-学习中级
奖励
如果Q-学习代理在包含中间
奖励
的特定纸牌游戏中对对手的表现明显优于对手,这是
算法
中的缺陷还是其实现上的缺陷?
浏览 1
修改于2019-10-19
得票数 1
回答已采纳
1
回答
如何将两个不同规模但同样重要的“运行”信号组合成一个
奖励
函数?
我有两个信号,我想用它来为一个强化学习
算法
建立一个
奖励
。📷📷 其中,r是
奖励
函数,\tau是CPU时间:运行均值,\rho是最大残差。强化学习
算法
将学习基于
奖励
的策略,如果一个信号的值比另一个小得多,它对
奖励
的影响就会小得多,这不是我想要建模的行为。
浏览 0
修改于2020-08-13
得票数 1
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券