腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
策略
优化
是否学习
策略
以更高的概率做出更好的行动?
当我谈到
策略
优化
时,它会被引用到下面的图片,并且它被链接到DFO/进化论加上
策略
梯度。我想知道这样的说法是否正确:
策略
优化
学习
策略
,以更高的概率做出更好的行动?另外,最大化
策略
优化
在图片中的位置是什么?
浏览 0
修改于2018-11-13
得票数 1
回答已采纳
1
回答
最近
策略
优化
中的目标函数
在PPO的目标函数中,第二项引入了值函数神经网络的平方误差损失。这个术语本质上就是优势的平方,对吗?
浏览 14
提问于2019-12-07
得票数 0
回答已采纳
1
回答
策略
优化
在基于模型的RL中的作用
在给定M_{sim}时,我使用一个代理A (即使用PPO,这是一种
策略
优化
方法)来为某些奖励项R找到最优
策略
\pi^* w.r.t。虽然我确实得到了一些好的结果(能够随着时间的推移而增加回报),但我突然想到,我实际上是在混合来自不同世界的方法--如果给出了M_{sim},那么我们正在处理基于模型的RL,如果是这样,那么使用
策略
优化
是如何合理的至少在分类学方面,如果A的学习过程发生在M_{real}上就更合理了,因为这被认为是无模型的,但是当使用M_{sim}时,只使用无模型方法使用
策略
<
浏览 0
提问于2022-10-24
得票数 0
1
回答
最近
策略
优化
算法论文- "KL“操作的定义?
关于最大
策略
优化
算法的原始论文 我的问题是: KL[]操作代表什么?
浏览 2
提问于2019-12-07
得票数 1
回答已采纳
1
回答
所有可能的指标值的
策略
优化
,排列
我已经为此挣扎了几个小时,我正在尝试生成所有指标参数的所有可能的组合。假设我有指标sma5 5、7、9sma20 20、25、30用于(sma10=10;sma10<=15;sma10=sma10+5)它会给出18种可能的组合 但我想做的不止这些,我说sma5和sma20可以切换sma5范围现在是20-30 sma20范围现在是5-9如果我是正确的,这将给
浏览 0
修改于2020-04-13
得票数 0
3
回答
SQL
优化
策略
我想在我的数据库
优化
策略
中使用索引和查询
优化
。问题是我如何证明我的
策略
有所改进?我的演讲谈到了查询
优化
,我可以通过计算来证明,谁有更多的想法?要计算什么?那索引呢,我需要证据来证明。怎么做?
浏览 1
提问于2011-05-09
得票数 0
1
回答
为什么信任区域
策略
优化
是一种
策略
上的算法?
我想知道为什么信任区域
策略
优化
是一种
策略
上的算法? 与非
策略
算法相比,在
策略
方法中需要根据当前遵循的
策略
更新函数逼近器.特别是,我们将考虑信赖域PolicyOptimization,这是对传统
策略
梯度方法的一种推广,采用了自然梯度方向
浏览 0
修改于2019-03-27
得票数 2
回答已采纳
1
回答
NoSQL
优化
策略
查找关于以下内容的一些输入。希望这对版主来说不会太主观。如果一个移动应用程序要有一个Group对象和一个用户,其中一个用户可以属于许多组,而一个组有很多用户(多到多的关系),我可以用我正在考虑的两种方法来设计这几种方法:Users [{ groups : {1,2,3,4} id: 1,}]b) id: 1 id: 1
浏览 4
修改于2017-09-22
得票数 0
回答已采纳
1
回答
如何对经典控制问题实现最大
策略
优化
(PPO)算法?
我正在尝试实现对经典控制任务的剪裁PPO算法,如保持室温,电池充电等在一定的范围内。到目前为止,我只在游戏环境中看到了实现。我的问题是,游戏环境和经典的控制问题是不同的,当涉及到实现剪裁PPO算法?如果他们是,帮助和提示如何实现我的情况下的算法。
浏览 0
提问于2019-05-01
得票数 1
回答已采纳
1
回答
樱桃采摘时的问题-最大限度的
策略
优化
我正在使用PPO2在稳定基线(OpenAI的基线叉)中的实现来解决强化学习问题。当采取法律行动时,它可能会导致一个与以前完全不同的状态。它也可能导致完全不同的法律诉讼。所以,石头留在木板上的地方就不一样了。 我目前给模型一个包含法律行为的向量(一个多热向量,一个合法向量,0表示非法行为)。当模型对动作进行采样时,我首先通过乙状结肠运行动作手段,所以它们都是正的,但仍然保持相对大小的顺序。然后
浏览 0
修改于2021-08-09
得票数 2
1
回答
最大化
策略
优化
中的状态是否包含历史记录?
S_t = [s_t, s_t-1] 例如,Proximal
策略
优化
是否已经包含了状态历史,或者它不能隐含在状态中(或者两者都不包含)。
浏览 1
提问于2017-11-14
得票数 1
回答已采纳
1
回答
tensorflow代码
优化
策略
从对gpu编程知之甚少的人的角度来看,我想知道什么指南或
策略
将是
优化
我的代码的“好起点”。(单一gpu) 也许每次花在每个tensorflow上的时间会很好.
浏览 1
提问于2016-06-10
得票数 9
回答已采纳
2
回答
谷歌BigQuery
优化
策略
这个
策略
在原则上是可行的,我已经有了它的工作原型。 另一种选择是将此查询拆分为它的组合子查询,但此时我无法选择此
策略
我还能做什么来
优化
这个查询呢?
浏览 3
提问于2015-06-10
得票数 2
回答已采纳
1
回答
优化
javascript
策略
以下是
策略
: 谢谢!
浏览 0
提问于2018-03-06
得票数 0
回答已采纳
1
回答
遗传Algortihm -变长
优化
策略
您可以将其简化为以下问题: 你对这些一般方法有什么看法?
浏览 3
修改于2016-12-04
得票数 0
回答已采纳
1
回答
优化
策略
使用(数据生成)
我想为我的单元测试
优化
数据生成速度。像from_regex和dictionaries这样的
策略
似乎需要很长时间才能生成示例。integers(min_value=1)) assert integer > 0test_composite()使用带有可选参数的
浏览 0
修改于2019-10-02
得票数 2
回答已采纳
1
回答
我对如何在
策略
优化
中确定输出概率和选择操作感到困惑
因此,在我的理解中,PPO (可能是一般的
策略
优化
)使用softmax作为激活函数,以概率形式获得输出,然后输入到高斯分布。根据我的学习,所有的输出概率组合应该是1,这意味着只有一个动作正在进行。
浏览 19
提问于2020-05-07
得票数 1
1
回答
进化
策略
优化
(ESO)和粒子群
优化
(PSO)之间的主要区别是什么?
我注意到ESO使用了变异,粒子是使用“适者生存”来改变/选择的,而在PSO中没有使用变异,所有的粒子保持不变,并遵循最佳粒子的位置。如果我说错了,请纠正我。
浏览 14
提问于2021-05-18
得票数 0
2
回答
Java接口调用的
优化
策略
我目前正在研究如何围绕接口调用
优化
我的应用程序。我希望大家能采取任何
策略
,以:谢谢!
浏览 4
修改于2011-03-28
得票数 0
1
回答
Redis:内存
优化
/性能
策略
由于数据需要在数据库中捕获,以供后代和模式研究使用,因此我们正在考虑以下
策略
。Python是我们唯一知道的语言。因此,任何像C/C++这样的建议都可能没有吸引力。
浏览 0
修改于2015-08-19
得票数 3
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券