搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

策略优化是否学习策略以更高的概率做出更好的行动？

当我谈到策略优化时，它会被引用到下面的图片，并且它被链接到DFO/进化论加上策略梯度。我想知道这样的说法是否正确:策略优化学习策略，以更高的概率做出更好的行动？另外，最大化策略优化在图片中的位置是什么？

浏览 0修改于2018-11-13得票数 1

回答已采纳

1回答

最近策略优化中的目标函数

在PPO的目标函数中，第二项引入了值函数神经网络的平方误差损失。这个术语本质上就是优势的平方，对吗？

浏览 14提问于2019-12-07得票数 0

回答已采纳

1回答

在给定M_{sim}时，我使用一个代理A (即使用PPO，这是一种策略优化方法)来为某些奖励项R找到最优策略\pi^* w.r.t。虽然我确实得到了一些好的结果(能够随着时间的推移而增加回报)，但我突然想到，我实际上是在混合来自不同世界的方法--如果给出了M_{sim}，那么我们正在处理基于模型的RL，如果是这样，那么使用策略优化是如何合理的至少在分类学方面，如果A的学习过程发生在M_{real}上就更合理了，因为这被认为是无模型的，但是当使用M_{sim}时，只使用无模型方法使用策略<

浏览 0提问于2022-10-24得票数 0

1回答

最近策略优化算法论文- "KL“操作的定义？

关于最大策略优化算法的原始论文我的问题是： KL[]操作代表什么？

浏览 2提问于2019-12-07得票数 1

回答已采纳

1回答

所有可能的指标值的策略优化，排列

我已经为此挣扎了几个小时，我正在尝试生成所有指标参数的所有可能的组合。假设我有指标sma5 5、7、9sma20 20、25、30用于(sma10=10；sma10<=15；sma10=sma10+5)它会给出18种可能的组合但我想做的不止这些，我说sma5和sma20可以切换sma5范围现在是20-30 sma20范围现在是5-9如果我是正确的，这将给

浏览 0修改于2020-04-13得票数 0

3回答

SQL优化策略

我想在我的数据库优化策略中使用索引和查询优化。问题是我如何证明我的策略有所改进？我的演讲谈到了查询优化，我可以通过计算来证明，谁有更多的想法？要计算什么？那索引呢，我需要证据来证明。怎么做？

浏览 1提问于2011-05-09得票数 0

1回答

为什么信任区域策略优化是一种策略上的算法？

我想知道为什么信任区域策略优化是一种策略上的算法？与非策略算法相比，在策略方法中需要根据当前遵循的策略更新函数逼近器.特别是，我们将考虑信赖域PolicyOptimization，这是对传统策略梯度方法的一种推广，采用了自然梯度方向

浏览 0修改于2019-03-27得票数 2

回答已采纳

1回答

NoSQL优化策略

查找关于以下内容的一些输入。希望这对版主来说不会太主观。如果一个移动应用程序要有一个Group对象和一个用户，其中一个用户可以属于许多组，而一个组有很多用户(多到多的关系)，我可以用我正在考虑的两种方法来设计这几种方法：Users [{ groups : {1,2,3,4} id: 1,}]b) id: 1 id: 1

浏览 4修改于2017-09-22得票数 0

回答已采纳

1回答

如何对经典控制问题实现最大策略优化(PPO)算法？

我正在尝试实现对经典控制任务的剪裁PPO算法，如保持室温，电池充电等在一定的范围内。到目前为止，我只在游戏环境中看到了实现。我的问题是，游戏环境和经典的控制问题是不同的，当涉及到实现剪裁PPO算法？如果他们是，帮助和提示如何实现我的情况下的算法。

浏览 0提问于2019-05-01得票数 1

回答已采纳

1回答

樱桃采摘时的问题-最大限度的策略优化

我正在使用PPO2在稳定基线(OpenAI的基线叉)中的实现来解决强化学习问题。当采取法律行动时，它可能会导致一个与以前完全不同的状态。它也可能导致完全不同的法律诉讼。所以，石头留在木板上的地方就不一样了。我目前给模型一个包含法律行为的向量(一个多热向量，一个合法向量，0表示非法行为)。当模型对动作进行采样时，我首先通过乙状结肠运行动作手段，所以它们都是正的，但仍然保持相对大小的顺序。然后

浏览 0修改于2021-08-09得票数 2

1回答