问强化学习模型总是给出不同的输出
EN

Data Science用户

提问于 2021-02-21 06:09:22

回答 1查看 139关注 0票数 0

我正试图为硬件容量优化建立一个强化学习模型。模型的状态将输入CPU容量利用率、内存利用率。这个模型应该用来预测我需要为我的环境准备的CPU、内存等等。该模型以DQN为核心，基于当前容量的奖励机制。

我面临的挑战是，每当我以相同的输入状态和奖励机制运行时，我就会得到不同的硬件组合。

RL是否可能为同一组输入和奖励提供不同的输出？

发布于 2021-02-21 16:06:40

强化学习原则上不应成为库存的来源，即给定完全相同的输入，dqn模型和rl代理应该给出完全相同的输出。

在你的环境中，随机性的来源可能是随机的种子。确保只设置一次，并与所有具有随机方面的库(即网络初始化、批选择、模拟器(如果使用)共享它)。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/89688

复制

相似问题

问强化学习模型总是给出不同的输出EN