我正试图为硬件容量优化建立一个强化学习模型。模型的状态将输入CPU容量利用率、内存利用率。这个模型应该用来预测我需要为我的环境准备的CPU、内存等等。该模型以DQN为核心,基于当前容量的奖励机制。
我面临的挑战是,每当我以相同的输入状态和奖励机制运行时,我就会得到不同的硬件组合。
RL是否可能为同一组输入和奖励提供不同的输出?
发布于 2021-02-21 16:06:40
强化学习原则上不应成为库存的来源,即给定完全相同的输入,dqn模型和rl代理应该给出完全相同的输出。
在你的环境中,随机性的来源可能是随机的种子。确保只设置一次,并与所有具有随机方面的库(即网络初始化、批选择、模拟器(如果使用)共享它)。
https://datascience.stackexchange.com/questions/89688
复制相似问题