首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >强化学习模型总是给出不同的输出

强化学习模型总是给出不同的输出
EN

Data Science用户
提问于 2021-02-21 06:09:22
回答 1查看 139关注 0票数 0

我正试图为硬件容量优化建立一个强化学习模型。模型的状态将输入CPU容量利用率、内存利用率。这个模型应该用来预测我需要为我的环境准备的CPU、内存等等。该模型以DQN为核心,基于当前容量的奖励机制。

我面临的挑战是,每当我以相同的输入状态和奖励机制运行时,我就会得到不同的硬件组合。

RL是否可能为同一组输入和奖励提供不同的输出?

EN

回答 1

Data Science用户

发布于 2021-02-21 16:06:40

强化学习原则上不应成为库存的来源,即给定完全相同的输入,dqn模型和rl代理应该给出完全相同的输出。

在你的环境中,随机性的来源可能是随机的种子。确保只设置一次,并与所有具有随机方面的库(即网络初始化、批选择、模拟器(如果使用)共享它)。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/89688

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档