Open发布的一篇文章给了开放AI 5的工作原理综述。该条中有一款规定:
我们的代理被训练使未来报酬的指数衰减和最大化,加权指数衰减因子称为γ。在最近一次OpenAI 5的训练中,我们将γ从0.998 (用半衰期46秒来评估未来奖励)退火到0.9997 (以5分钟的半衰期来评估未来奖励)。
在这种背景下退火是否意味着网络通过培训发现γ比0.9997更好?如何确定这一点?
我对这个主题的有限理解使我对γ是如何退火的提出了以下假设:使用不同版本的γ对不同版本的网络进行一定时间的培训。然后对不同版本的网络进行了比较,确定了γ的理想值。
发布于 2020-11-22 16:16:53
退火是模拟退火的简称。模拟退火是在探索解空间时缓慢降低接受较差解的概率的过程。在实验过程中,γ值被缓慢降低,以平衡勘探和开发。γ是一种机器学习的超参数,因此任何超参数搜索方法都可以工作(例如手动选择或交叉验证)。
https://datascience.stackexchange.com/questions/74781
复制相似问题