文章/答案/技术大牛

发布

社区首页 >问答首页 >退火在机器学习中意味着什么？

问退火在机器学习中意味着什么？
EN

Data Science用户

提问于 2020-05-24 22:24:11

回答 1查看 933关注 0票数 2

Open发布的一篇文章给了开放AI 5的工作原理综述。该条中有一款规定：

我们的代理被训练使未来报酬的指数衰减和最大化，加权指数衰减因子称为γ。在最近一次OpenAI 5的训练中，我们将γ从0.998 (用半衰期46秒来评估未来奖励)退火到0.9997 (以5分钟的半衰期来评估未来奖励)。

在这种背景下退火是否意味着网络通过培训发现γ比0.9997更好？如何确定这一点？

我对这个主题的有限理解使我对γ是如何退火的提出了以下假设:使用不同版本的γ对不同版本的网络进行一定时间的培训。然后对不同版本的网络进行了比较，确定了γ的理想值。

发布于 2020-11-22 16:16:53

退火是模拟退火的简称。模拟退火是在探索解空间时缓慢降低接受较差解的概率的过程。在实验过程中，γ值被缓慢降低，以平衡勘探和开发。γ是一种机器学习的超参数，因此任何超参数搜索方法都可以工作(例如手动选择或交叉验证)。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/74781

复制

相似问题

问退火在机器学习中意味着什么？EN