首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >退火在机器学习中意味着什么?

退火在机器学习中意味着什么?
EN

Data Science用户
提问于 2020-05-24 22:24:11
回答 1查看 933关注 0票数 2

Open发布的一篇文章给了开放AI 5的工作原理综述。该条中有一款规定:

我们的代理被训练使未来报酬的指数衰减和最大化,加权指数衰减因子称为γ。在最近一次OpenAI 5的训练中,我们将γ从0.998 (用半衰期46秒来评估未来奖励)退火到0.9997 (以5分钟的半衰期来评估未来奖励)。

在这种背景下退火是否意味着网络通过培训发现γ比0.9997更好?如何确定这一点?

我对这个主题的有限理解使我对γ是如何退火的提出了以下假设:使用不同版本的γ对不同版本的网络进行一定时间的培训。然后对不同版本的网络进行了比较,确定了γ的理想值。

EN

回答 1

Data Science用户

发布于 2020-11-22 16:16:53

退火是模拟退火的简称。模拟退火是在探索解空间时缓慢降低接受较差解的概率的过程。在实验过程中,γ值被缓慢降低,以平衡勘探和开发。γ是一种机器学习的超参数,因此任何超参数搜索方法都可以工作(例如手动选择或交叉验证)。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/74781

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档