首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么RL被称为“强化”学习?

为什么RL被称为“强化”学习?
EN

Stack Overflow用户
提问于 2018-05-28 08:03:38
回答 3查看 760关注 0票数 4

我理解为什么机器学习是这样命名的,除此之外,还有监督学习和无监督学习背后的术语。那么,关于强化学习,reinforced是什么?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2018-05-28 08:03:54

强化学习中的“强化”是指如何鼓励某些行为,而不鼓励其他行为。通过与环境的经验获得的奖励来强化行为。

票数 4
EN

Stack Overflow用户

发布于 2020-10-13 00:02:01

现代强化学习建立在两条主线之上。其中一条主线是通过尝试和错误来学习,它起源于动物学习的心理学。第二个线程涉及最优控制问题,它是一个使用值函数和动态编程的解决方案( Sutton和Barto.,2018)。强化学习从第一线的研究中借用了他的名字。根据沃特金斯(1989)的说法,在研究动物的学习能力时,动物可能会自动获得增强剂。例如,从行为学角度讲,阳性增强剂可能是饥饿动物的一小口食物,也可能是口渴动物的一口水。相反,阴性增强子可能是电击。

PS。Watkins提出了Q学习算法。

编辑:(添加更多历史记录)

根据萨顿和巴托(2018)的说法:“在桑代克的效应定律表达之后很久,在动物学习的背景下,术语强化(“reinforcement”)就开始使用了,据我们所知,第一次出现在这种背景下(据我们所知)是在1927年巴夫洛夫关于条件反射的专著的英译本中。巴夫洛夫将强化描述为由于动物接受刺激--一种增强器--与另一种刺激或反应的适当时间关系而导致的行为模式的加强。”

题名/责任者:A.强化学习:简介。麻省理工学院出版社,2018。

桑代克,E. L.动物智商。哈夫纳,达里安,康涅狄格州,1911年。

克里斯托弗·约翰·科尼什·赫拉比。“从延迟奖励中学习”(1989)。

票数 1
EN

Stack Overflow用户

发布于 2018-05-28 08:58:06

强化学习通过试验和错误得到加强。不正确(或不太理想)的结果不需要手动纠正。相反,重点是探索,并从这些相同的经验中获得反馈(强化)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50557601

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档