我理解为什么机器学习是这样命名的,除此之外,还有监督学习和无监督学习背后的术语。那么,关于强化学习,reinforced是什么?
发布于 2018-05-28 08:03:54
强化学习中的“强化”是指如何鼓励某些行为,而不鼓励其他行为。通过与环境的经验获得的奖励来强化行为。
发布于 2020-10-13 00:02:01
现代强化学习建立在两条主线之上。其中一条主线是通过尝试和错误来学习,它起源于动物学习的心理学。第二个线程涉及最优控制问题,它是一个使用值函数和动态编程的解决方案( Sutton和Barto.,2018)。强化学习从第一线的研究中借用了他的名字。根据沃特金斯(1989)的说法,在研究动物的学习能力时,动物可能会自动获得增强剂。例如,从行为学角度讲,阳性增强剂可能是饥饿动物的一小口食物,也可能是口渴动物的一口水。相反,阴性增强子可能是电击。
PS。Watkins提出了Q学习算法。
编辑:(添加更多历史记录)
根据萨顿和巴托(2018)的说法:“在桑代克的效应定律表达之后很久,在动物学习的背景下,术语强化(“reinforcement”)就开始使用了,据我们所知,第一次出现在这种背景下(据我们所知)是在1927年巴夫洛夫关于条件反射的专著的英译本中。巴夫洛夫将强化描述为由于动物接受刺激--一种增强器--与另一种刺激或反应的适当时间关系而导致的行为模式的加强。”
题名/责任者:A.强化学习:简介。麻省理工学院出版社,2018。
桑代克,E. L.动物智商。哈夫纳,达里安,康涅狄格州,1911年。
克里斯托弗·约翰·科尼什·赫拉比。“从延迟奖励中学习”(1989)。
发布于 2018-05-28 08:58:06
强化学习通过试验和错误得到加强。不正确(或不太理想)的结果不需要手动纠正。相反,重点是探索,并从这些相同的经验中获得反馈(强化)。
https://stackoverflow.com/questions/50557601
复制相似问题