大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督学习和强化学习之间关系的讨论。然而,它实际上是监督学习和在线强化学习的比较,在这种情况下,agent在环境中运行(或模拟交互),以获得对底层动力学的有限知识的反馈。
我对离线(批量)强化学习更感兴趣,在这里,数据集(收集的学习经验)是先验的。与监督学习相比,有什么不同?他们可能有哪些相似之处?
发布于 2021-08-14 10:36:42
,我对增强学习的离线(批处理)设置更感兴趣,在这里,数据集(收集的学习经验)是事先给出的。与监督学习相比,有什么不同?他们可能有哪些相似之处?
在在线环境下,监督学习和强化学习的根本区别在于对探索的需求和RL中的探索/开发之间的权衡。然而,在离线环境中也存在一些不同之处,这使得RL比监督学习更难/更丰富。在我的头顶上,我能想到一些不同之处:
在强化学习中,
因此,RL是一个比监督学习更丰富的问题。实际上,可以将任何有监督的学习任务转化为强化学习任务:可以利用监督任务的损失函数来定义奖励函数,将较小的损失映射为更大的报酬。虽然不清楚为什么要这样做,因为它将监督问题转化为一个更困难的强化学习问题。强化学习比有监督学习做的假设少,因此通常比监督学习更难解决。然而,相反的情况是不可能的,一般情况下不可能将强化学习问题转化为监督学习问题。
https://stackoverflow.com/questions/68782353
复制相似问题