首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >监督学习与离线(批)强化学习

监督学习与离线(批)强化学习
EN

Stack Overflow用户
提问于 2021-08-14 10:15:17
回答 1查看 487关注 0票数 0

大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督学习和强化学习之间关系的讨论。然而,它实际上是监督学习和在线强化学习的比较,在这种情况下,agent在环境中运行(或模拟交互),以获得对底层动力学的有限知识的反馈。

我对离线(批量)强化学习更感兴趣,在这里,数据集(收集的学习经验)是先验的。与监督学习相比,有什么不同?他们可能有哪些相似之处?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-14 10:36:42

,我对增强学习的离线(批处理)设置更感兴趣,在这里,数据集(收集的学习经验)是事先给出的。与监督学习相比,有什么不同?他们可能有哪些相似之处?

在在线环境下,监督学习和强化学习的根本区别在于对探索的需求和RL中的探索/开发之间的权衡。然而,在离线环境中也存在一些不同之处,这使得RL比监督学习更难/更丰富。在我的头顶上,我能想到一些不同之处:

  1. 在强化学习中,agent以标量奖励的形式得到所谓的“评价反馈”,它给agent一些反馈来判断所采取的行动的质量,但它并没有告诉agent这个动作是否是最优行为。与有监督的学习形成对比,agent接收所谓的“指导性反馈”:对于学习者所做的每一个预测,它都会收到一个反馈(标签),说明最佳的行为/预测是什么。在第一章里,里奇·萨顿的书中详细阐述了指导性反馈和评价性反馈之间的区别。本质上,强化学习是使用稀疏标签进行优化,对于某些操作,您可能根本得不到任何反馈,而在其他情况下,反馈可能会延迟,从而产生信用分配问题。

在强化学习中,

  1. 有一个时间方面,目标是找到一个最优策略,将状态映射到某个时间范围内的行为(时间步骤数)。如果视界T=1,那么它只是一个一次性的预测问题,就像在监督学习中一样,但如果T>1则是一个顺序优化问题,您必须在单个状态下,而且在多个状态下,找到最优动作,而在一个状态下所采取的行动可能会影响在未来状态下应该采取的行动(即是动态的),这进一步复杂化了。

  1. 在监督学习中有一个固定的i.i.d分布,从中提取数据点(至少这是常见的假设)。在RL中没有固定的分布,而是这个分布取决于所遵循的策略,而且这个分布通常不是i.i.d,而是相关的。

因此,RL是一个比监督学习更丰富的问题。实际上,可以将任何有监督的学习任务转化为强化学习任务:可以利用监督任务的损失函数来定义奖励函数,将较小的损失映射为更大的报酬。虽然不清楚为什么要这样做,因为它将监督问题转化为一个更困难的强化学习问题。强化学习比有监督学习做的假设少,因此通常比监督学习更难解决。然而,相反的情况是不可能的,一般情况下不可能将强化学习问题转化为监督学习问题。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68782353

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档