首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >强化学习还是监督学习?

强化学习还是监督学习?
EN

Stack Overflow用户
提问于 2018-11-14 07:35:14
回答 5查看 448关注 0票数 1

如果在强化学习(RL)算法在现实世界中工作之前,需要在模拟环境中进行大量迭代,为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法而不是RL?

EN

回答 5

Stack Overflow用户

发布于 2018-11-14 08:06:15

原因是因为这两个字段有一个根本的区别:

一个试图复制以前的结果,另一个试图比以前的结果更好。

机器学习有4个领域:

  • Supervised learning
  • Unsupervised Learning
  • Semi-supervised Learning
  • Reinforcement learning

让我们讨论一下您所要求的两个字段,并通过一个真实的射箭示例直观地探索它们。

监督学习

对于有监督的学习,我们会观察一位射手的动作,大约一周,并记录他们将弓弦拉回多远,射门角度等,然后我们回家建立一个模型。在最理想的场景中,我们的模型变得与主archer一样好。它不能变得更好,因为监督学习中的损失函数通常是MSE或交叉熵,所以我们只是尝试复制特征标签映射。在构建模型之后,我们部署它。这么说吧,我们很有想象力,让它在网上学习。因此,我们不断地从弓箭大师那里获取数据,并继续学习与弓箭大师完全相同。

最大的收获是:

我们试图复制弓箭大师,只是因为我们认为他是最棒的。所以我们永远不能打败他。

强化学习

在强化学习中,我们简单地构建一个模型,并让它尝试许多不同的事情。我们根据箭离靶心的距离给它一个奖励/惩罚。我们没有试图复制任何行为,相反,我们试图找到我们自己的最佳行为。正因为如此,我们没有任何偏见,我们认为最优的拍摄策略是什么。

由于RL没有任何先验知识,因此RL可能很难收敛于困难的问题。因此,有一种称为学徒学习/模仿学习的方法,我们基本上给RL一些掌握弓箭手的轨迹,这样它就可以有一个起点并开始收敛。但在那之后,RL将通过采取随机行动来探索,有时试图找到其他最优解决方案。这是监督学习不能做到的事情。因为如果你探索使用监督学习,你基本上是在说,在这种状态下采取这种行动是最优的。然后你尝试让你的模型复制它。,但这种情况在监督学习中是错误的,应该被视为数据中的异常值。

监督学习与RL的主要区别:

done

  • Reinforcement学习可以探索状态空间,并执行随机操作。
  • Supervised Learning复制了已经存在的学习。这使得RL有可能比目前最好的更好。

为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法而不是RL

我们为Deep RL这样做是因为它有一个体验重放缓冲区。但这对于监督学习来说是不可能的,因为缺乏奖励的概念。

例如:走在迷宫中。

强化学习

在正方形3右转:奖励=5

在正方形3左转:奖励=0

在正方形3中上升:奖励= -5

监督学习

在正方形3右转

在3号广场左转

在正方形3中向上移动

当你试图在正方形3做决定时,RL就会知道该怎么做。监督学习会被混淆,因为在一个例子中,你的数据说在正方形3向右,第二个例子说向左,第三个例子说向上。所以它永远不会收敛。

票数 3
EN

Stack Overflow用户

发布于 2019-01-18 04:41:01

简而言之,监督学习是被动学习,即在开始训练模型之前收集所有数据。

然而,强化学习是主动学习。在RL中,通常一开始没有太多数据,在训练模型时收集新数据。你的RL算法和模型决定了你在训练时可以收集哪些特定的数据样本。

票数 1
EN

Stack Overflow用户

发布于 2018-11-28 13:59:38

监督学习中,我们有假设正确的目标标记数据。

RL中,情况并非如此,我们只有奖励。智能体需要通过与环境玩游戏来计算自己应该采取哪种行动,同时观察它获得的奖励。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53291055

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档