文章/答案/技术大牛

发布

社区首页 >问答首页 >强化学习还是监督学习？

问强化学习还是监督学习？
EN

Stack Overflow用户

提问于 2018-11-14 07:35:14

回答 5查看 448关注 0票数 1

如果在强化学习(RL)算法在现实世界中工作之前，需要在模拟环境中进行大量迭代，为什么我们不使用相同的模拟环境来生成标记数据，然后使用监督学习方法而不是RL？

reinforcement-learning

supervised-learning

回答 5

Stack Overflow用户

发布于 2018-11-14 08:06:15

原因是因为这两个字段有一个根本的区别：

一个试图复制以前的结果，另一个试图比以前的结果更好。

机器学习有4个领域：

Supervised learning
Unsupervised Learning
Semi-supervised Learning
Reinforcement learning

让我们讨论一下您所要求的两个字段，并通过一个真实的射箭示例直观地探索它们。

监督学习

对于有监督的学习，我们会观察一位射手的动作，大约一周，并记录他们将弓弦拉回多远，射门角度等，然后我们回家建立一个模型。在最理想的场景中，我们的模型变得与主archer一样好。它不能变得更好，因为监督学习中的损失函数通常是MSE或交叉熵，所以我们只是尝试复制特征标签映射。在构建模型之后，我们部署它。这么说吧，我们很有想象力，让它在网上学习。因此，我们不断地从弓箭大师那里获取数据，并继续学习与弓箭大师完全相同。

最大的收获是：

我们试图复制弓箭大师，只是因为我们认为他是最棒的。所以我们永远不能打败他。

强化学习

在强化学习中，我们简单地构建一个模型，并让它尝试许多不同的事情。我们根据箭离靶心的距离给它一个奖励/惩罚。我们没有试图复制任何行为，相反，我们试图找到我们自己的最佳行为。正因为如此，我们没有任何偏见，我们认为最优的拍摄策略是什么。

由于RL没有任何先验知识，因此RL可能很难收敛于困难的问题。因此，有一种称为学徒学习/模仿学习的方法，我们基本上给RL一些掌握弓箭手的轨迹，这样它就可以有一个起点并开始收敛。但在那之后，RL将通过采取随机行动来探索，有时试图找到其他最优解决方案。这是监督学习不能做到的事情。因为如果你探索使用监督学习，你基本上是在说，在这种状态下采取这种行动是最优的。然后你尝试让你的模型复制它。，但这种情况在监督学习中是错误的，应该被视为数据中的异常值。

监督学习与RL的主要区别：

done

Reinforcement学习可以探索状态空间，并执行随机操作。
Supervised Learning复制了已经存在的学习。这使得RL有可能比目前最好的更好。

为什么我们不使用相同的模拟环境来生成标记数据，然后使用监督学习方法而不是RL

我们为Deep RL这样做是因为它有一个体验重放缓冲区。但这对于监督学习来说是不可能的，因为缺乏奖励的概念。

例如:走在迷宫中。

强化学习

在正方形3右转:奖励=5

在正方形3左转:奖励=0

在正方形3中上升:奖励= -5

监督学习

在正方形3右转

在3号广场左转

在正方形3中向上移动

当你试图在正方形3做决定时，RL就会知道该怎么做。监督学习会被混淆，因为在一个例子中，你的数据说在正方形3向右，第二个例子说向左，第三个例子说向上。所以它永远不会收敛。

票数 3

Stack Overflow用户

发布于 2019-01-18 04:41:01

简而言之，监督学习是被动学习，即在开始训练模型之前收集所有数据。

然而，强化学习是主动学习。在RL中，通常一开始没有太多数据，在训练模型时收集新数据。你的RL算法和模型决定了你在训练时可以收集哪些特定的数据样本。

票数 1

Stack Overflow用户

发布于 2018-11-28 13:59:38

在监督学习中，我们有假设正确的目标标记数据。

在RL中，情况并非如此，我们只有奖励。智能体需要通过与环境玩游戏来计算自己应该采取哪种行动，同时观察它获得的奖励。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53291055

复制

相似问题

问强化学习还是监督学习？
EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习还是监督学习？EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习还是监督学习？
EN