如果在强化学习(RL)算法在现实世界中工作之前,需要在模拟环境中进行大量迭代,为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法而不是RL?
发布于 2018-11-14 08:06:15
原因是因为这两个字段有一个根本的区别:
一个试图复制以前的结果,另一个试图比以前的结果更好。
机器学习有4个领域:
让我们讨论一下您所要求的两个字段,并通过一个真实的射箭示例直观地探索它们。
监督学习
对于有监督的学习,我们会观察一位射手的动作,大约一周,并记录他们将弓弦拉回多远,射门角度等,然后我们回家建立一个模型。在最理想的场景中,我们的模型变得与主archer一样好。它不能变得更好,因为监督学习中的损失函数通常是MSE或交叉熵,所以我们只是尝试复制特征标签映射。在构建模型之后,我们部署它。这么说吧,我们很有想象力,让它在网上学习。因此,我们不断地从弓箭大师那里获取数据,并继续学习与弓箭大师完全相同。
最大的收获是:
我们试图复制弓箭大师,只是因为我们认为他是最棒的。所以我们永远不能打败他。
强化学习
在强化学习中,我们简单地构建一个模型,并让它尝试许多不同的事情。我们根据箭离靶心的距离给它一个奖励/惩罚。我们没有试图复制任何行为,相反,我们试图找到我们自己的最佳行为。正因为如此,我们没有任何偏见,我们认为最优的拍摄策略是什么。
由于RL没有任何先验知识,因此RL可能很难收敛于困难的问题。因此,有一种称为学徒学习/模仿学习的方法,我们基本上给RL一些掌握弓箭手的轨迹,这样它就可以有一个起点并开始收敛。但在那之后,RL将通过采取随机行动来探索,有时试图找到其他最优解决方案。这是监督学习不能做到的事情。因为如果你探索使用监督学习,你基本上是在说,在这种状态下采取这种行动是最优的。然后你尝试让你的模型复制它。,但这种情况在监督学习中是错误的,应该被视为数据中的异常值。
监督学习与RL的主要区别:
done
为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法而不是RL
我们为Deep RL这样做是因为它有一个体验重放缓冲区。但这对于监督学习来说是不可能的,因为缺乏奖励的概念。
例如:走在迷宫中。
强化学习
在正方形3右转:奖励=5
在正方形3左转:奖励=0
在正方形3中上升:奖励= -5
监督学习
在正方形3右转
在3号广场左转
在正方形3中向上移动
当你试图在正方形3做决定时,RL就会知道该怎么做。监督学习会被混淆,因为在一个例子中,你的数据说在正方形3向右,第二个例子说向左,第三个例子说向上。所以它永远不会收敛。
发布于 2019-01-18 04:41:01
简而言之,监督学习是被动学习,即在开始训练模型之前收集所有数据。
然而,强化学习是主动学习。在RL中,通常一开始没有太多数据,在训练模型时收集新数据。你的RL算法和模型决定了你在训练时可以收集哪些特定的数据样本。
发布于 2018-11-28 13:59:38
在监督学习中,我们有假设正确的目标标记数据。
在RL中,情况并非如此,我们只有奖励。智能体需要通过与环境玩游戏来计算自己应该采取哪种行动,同时观察它获得的奖励。
https://stackoverflow.com/questions/53291055
复制相似问题