我熟悉监督学习和非监督学习的概念,但最近加强了(强化?)学习也在我面前出现过几次。谁能给出一个提示,它是什么,与其他两个(或特别是与无监督类型)的主要区别,有一些很好的例子?这是一个有希望的选择,值得探索,还是只是一些吹嘘的利基好奇心?
发布于 2016-10-04 10:03:25
强化学习使用了一种简单的学习逻辑,在这种逻辑中,网络试图从它获得的反馈中学习。从长远来看,这样做是为了优化总体回报,而不是目前的回报。
这是阅读它的最佳平台之一。它还包含一些有用的链接。
正如维基所述,基本强化学习模式包括:
规则通常是随机的。观察通常涉及到与最后一次转换相关联的标量即时奖励。在许多工作中,代理也被假定为观察当前的环境状态,在这种情况下,我们讨论完全可观测性,而在相反的情况下,我们讨论部分可观察性。有时,代理可用的一组操作受到限制(例如,您不能花费比所拥有的更多的钱)。
发布于 2016-10-04 19:09:37
希玛的回答很好地概括了强化学习的大纲和目的。如果您有兴趣深入了解一下,我会推荐这本目前免费的书。
它做了一个伟大的工作,让你从一个基本的强化学习定义,通过各种解决方案,以应对现代挑战。
发布于 2017-01-14 00:40:38
虽然前面的答案包含了很多关于强化学习(RL)领域的内容,但我在这里给出了一个简单的例子来理解这个概念,以及监督学习(SL)和无监督学习(UL)之间的关系。
想象一下,你有一个机器人,你想教它开车。每一个机器人收到的道路图像都是输入。你有一个选择,为了教机器人,你可以告诉它,每次它收到道路的图像,多少方向盘。这是SL,因为你将对道路的每一个输入状态映射到适当的旋转轮角度。这里的要点是,你知道什么是你的机器人做的最理想的事情,你通过例子来教它。
在RL环境中,你只要让机器人尝试它想要的任何东西,你就会对它所采取的行动给予奖励/惩罚(S)。奖励/惩罚的大小可能取决于汽车的损坏、在同一车道上停留很长时间等。奖励/惩罚可能会延迟,而不是在机器人采取的每一项行动上。
在第一个示例(SL)中,机器人试图最小化建议与其选择之间的错误。在第二个例子中,机器人试图通过自己找到最好的方法来获得最大的回报。SL的最佳方式将引导你找到一个“模仿”你教它的机器人。在RL方法的最佳状态下,机器人的行为将在驾驶汽车方面是最优的,也可能比你的行为更好。换句话说,它将制定自己的战略。
总之,在SL中,有一位老师在每一个时间步骤上都会告诉你正确的反应。在RL中,你试着自己找到它,老师给你一个奖励/惩罚。在UL中,您没有任何外部反馈。所以RL介于SL和RL之间。
我简化了很多术语,只是为了用这个例子对学习技巧进行概念化。
希望能帮上忙!
https://datascience.stackexchange.com/questions/14346
复制相似问题