文章/答案/技术大牛

发布

社区首页 >问答首页 >什么是强化学习？

问什么是强化学习？
EN

Data Science用户

提问于 2016-10-04 08:50:03

回答 4查看 883关注 0票数 6

我熟悉监督学习和非监督学习的概念，但最近加强了(强化？)学习也在我面前出现过几次。谁能给出一个提示，它是什么，与其他两个(或特别是与无监督类型)的主要区别，有一些很好的例子？这是一个有希望的选择，值得探索，还是只是一些吹嘘的利基好奇心？

reinforcement-learning

回答 4

Data Science用户

发布于 2016-10-04 10:03:25

强化学习使用了一种简单的学习逻辑，在这种逻辑中，网络试图从它获得的反馈中学习。从长远来看，这样做是为了优化总体回报，而不是目前的回报。

这是阅读它的最佳平台之一。它还包含一些有用的链接。

正如维基所述，基本强化学习模式包括：

一套环境状态S；
一套行动A；
国家之间的过渡规则；
确定过渡的标量立即报酬的规则；以及
描述代理所观察内容的规则。

规则通常是随机的。观察通常涉及到与最后一次转换相关联的标量即时奖励。在许多工作中，代理也被假定为观察当前的环境状态，在这种情况下，我们讨论完全可观测性，而在相反的情况下，我们讨论部分可观察性。有时，代理可用的一组操作受到限制(例如，您不能花费比所拥有的更多的钱)。

票数 6

Data Science用户

发布于 2016-10-04 19:09:37

希玛的回答很好地概括了强化学习的大纲和目的。如果您有兴趣深入了解一下，我会推荐这本目前免费的书。

它做了一个伟大的工作，让你从一个基本的强化学习定义，通过各种解决方案，以应对现代挑战。

票数 1

Data Science用户

发布于 2017-01-14 00:40:38

虽然前面的答案包含了很多关于强化学习(RL)领域的内容，但我在这里给出了一个简单的例子来理解这个概念，以及监督学习(SL)和无监督学习(UL)之间的关系。

想象一下，你有一个机器人，你想教它开车。每一个机器人收到的道路图像都是输入。你有一个选择，为了教机器人，你可以告诉它，每次它收到道路的图像，多少方向盘。这是SL，因为你将对道路的每一个输入状态映射到适当的旋转轮角度。这里的要点是，你知道什么是你的机器人做的最理想的事情，你通过例子来教它。

在RL环境中，你只要让机器人尝试它想要的任何东西，你就会对它所采取的行动给予奖励/惩罚(S)。奖励/惩罚的大小可能取决于汽车的损坏、在同一车道上停留很长时间等。奖励/惩罚可能会延迟，而不是在机器人采取的每一项行动上。

在第一个示例(SL)中，机器人试图最小化建议与其选择之间的错误。在第二个例子中，机器人试图通过自己找到最好的方法来获得最大的回报。SL的最佳方式将引导你找到一个“模仿”你教它的机器人。在RL方法的最佳状态下，机器人的行为将在驾驶汽车方面是最优的，也可能比你的行为更好。换句话说，它将制定自己的战略。

总之，在SL中，有一位老师在每一个时间步骤上都会告诉你正确的反应。在RL中，你试着自己找到它，老师给你一个奖励/惩罚。在UL中，您没有任何外部反馈。所以RL介于SL和RL之间。

我简化了很多术语，只是为了用这个例子对学习技巧进行概念化。

希望能帮上忙！

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/14346

复制

相似问题

问什么是强化学习？
EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是强化学习？EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是强化学习？
EN