问用于有监督和/或无监督学习的OpenAI健身房
EN

Data Science用户

提问于 2021-03-06 12:31:11

回答 1查看 189关注 0票数 2

OpenAI健身房真正实现了强化学习方式的规范化。它使数据科学家能够将模型开发和环境设置/构建分开，并将重点放在他们真正应该关注的方面。

引用健身网站的话：

背景:为什么健身房(2016)强化学习(RL)是与决策和运动控制相关的机器学习的子领域。它研究一个agent如何在复杂的、不确定的环境中学习如何实现目标。令人兴奋的原因有两个：

RL非常通用，它包含了所有涉及一系列决策的问题:例如，控制机器人的马达以便它能够运行和跳跃，做出商业决策，比如定价和库存管理，或者玩电子游戏和棋盘游戏。RL甚至可以应用于具有顺序或结构化输出的有监督学习问题。
在许多困难的环境中，RL算法已经开始取得良好的效果。RL有着悠久的历史，但直到最近在深入学习方面取得了进展，它还需要大量针对具体问题的工程。DeepMind的Atari结果，来自Pieter小组的BRETT和AlphaGo都使用了深度RL算法，对它们的环境没有太多的假设，因此可以在其他环境中应用。

然而，RL的研究也因以下两个因素而放缓：

需要更好的基准。在监督学习中，ImageNet这样的大型标记数据集推动了学习的进程。在RL中，最接近的等效环境将是一个庞大而多样的环境集合。然而，现有的RL环境的开放源码集合没有足够的多样性，甚至很难设置和使用它们。
出版物使用的环境缺乏标准化。问题定义中的细微差异，如奖励函数或行为集，可以极大地改变任务的难度。这个问题使复制已发表的研究和比较不同论文的结果变得困难。

健身房是一种解决这两个问题的尝试。

我在想，是否有类似于监督学习或非监督学习的东西。我认为，出于同样的原因，这种工具将是有用的。我是不是遗漏了什么？还是已经有什么东西了？

发布于 2021-06-06 18:51:34

整齐的数据是一种标准的表示有监督和无监督学习的数据的方法。Tidy将数据放入表格形式，其中每一行都是一个观察，每一列都是一个特性。一旦数据以这种形式出现，就可以进行机器学习建模。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/90330

复制

相似问题

问用于有监督和/或无监督学习的OpenAI健身房EN