文章/答案/技术大牛

发布

社区首页 >问答首页 >监督学习，(ii)无监督学习，(iii)强化学习

问监督学习，(ii)无监督学习，(iii)强化学习
EN

Stack Overflow用户

提问于 2013-04-03 17:00:49

回答 4查看 12.1K关注 0票数 5

我是机器学习的新手。在阅读关于监督学习，无监督学习，强化学习的时候，我遇到了一个问题，如下所示，并感到困惑。请帮助我在以下三项中识别出哪一种是监督学习，无监督学习，强化学习。

哪种类型的学习(如果有的话)最适合描述以下三种情况：

(i)为自动售货机设立硬币分类系统。为此，开发人员从美国造币厂获得准确的硬币规格，并推导出大小、重量和面额的统计模型，然后自动售货机使用该模型对硬币进行分类。

(ii)不是打电话给美国造币厂来获取硬币信息，而是给出了一种算法，其中包含大量标记的硬币。该算法使用这些数据来推断决策边界，然后自动售货机使用这些边界对其硬币进行分类。

(iii)计算机通过重复玩Tic-Tac-Toe并通过惩罚最终导致失败的动作来调整其策略，从而开发出一种玩Tic-Tac-Toe的策略。

machine-learning

artificial-intelligence

回答 4

Stack Overflow用户

发布于 2013-04-03 23:57:55

(i)无监督学习--因为没有标记的数据可用

(ii)监督学习--因为您已经有标记的数据可用

(iii)强化学习--根据动作和动作的效果/奖励进行学习和再学习。

票数 3

Stack Overflow用户

发布于 2013-04-03 17:37:48

比方说，您有一个表示为矩阵X的数据集。X中的每一行都是一个观察值(实例)，每一列代表特定的变量(特性)。

如果您还具有(并使用)与观察值相对应的标签向量学习，则这是supervised y 的一个任务。这里涉及“监督者”，即哪些观察属于#1类，哪些属于#2类，等等。

如果您没有用于观察的标签，那么您必须根据X数据集本身做出决策。例如，在使用硬币的示例中，您可能希望为硬币参数建立正态分布模型，并创建当硬币具有不寻常的参数(因此可能是企图欺诈)时发出信号的系统。在这种情况下，你没有任何类型的监督者会说什么硬币是可以的，什么代表欺诈企图。因此，它是无监督学习任务。

在前面的两个示例中，您首先训练了模型，然后使用它，而不需要对模型进行任何进一步的更改。在强化学习中，模型根据处理后的数据和结果不断改进。例如，寻找从点A到点B的路径的机器人可以首先计算移动的参数，然后基于这些参数移动，然后分析新的位置并更新移动参数，以便下一次移动将更加准确(重复直到到达点B)。

基于此，我敢肯定你将能够找到这3种学习和你的项目之间的对应关系。

票数 2

Stack Overflow用户

发布于 2013-05-01 14:56:19

在有监督的算法中，类是预先确定的。这些类可以被认为是一个有限的集合，以前是由人类得出的。在实践中，某些数据段将使用这些分类进行标记。机器学习器的任务是搜索模式并构建数学模型。然后，根据它们相对于数据本身的方差度量的预测能力来评估这些模型。文档中引用的许多方法(决策树归纳、朴素贝叶斯等)都是监督学习技术的示例。

无监督学习器没有提供分类。事实上，无监督学习的基本任务是自动生成分类标签。无监督算法寻找数据片段之间的相似性，以确定它们是否可以被表征为形成一个组。这些组被称为聚类，并且有一整套聚类机器学习技术。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15782956

复制

相似问题

问监督学习，(ii)无监督学习，(iii)强化学习
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问监督学习，(ii)无监督学习，(iii)强化学习EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问监督学习，(ii)无监督学习，(iii)强化学习
EN