文章/答案/技术大牛

发布

社区首页 >问答首页 >监督学习和无监督学习是聚类的同义词吗？

问监督学习和无监督学习是聚类的同义词吗？
EN

Stack Overflow用户

提问于 2015-01-19 15:25:56

回答 2查看 1.7K关注 0票数 0

我是机器学习的初学者，最近读到了关于监督和非监督机器学习的文章。看来监督学习是分类的同义词，而无监督学习是聚类的同义词，是吗？

machine-learning

classification

cluster-analysis

supervised-learning

unsupervised-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-01-19 16:08:54

不是的。

监督学习是当你知道正确的答案(目标)时。根据它们的类型，它可能是分类 (分类目标)、回归 (数字目标)或学会排名 (序号目标)(这个列表不完整，可能还有其他类型我忘记或不知道)。

相反，在无监督的学习环境中，我们不知道正确的答案，我们试图推断，从数据中学习一些结构。无论是簇数还是低维近似(降维，实际上，人们可能认为聚类化是一维降维的极端情况)。再说一遍，这可能离完整性很远，但是一般的想法是关于隐藏的结构，我们试图从数据中发现它。

票数 3

Stack Overflow用户

发布于 2015-01-19 20:38:28

监督学习是指你在训练数据上贴上标签。换句话说，您有一个定义良好的目标来优化您的方法。

典型的(监督)学习任务是分类和回归:学习预测类别(分类)、数值(回归)值或等级(学习排序)。

非支持学习是一个奇怪的术语。因为大多数时候，这些方法并没有“学习”任何东西。因为他们能从中学到什么？你没有训练数据？

有许多非监督方法不符合“学习”范式。这包括降维方法，如PCA (这远远早于任何“机器学习”- PCA是在1901年提出的，远早于计算机！)其中许多只是数据驱动的统计数据(而不是参数化统计)。这包括大多数聚类分析方法，孤立点检测，.要理解这些，最好走出“学习”的心态。许多人很难理解这些方法，因为他们总是以学习中常见的“最小化目标函数f”的思维方式思考。

例如，考虑DBSCAN。最流行的聚类算法之一。它不太符合学习范式。它可以很好地解释为图论结构：(密度-)连通部件。但它并没有优化任何目标函数。它计算关系的传递闭包，但没有函数最大化或最小化。

类似地，APRIORI查找频繁项集；组合出现的项超过minsupp时间，其中minsupp是用户参数。这是一个非常简单的定义；但是当您拥有大量数据时，搜索空间可能会非常大。蛮力的方法不能在可接受的时间内完成。因此，APRIORI使用了一种巧妙的搜索策略，以避免不必要的硬盘访问、计算和内存。但是在学习中没有“更坏”或“更好”的结果。无论结果是正确的(完整的)还是没有优化结果(仅在算法运行时)。

把这些方法称为“无监督学习”，是在把它们挤进一种他们不属于的心态。他们没有“学习”任何东西。既不优化函数，也不使用标签，也不使用任何类型的反馈。他们只是从数据库中选择一组特定的对象: APRIORI同时选择经常有1的列；DBSCAN在密度图中选择连接的组件。结果要么是正确的，要么不是。

一些(但目前还不是所有)无监督方法可以被形式化为一个优化问题。在这一点上，他们变得类似于流行的监督学习方法。例如k-均值是一个极小化问题。PCA是一个极小化问题，实际上与线性回归关系太密切.但情况正好相反。许多机器学习任务被转化为一个优化问题，并且可以用通用的统计工具来求解，而这些工具恰好在机器学习中非常流行(例如线性规划)。然后，所有“学习”部分都封装在数据转换的方式中，然后再将其输入优化器。在某些情况下，如PCA，一种计算最优解的非迭代方法被发现(1901年)。因此，在这些情况下，您根本不需要通常的优化锤子。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28028017

复制

相似问题

问监督学习和无监督学习是聚类的同义词吗？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问监督学习和无监督学习是聚类的同义词吗？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问监督学习和无监督学习是聚类的同义词吗？
EN