我是机器学习的初学者,最近读到了关于监督和非监督机器学习的文章。看来监督学习是分类的同义词,而无监督学习是聚类的同义词,是吗?
发布于 2015-01-19 16:08:54
不是的。
监督学习是当你知道正确的答案(目标)时。根据它们的类型,它可能是分类 (分类目标)、回归 (数字目标)或学会排名 (序号目标)(这个列表不完整,可能还有其他类型我忘记或不知道)。
相反,在无监督的学习环境中,我们不知道正确的答案,我们试图推断,从数据中学习一些结构。无论是簇数还是低维近似(降维,实际上,人们可能认为聚类化是一维降维的极端情况)。再说一遍,这可能离完整性很远,但是一般的想法是关于隐藏的结构,我们试图从数据中发现它。
发布于 2015-01-19 20:38:28
监督学习是指你在训练数据上贴上标签。换句话说,您有一个定义良好的目标来优化您的方法。
典型的(监督)学习任务是分类和回归:学习预测类别(分类)、数值(回归)值或等级(学习排序)。
非支持学习是一个奇怪的术语。因为大多数时候,这些方法并没有“学习”任何东西。因为他们能从中学到什么?你没有训练数据?
有许多非监督方法不符合“学习”范式。这包括降维方法,如PCA (这远远早于任何“机器学习”- PCA是在1901年提出的,远早于计算机!)其中许多只是数据驱动的统计数据(而不是参数化统计)。这包括大多数聚类分析方法,孤立点检测,.要理解这些,最好走出“学习”的心态。许多人很难理解这些方法,因为他们总是以学习中常见的“最小化目标函数f”的思维方式思考。
例如,考虑DBSCAN。最流行的聚类算法之一。它不太符合学习范式。它可以很好地解释为图论结构:(密度-)连通部件。但它并没有优化任何目标函数。它计算关系的传递闭包,但没有函数最大化或最小化。
类似地,APRIORI查找频繁项集;组合出现的项超过minsupp时间,其中minsupp是用户参数。这是一个非常简单的定义;但是当您拥有大量数据时,搜索空间可能会非常大。蛮力的方法不能在可接受的时间内完成。因此,APRIORI使用了一种巧妙的搜索策略,以避免不必要的硬盘访问、计算和内存。但是在学习中没有“更坏”或“更好”的结果。无论结果是正确的(完整的)还是没有优化结果(仅在算法运行时)。
把这些方法称为“无监督学习”,是在把它们挤进一种他们不属于的心态。他们没有“学习”任何东西。既不优化函数,也不使用标签,也不使用任何类型的反馈。他们只是从数据库中选择一组特定的对象: APRIORI同时选择经常有1的列;DBSCAN在密度图中选择连接的组件。结果要么是正确的,要么不是。
一些(但目前还不是所有)无监督方法可以被形式化为一个优化问题。在这一点上,他们变得类似于流行的监督学习方法。例如k-均值是一个极小化问题。PCA是一个极小化问题,实际上与线性回归关系太密切.但情况正好相反。许多机器学习任务被转化为一个优化问题,并且可以用通用的统计工具来求解,而这些工具恰好在机器学习中非常流行(例如线性规划)。然后,所有“学习”部分都封装在数据转换的方式中,然后再将其输入优化器。在某些情况下,如PCA,一种计算最优解的非迭代方法被发现(1901年)。因此,在这些情况下,您根本不需要通常的优化锤子。
https://stackoverflow.com/questions/28028017
复制相似问题