作为一个无监督的任务，任务在语义上更有意义。例如，让我们考虑一组带有主题注释的书籍:如果目标是将新书分类为相同的预先存在的类别，那么使用监督设置是有意义的。但是，如果目标是发现新的相似模式，对于人工注释器来说，这些模式在直觉上可能并不容易发现，那么无监督的主题建模就更有意义了。
注释可用于某些数据子集(例如，用于评估目的)，但在以后的生产中将不可用(在某种程度上，这也是目标的情况，但在这里是出于技术原因)。

如果没有标签，无监督学习比监督学习更好，但在某些情况下甚至标记目标是可用的，监督学习方法效果更好。这些案件的情况如何？

这里的问题是“更好”意味着什么，即如何评估任务。如果任务根据预先存在的标签进行评估，理论上，无监督版本不能比监督版本更好地工作，因为监督版本可以访问更多的信息。一种特别不合适的监督方法可能会比选得好的无监督方法更糟糕，但这不是一个公平的比较，而且在实践中也是不太可能的。

一般来说，这两者是不可比较的，因为任务是根本不同的:在有监督的环境中，人们想要找出与一些事先已知的信息相关的模式(标签)，而在无监督的设置中，我们想要发现未知的模式。

我们是否可以说，如果没有明确的依赖变量之间，无监督的学习效果更好？

我不这么认为是因为：

一些有监督的算法能够很好地对数据中的少量信息进行优化。即使根据标准度量可以看到“没有明显的依赖关系”，一些算法也可以最优地组合这些特性，以最小化错误。
在特性和标签之间完全不依赖的情况下，无监督的方法可能表现得更好，因为它可能找到有意义的模式，但这些模式与标签完全无关(因为没有依赖)。因此，我们回到“更好”对于任务的含义:如果任务是发现未知的模式，那么确保无监督的模式“更好”，但这与标签无关，监督的方法在这里是没有意义的。如果任务是预测标签，那么无监督的方法和监督的方法一样糟糕(任务的设计有一个严重的缺陷！)

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/66107

复制

相似问题

问当无监督学习比监督学习更有益时，甚至存在标签？
EN

问当无监督学习比监督学习更有益时，甚至存在标签？EN