首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当无监督学习比监督学习更有益时,甚至存在标签?

当无监督学习比监督学习更有益时,甚至存在标签?
EN

Data Science用户
提问于 2020-01-08 12:09:04
回答 1查看 45关注 0票数 3

当无监督学习比监督学习更有益时,甚至存在标记?如果没有标签,无监督学习比监督学习更好,但在某些情况下甚至标记目标是可用的,监督学习方法效果更好。这些案件的情况如何?我们是否可以说,如果没有明确的依赖变量之间,无监督的学习效果更好?

EN

回答 1

Data Science用户

发布于 2020-01-09 01:01:12

当无监督学习比监督学习更有益时,甚至存在标记?

我想说的是,主要有两种情况:

  • 作为一个无监督的任务,任务在语义上更有意义。例如,让我们考虑一组带有主题注释的书籍:如果目标是将新书分类为相同的预先存在的类别,那么使用监督设置是有意义的。但是,如果目标是发现新的相似模式,对于人工注释器来说,这些模式在直觉上可能并不容易发现,那么无监督的主题建模就更有意义了。
  • 注释可用于某些数据子集(例如,用于评估目的),但在以后的生产中将不可用(在某种程度上,这也是目标的情况,但在这里是出于技术原因)。

如果没有标签,无监督学习比监督学习更好,但在某些情况下甚至标记目标是可用的,监督学习方法效果更好。这些案件的情况如何?

这里的问题是“更好”意味着什么,即如何评估任务。如果任务根据预先存在的标签进行评估,理论上,无监督版本不能比监督版本更好地工作,因为监督版本可以访问更多的信息。一种特别不合适的监督方法可能会比选得好的无监督方法更糟糕,但这不是一个公平的比较,而且在实践中也是不太可能的。

一般来说,这两者是不可比较的,因为任务是根本不同的:在有监督的环境中,人们想要找出与一些事先已知的信息相关的模式(标签),而在无监督的设置中,我们想要发现未知的模式。

我们是否可以说,如果没有明确的依赖变量之间,无监督的学习效果更好?

我不这么认为是因为:

  • 一些有监督的算法能够很好地对数据中的少量信息进行优化。即使根据标准度量可以看到“没有明显的依赖关系”,一些算法也可以最优地组合这些特性,以最小化错误。
  • 在特性和标签之间完全不依赖的情况下,无监督的方法可能表现得更好,因为它可能找到有意义的模式,但这些模式与标签完全无关(因为没有依赖)。因此,我们回到“更好”对于任务的含义:如果任务是发现未知的模式,那么确保无监督的模式“更好”,但这与标签无关,监督的方法在这里是没有意义的。如果任务是预测标签,那么无监督的方法和监督的方法一样糟糕(任务的设计有一个严重的缺陷!)
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/66107

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档