文章/答案/技术大牛

发布

社区首页 >问答首页 >无监督学习和培训数据

问无监督学习和培训数据
EN

Data Science用户

提问于 2019-02-10 15:32:13

回答 2查看 1.8K关注 0票数 0

据我所知，我们需要使用训练数据来找出在监督学习中，特征(也称为输入值)和标签(输出值)之间的关系。然后，利用这种关系，我们的学习系统试图在下一个数据集中预测数据样本的标签。

然而，没有必要在无监督学习中找出这种关系，因为数据样本没有标签，它们只包含特征。在这种情况下，我们是否需要一个无监督学习的培训集？

machine-learning

training

unsupervised-learning

supervised-learning

回答 2

Data Science用户

发布于 2019-02-10 16:52:27

在无监督学习中，学习过程是发现训练样本之间的相似性，将相似的项目放入同一个聚类中，在无监督学习的训练阶段产生一些具有相似项的集合。然后，在测试阶段，计算每个集合的所有项的相似性，并检查测试项是否与每个集群的项相似，如果测试项与至少一个项相似，则测试项属于该集群。

所以..。是的，我们需要训练集和测试集，训练集有助于找到阈值以找到相似性。

票数 1

Data Science用户

发布于 2020-03-31 21:30:11

前提:一个人通常说，在无监督的学习中，没有真正的真理。嗯，这并不总是真的。我宁愿给出一个更精确的无监督学习模型的定义:它是一种模型，一旦你修正了它的超参数，它就不会使用任何实际的事实来给出它的输出。

如果一些地面真相是可用的，并且你建立了一个无监督的模型，你就忽略了这个地面真相。让我举一个实际的例子。假设您构建了一个无监督异常检测器，例如，基于k-均值聚类(Ch )。6例( 1)。假设你有基本真理，即对于某些样本，你知道它们是反常的还是正常的。当K-均值算法构建聚类时，它忽略了这一基本真理.

但是，您需要建立一个阈值τ，这样，如果一个样本与所有星系团质心的距离大于τ，他们就会认为它是一个异常。你是怎么建立陶的。一种方法是画出假阳性(即假警报)和异常检测的真阳性随τ的不同选择而变化的曲线，然后选择一个看起来还可以的值。请注意，要计算假阳性和真阳性，需要使用基本真理。

所以，虽然上面的方法是没有监督的，但是你确实使用了地面真相来选择超参数τ。

在这种情况下，错误(特别是2的数据泄漏- Ch.8 )选择所有数据的超参数，然后再次评估对同一数据的最终异常检测器的性能。因为在一个真实的情况下，你将没有可供选择的超参数的基本真理。

在这种情况下，正确的方法是：-在培训/测试集中划分数据-仅使用培训集查找超参数-评估测试集上的性能。

1 Halder & Ozdemir，“网络安全的机器学习”，Packt，2018年

2 Teo，J. (2019)。数据科学文献。从https://buildmedia.readthedocs.org/media/pdf/python-data-science/latest/python-data-science.pdf检索

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/45341

复制

相似问题

问无监督学习和培训数据
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无监督学习和培训数据EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无监督学习和培训数据
EN