据我所知,我们需要使用训练数据来找出在监督学习中,特征(也称为输入值)和标签(输出值)之间的关系。然后,利用这种关系,我们的学习系统试图在下一个数据集中预测数据样本的标签。
然而,没有必要在无监督学习中找出这种关系,因为数据样本没有标签,它们只包含特征。在这种情况下,我们是否需要一个无监督学习的培训集?
发布于 2019-02-10 16:52:27
在无监督学习中,学习过程是发现训练样本之间的相似性,将相似的项目放入同一个聚类中,在无监督学习的训练阶段产生一些具有相似项的集合。然后,在测试阶段,计算每个集合的所有项的相似性,并检查测试项是否与每个集群的项相似,如果测试项与至少一个项相似,则测试项属于该集群。
所以..。是的,我们需要训练集和测试集,训练集有助于找到阈值以找到相似性。
发布于 2020-03-31 21:30:11
前提:一个人通常说,在无监督的学习中,没有真正的真理。嗯,这并不总是真的。我宁愿给出一个更精确的无监督学习模型的定义:它是一种模型,一旦你修正了它的超参数,它就不会使用任何实际的事实来给出它的输出。
如果一些地面真相是可用的,并且你建立了一个无监督的模型,你就忽略了这个地面真相。让我举一个实际的例子。假设您构建了一个无监督异常检测器,例如,基于k-均值聚类(Ch )。6例( 1)。假设你有基本真理,即对于某些样本,你知道它们是反常的还是正常的。当K-均值算法构建聚类时,它忽略了这一基本真理.
但是,您需要建立一个阈值τ,这样,如果一个样本与所有星系团质心的距离大于τ,他们就会认为它是一个异常。你是怎么建立陶的。一种方法是画出假阳性(即假警报)和异常检测的真阳性随τ的不同选择而变化的曲线,然后选择一个看起来还可以的值。请注意,要计算假阳性和真阳性,需要使用基本真理。
所以,虽然上面的方法是没有监督的,但是你确实使用了地面真相来选择超参数τ。
在这种情况下,错误(特别是2的数据泄漏- Ch.8 )选择所有数据的超参数,然后再次评估对同一数据的最终异常检测器的性能。因为在一个真实的情况下,你将没有可供选择的超参数的基本真理。
在这种情况下,正确的方法是:-在培训/测试集中划分数据-仅使用培训集查找超参数-评估测试集上的性能。
1 Halder & Ozdemir,“网络安全的机器学习”,Packt,2018年
2 Teo,J. (2019)。数据科学文献。从https://buildmedia.readthedocs.org/media/pdf/python-data-science/latest/python-data-science.pdf检索
https://datascience.stackexchange.com/questions/45341
复制相似问题