我怀疑在使用任何算法进行聚类后,是否可以根据从先前数据中学习的结果来分割新数据
发布于 2020-03-05 20:21:29
问题是聚类算法是无监督学习算法。它们不需要依赖变量来预测类。它们用于查找数据点中的结构/相似性。您可以做的是,将集群数据视为您的监督数据。
该方法将在训练数据中聚类和分配标签。将其视为多类分类数据,使用您的数据训练新的多类分类模型,并在测试数据上进行验证。
Let train and test be the datasets.
clusters <- Clustering(train)
train[y] <- clusters
model <- Classification(train, train[y])
prediction <- model.predict(test)然而,有趣的是,sklearn中的KMeans提供了拟合和预测方法。因此,使用sklearn中的KMeans可以在新数据中进行预测。然而,从DBScan的工作机制来看,它并没有很明显的预测性。
发布于 2020-03-06 14:59:46
聚类是一种无监督机制,其中聚类的数量和需要聚类的片段的身份对系统来说是未知的。
因此,您可以做的是获得一个模型的学习,该模型经过聚类、分类、识别或验证的训练,并将该学习应用于您的聚类用例。
如果新数据来自与训练数据相同的域,则很可能最终会在聚类中获得更高的准确性。(您需要根据您选择的数据类型正确选择集群方法。例如,对于语音聚类,优势集和层次聚类将是最有潜力的候选者)。如果新数据来自不同的域,那么选择的模型可能会失败,因为它学习了与您的训练数据域相对应的特征。
https://stackoverflow.com/questions/60537698
复制相似问题